文本的专有名词处理方法、装置和计算机设备制造方法及图纸

技术编号:21892003 阅读:38 留言:0更新日期:2019-08-17 14:33
本申请涉及一种文本的专有名词处理方法、装置、计算机设备和存储介质,获取用户通过终端发送的专有名词标记指令,根据专有名词标记指令获取各待标记的文本,获取到各待标记的文本后,自动基于数据库中的通过大数据建立的专有词库对各待标记的文本进行分析,自动提取各待标记的文本的专有名词,自动完成对各待标记的文本的专有名词的标记,当接收到用户通过终端触发文本中标记的专有名词的解释请求时,根据解释请求获取访问地址;通过正则表达式对访问地址中的页面内容进行爬取,获得专有名词的解释信息。无需用户参与标记过程,从而提高了工作效率,并且通过终端点击专有名词,即可获得相应的解释内容,提高用户体验度。

Appropriate noun processing methods, devices and computer equipment for text

【技术实现步骤摘要】
文本的专有名词处理方法、装置和计算机设备
本申请涉及计算机
,特别是涉及一种文本的专有名词处理方法、装置、计算机设备和存储介质。
技术介绍
随着互联网技术的不断发展,很多业务都是通过互联网完成。如:用户需要进行问卷调查时,如果调查问卷涉及专业问题,会包含有很多专业术语和名词的内容,用户不一定明白是什么意思,会导致用户答非所问。为了使用户在答题过程中能够清楚文本中的专业术语和名词,在用户答题之前,提前将文本中的专有名词通过人工的方式挑选出来,进行标记,通过人工的方式将专有名词的解释内容或链接与文本中的专有名词进行关联。这往往需要大量的人力来做人工标记和url的添加,工作效率低。
技术实现思路
基于此,有必要针对上述技术问题,提供一种能够提高工作效率的文本的专有名词处理方法、装置、计算机设备和存储介质。一种文本的专有名词处理方法,所述方法包括:获取专有名词标记指令;根据所述专有名词标记指令获取各待标记的文本;基于数据库中的专有词库对各所述待标记的文本进行分析,提取各所述待标记的文本的专有名词;将各所述待标记的文本的专有名词进行标记;当接收到用户通过终端触发文本中标记的所述专有名词的解释请求时,根据所述解释请求获取访问地址;通过正则表达式对所述访问地址中的页面内容进行爬取,获得所述专有名词的解释信息。在其中一个实施例中,所述基于数据库中的专有词库对各所述待标记的文本进行分析,提取各所述待标记的文本的专有名词的步骤,包括:对所述待标记的文本进行分词处理,获取各词语;获取各所述词语与所述专有词库中的专有名词的交集;将交集中的词语确定为各所述待标记的文本中的专有名词。在其中一个实施例中,所述专有词库的建立方式包括:通过大数据获取与所述待标记的文本内容相关的文本;对所述待标记的文本内容相关的文本中的内容进行分词处理,获得各待分析词语;对各所述待分析词语进行分析,确定专有名词;将各所述专有名词保存到专有词库中。在其中一个实施例中,所述对各所述待分析词语进行分析,确定专有名词的步骤,包括:获取搜索引擎的搜索数据;获取根据搜索数据中的搜索词与各所述待分析词语的交集;将交集中的各所述待分析词语确定为专有名词。在其中一个实施例中,所述对各所述待分析词语进行分析,确定专有名词的步骤,还包括:对未在交集中的所述搜索词进行分析,确定所述搜索词的搜索次数;将所述搜索次数大于预设次数的搜索词确定为专有名词。在其中一个实施例中,所述当接收到用户通过终端触发文本中标记的所述专有名词的解释请求时,根据所述解释请求获取访问地址的步骤,包括:当接收到用户通过终端触发文本中标记的所述专有名词的解释请求时,获取所述解释请求中携带的专有名词;将所述专有名词与预设的访问地址模板进行拼接,获得访问地址。在其中一个实施例中,所述通过正则表达式对所述访问地址中的页面内容进行爬取,获得所述专有名词的解释信息的步骤,包括:通过正则表达式对所述访问地址中的页面内容进行爬取,获得页面内容;根据预设的信息截取规则对页面内容进行信息截取,获得所述专有名词的解释信息。一种文本的专有名词处理装置,所述装置包括:指令获取模块,用于获取专有名词标记指令;调查问卷获取模块,用于根据所述专有名词标记指令获取各待标记的文本;专有名词提取模块,用于基于数据库中的专有词库对各所述待标记的文本进行分析,提取各所述待标记的文本的专有名词;专有名词标记模块,用于将各所述待标记的文本的专有名词进行标记;访问地址获取模块,用于当接收到用户通过终端触发文本中标记的所述专有名词的解释请求时,根据所述解释请求获取访问地址;解释信息获取模块,用于通过正则表达式对访问地址中的页面内容进行爬取,获得专有名词的解释信息。一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现所述方法的步骤。一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现所述的方法的步骤。上述文本的文本的专有名词处理方法、装置、计算机设备和存储介质,当用户需要对文本中的专有名词进行标记时,获取用户通过终端发送的专有名词标记指令,根据专有名词标记指令获取各待标记的文本,获取到各待标记的文本后,自动基于数据库中的专有词库对各待标记的文本进行分析,自动提取各待标记的文本的专有名词,自动完成对各待标记的文本的专有名词的标记,当接收到用户通过终端触发文本中标记的专有名词的解释请求时,根据解释请求获取访问地址;通过正则表达式对访问地址中的页面内容进行爬取,获得专有名词的解释信息。无需用户参与标记过程,从而提高了工作效率,并且通过终端点击专有名词,即可获得相应的解释内容,提高用户体验度。附图说明图1为一个实施例中文本的专有名词处理方法的应用场景图;图2为一个实施例中文本的专有名词处理方法的流程示意图;图3为一个实施例中文本的专有名词处理方法的流程示意图;图4为一个实施例中文本的专有名词处理装置的结构框图;图5为一个实施例中计算机设备的内部结构图。具体实施方式为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。本申请提供的文本的专有名词处理方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104通过网络进行通信。服务器104获取终端102发送的专有名词标记指令;服务器104根据所述专有名词标记指令获取各待标记的文本;基于数据库中的专有词库对各所述待标记的文本进行分析,提取各所述待标记的文本的专有名词;将各所述待标记的文本的专有名词进行标记,当接收到用户通过终端102触发文本中标记的所述专有名词的解释请求时,服务器104根据所述解释请求获取访问地址;通过正则表达式对所述访问地址中的页面内容进行爬取,获得所述专有名词的解释信息。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。在一个实施例中,如图2所示,提供了一种文本的专有名词处理方法,以该方法应用于图1中的服务器为例进行说明,包括步骤S220至步骤S320:步骤S220,获取专有名词标记指令。其中,当用户需要在服务器中上传文本时,该文本还未进行专有名词标记,需要将文本中的专有名词标记,用户通过终端触发服务器的专有名词标记指令,对文本中的专有名词进行标记。当答题用户进行答题时,题目为标记后的文本,可以通过标记获得专有名词的解释信息。步骤S240,根据专有名词标记指令获取各待标记的文本。其中,待标记的文本可以是出题人新编辑的文本,还未上传答题系统的,也可以是以前的文本,可以是未标记过的文本,也可以是标记过的文本,再次进行标记,可以增加专有名词标记,服务器在接收到专有名词标记指令后,获取各待标记的文本,可以向预先设定用于存储待标记的文本的数据库获取,也可以是通过专有名词标记指令,接调用文件上传接口,用户通过终端将待标记的文本利用文件上传口上传至服务器,服务器获取到各待标记的文本。待标记的文本可以是调查问卷的文本,也可以用于对公司产品进行介绍的文本。步骤S260,基于数据库中的专有词本文档来自技高网...

【技术保护点】
1.一种文本的专有名词处理方法,所述方法包括:获取专有名词标记指令;根据所述专有名词标记指令获取各待标记的文本;基于数据库中的专有词库对各所述待标记的文本进行分析,提取各所述待标记的文本的专有名词;将各所述待标记的文本的专有名词进行标记;当接收到用户通过终端触发文本中标记的所述专有名词的解释请求时,根据所述解释请求获取访问地址;通过正则表达式对所述访问地址中的页面内容进行爬取,获得所述专有名词的解释信息。

【技术特征摘要】
1.一种文本的专有名词处理方法,所述方法包括:获取专有名词标记指令;根据所述专有名词标记指令获取各待标记的文本;基于数据库中的专有词库对各所述待标记的文本进行分析,提取各所述待标记的文本的专有名词;将各所述待标记的文本的专有名词进行标记;当接收到用户通过终端触发文本中标记的所述专有名词的解释请求时,根据所述解释请求获取访问地址;通过正则表达式对所述访问地址中的页面内容进行爬取,获得所述专有名词的解释信息。2.根据权利要求1所述的方法,其特征在于,所述基于数据库中的专有词库对各所述待标记的文本进行分析,提取各所述待标记的文本的专有名词的步骤,包括:对所述待标记的文本进行分词处理,获取各词语;获取各所述词语与所述专有词库中的专有名词的交集;将交集中的词语确定为各所述待标记的文本中的专有名词。3.根据权利要求1所述的方法,其特征在于,所述专有词库的建立方式包括:通过大数据获取与所述待标记的文本内容相关的文本;对所述待标记的文本内容相关的文本中的内容进行分词处理,获得各待分析词语;对各所述待分析词语进行分析,确定专有名词;将各所述专有名词保存到专有词库中。4.根据权利要求3所述的方法,其特征在于,所述对各所述待分析词语进行分析,确定专有名词的步骤,包括:获取搜索引擎的搜索数据;获取根据搜索数据中的搜索词与各所述待分析词语的交集;将交集中的各所述待分析词语确定为专有名词。5.根据权利要求4所述的方法,其特征在于,所述对各所述待分析词语进行分析,确定专有名词的步骤,还包括:对未在交集中的所述搜索词进行分析,确定所述搜索词的搜索次数;将所述搜索次数大于预设次数的搜索词确定为专有名词。6....

【专利技术属性】
技术研发人员:许剑勇
申请(专利权)人:深圳壹账通智能科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1