词汇识别方法和词汇识别系统技术方案

技术编号:14783415 阅读:67 留言:0更新日期:2017-03-10 04:34
本发明专利技术提出了一种词汇识别方法和一种词汇识别系统,其中,所述词汇识别方法包括:根据接收到的词汇识别命令,从待处理文本中获取多个候选关键词,并将多个候选关键词发送至统计单元;通过统计单元接收多个候选关键词,统计多个候选关键词的参数信息,并将多个候选关键词的参数信息发送至识别单元;通过识别单元接收参数信息,并根据多个候选关键词的参数信息,对多个候选关键词进行过滤,以识别目标关键词。通过本发明专利技术的技术方案,可以比较全面地获取候选关键词,从而可以从候选关键词中比较全面地识别流行词等新词,进而可以通过识别出的流行词等新词来发现网络热点和分析舆论走向。

【技术实现步骤摘要】

本专利技术涉及计算机
,具体而言,涉及一种词汇识别方法和一种词汇识别系统。
技术介绍
目前,随着互联网的发展,网络中的流行词或新词不断涌现。一般认为,流行词或新词是因为某种社会现象在网络上出现、流行并融入人们生活的非正式语言。这些流行词或新词与当前的社会现象密切相关,反映了社会大众的心理,甚至可以作为一个时代的缩影。因此,如何发现网络中的流行词或新词是网络信息处理中的一个重要问题,且流行词或新词的发现在信息检索、文本挖掘、词典编纂、中文分词等领域都有重要应用。及时有效地发现网络流行语新词对把握网络舆情、社会发展也具有重要意义。相关技术中的中文分词方案很难准确地对流行词或新词做出识别;而中文分词作为中文信息处理的前提和基础,流行词或新词的识别成为影响分词性能的重要因素。对于流行词或新词的发现,相关技术中的一个方案是重点研究二字词的提取,通常是基于词性与独立词概率对流行词或新词进行提取,但对流行词或新词的长度有所限制,导致获取的流行词或新词并不全面。相关技术中的另一个方案是具有领域依赖,例如基于规则的方法,由于不同领域的构成规则可能不同,某些规则仅适用于部分领域。对于包括人名、地名、机构名等命名实体的词研究较多,但是对于非命名实体的词,如流行词或新词则缺乏有效的识别方法。因此,如何比较全面且准确地识别流行词或新词等词,成为亟待解决的问题。
技术实现思路
本专利技术正是基于上述问题,提出了一种新的技术方案,可以比较全面地获取候选关键词,从而可以从候选关键词中比较全面且准确地识别流行词或新词等目标关键词,进而可以通过识别出的流行词或新词等目标关键词来发现网络热点和分析舆论走向。有鉴于此,本专利技术的一方面提出了一种词汇识别方法,包括:根据接收到的词汇识别命令,从待处理文本中获取多个候选关键词,并将所述多个候选关键词发送至统计单元,通过所述统计单元接收所述多个候选关键词,统计所述多个候选关键词的参数信息,并将所述多个候选关键词的所述参数信息发送至识别单元;通过所述识别单元接收所述参数信息,并根据所述多个候选关键词的所述参数信息,对所述多个候选关键词进行过滤,以识别目标关键词。在该技术方案中,在待处理文本中获取多个候选关键词,其中,获取到的候选关键词的字数没有限制,而且该候选关键词可以是人名、地名、机构名等命名实体的词,还可以是流行语等非实体的词,这样,在待处理文本中获取到的候选关键词就比较全面,从而根据统计的参数信息识别出的目标关键词就更加全面,例如,可以全面地识别出当前网络中的流行词等新词,从而可以通过识别出的流行词等新词来发现网络热点和分析舆论走向。在上述技术方案中,优选地,所述从待处理文本中获取多个候选关键词,具体包括:通过以下至少之一或其组合的方式对所述待处理文本进行预处理:分词处理方式、排除普通词方式、排除停用词方式、合并近邻单字方式,以从所述待处理文本中获取所述多个候选关键词。在该技术方案中,对待处理文本进行预处理的方式包括但不限于以下至少之一或其组合:分词处理方式、排除普通词方式、排除停用词方式、合并近邻单字方式,由于通过分词处理方式对待处理文本进行分词后,依然很难在候选关键词中识别出流行词、新词等目标关键词,因此,还需要对分词结果进一步地分析,例如,通过排除普通词方式和排除停用词方式排除字典中已有的普通词和停用词,并且,将普通词或停用词中的边界字和与该边界字近邻的至少一个近邻字进行合并,例如,普通词为“上学”,“上学”中的边界字“上”,将该边界字“上”与该边界字左近邻的至少一个近邻字为“高大”进行合并,得到候选关键词“高大上”,从而通过合并近邻单字方式可以获取流行语等非实体的词,这样,在待处理文本中获取到的候选关键词就比较全面,进而可以通过识别出的流行词等新词来发现网络热点和分析舆论走向。在上述技术方案中,优选地,所述根据所述多个候选关键词的所述参数信息,对所述多个候选关键词进行过滤,具体包括:确定所述多个候选关键词中的任一候选关键词的所述参数信息是否处于预定范围;当确定所述任一候选关键词的所述参数信息处于所述预定范围时,将所述任一候选关键词识别为所述目标关键词。在该技术方案中,当确定多个候选关键词中的任一候选关键词的参数信息处于预定范围时,将任一候选关键词识别为目标关键词,从而可以在多个候选关键词中准确地过滤出流行词或新词等目标关键词,进而可以根据流行词或新词等目标关键词来发现网络热点和分析舆论走向,例如,参数信息为词汇上下文环境,该词汇上下文环境即为与任一候选关键词左右相邻的词,当与任一候选关键词左右相邻的词的数量较少,则说明该任一候选关键词缺乏语言搭配多样性,成为流行词或新词等目标关键词的概率较小,因此,将任一候选关键词过滤掉,再例如,参数信息为词汇结合度,如果任一候选关键词的词汇结合度小于或等于预定范围的话,说明该任一候选关键词是流行词或新词等目标关键词的概率很小,当然,也可以根据词或字的特征来确定目标关键词,例如,“子”一般都出现在词的尾部,如“孩子,儿子,老子”等,如果“子”出现在候选关键词的首部,则该候选关键词成为目标关键词的概率就比较小。在上述技术方案中,优选地,还包括:根据接收到的设置命令,设置所述参数信息的所述预定范围,以供根据设置的所述预定范围,在所述待处理文本中识别所述目标关键词。在该技术方案中,如果在预定范围内没有发现目标关键词,或者在预定范围内发现的目标关键词的数量较少时,则可以根据调节后的预定范围在处理文本中识别出目标关键词,从而可以比较全面地识别目标关键词,如果在预定范围内发现的目标关键词的数量较多时,也可以调节预定范围,因为在一定的时间内所出现的流行词或新词等目标关键词的数量是有限的,根据调节后的预定范围在处理文本中识别出目标关键词,从而可以比较准确地识别目标关键词。在上述技术方案中,优选地,所述参数信息包括以下至少之一或其组合:词频、词频增长率、词汇上下文环境、词汇结合度;其中,所述词汇结合度包括:单字成词率和相邻字成词率。在该技术方案中,参数信息包括但不限于以下至少之一或其组合:词频、词频增长率、词汇上下文环境、词汇结合度,从而可以根据多个候选词的参数信息在多个候选关键词中准确地过滤出流行词或新词等目标关键词,进而可以根据流行词或新词等目标关键词来发现网络热点和分析舆论走向,例如,可以根据多个候选关键词中的任一候选关键词的词频来确定任一候选关键词是否为目标关键词,因为当任一候选关键词的词频太低时,说明任一候选关键词缺乏流通度,或者可能是偶然单字的结合,还可以根据多个候选关键词中的任一候选关键词的词频增长率来确定任一候选关键词是否为目标关键词,因为流行词或新词等目标关键词的出现,在前期往往伴随词频的突增现象,随后一段时间内其词频下降并趋于平稳。本专利技术的另一方面提出了一种词汇识别系统,包括:预处理单元,根据接收到的词汇识别命令,从待处理文本中获取多个候选关键词,并将所述多个候选关键词发送至统计单元;统计单元,通过所述统计单元接收所述多个候选关键词,统计所述多个候选关键词的参数信息,并将所述多个候选关键词的所述参数信息发送至识别单元;识别单元,通过所述识别单元接收所述参数信息,并根据所述多个候选关键词的所述参数本文档来自技高网...
<a href="http://www.xjishu.com/zhuanli/55/201510536145.html" title="词汇识别方法和词汇识别系统原文来自X技术">词汇识别方法和词汇识别系统</a>

【技术保护点】
一种词汇识别方法,其特征在于,包括:根据接收到的词汇识别命令,从待处理文本中获取多个候选关键词,并将所述多个候选关键词发送至统计单元;通过所述统计单元接收所述多个候选关键词,统计所述多个候选关键词的参数信息,并将所述多个候选关键词的所述参数信息发送至识别单元;通过所述识别单元接收所述参数信息,并根据所述多个候选关键词的所述参数信息,对所述多个候选关键词进行过滤,以识别目标关键词。

【技术特征摘要】
1.一种词汇识别方法,其特征在于,包括:根据接收到的词汇识别命令,从待处理文本中获取多个候选关键词,并将所述多个候选关键词发送至统计单元;通过所述统计单元接收所述多个候选关键词,统计所述多个候选关键词的参数信息,并将所述多个候选关键词的所述参数信息发送至识别单元;通过所述识别单元接收所述参数信息,并根据所述多个候选关键词的所述参数信息,对所述多个候选关键词进行过滤,以识别目标关键词。2.根据权利要求1所述的词汇识别方法,其特征在于,所述从待处理文本中获取多个候选关键词,具体包括:通过以下至少之一或其组合的方式对所述待处理文本进行预处理:分词处理方式、排除普通词方式、排除停用词方式、合并近邻单字方式,以从所述待处理文本中获取所述多个候选关键词。3.根据权利要求2所述的词汇识别方法,其特征在于,所述根据所述多个候选关键词的所述参数信息,对所述多个候选关键词进行过滤,具体包括:确定所述多个候选关键词中的任一候选关键词的所述参数信息是否处于预定范围;当确定所述任一候选关键词的所述参数信息处于所述预定范围时,将所述任一候选关键词识别为所述目标关键词。4.根据权利要求3所述的词汇识别方法,其特征在于,还包括:根据接收到的设置命令,设置所述参数信息的所述预定范围,以供根据设置的所述预定范围,在所述待处理文本中识别所述目标关键词。5.根据权利要求1至4中任一项所述的词汇识别方法,其特征在于,所述参数信息包括以下至少之一或其组合:词频、词频增长率、词汇上下文环境、词汇结合度;其中,所述词汇结合度包括:单字...

【专利技术属性】
技术研发人员:刘克松杨建武
申请(专利权)人:北大方正集团有限公司北京大学北京北大方正电子有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1