基于关键词提取的实体名消岐方法技术

技术编号:23149937 阅读:22 留言:0更新日期:2020-01-18 13:48
本发明专利技术公开了一种基于关键词提取的实体名消岐方法,包括:文本预处理及负面词过滤阶段,词性标注及分析阶段,关键词提取组合对比三个阶段,目的是从零散且异质化严重的互联网文本中找到与实体相关且实体在文本中占有重要地位的目标文本;采用提取文本中的关键词与实体名进行组合判断是否为相关文本,在实际中可以有效的解决多个实体名出现在同一文本中时的匹配问题;本发明专利技术将多阶段处理步骤融合,极大地提升了用实体名称匹配文本的准确性。

Entity name disambiguation based on keyword extraction

【技术实现步骤摘要】
基于关键词提取的实体名消岐方法
本专利技术涉及自然语言处理领域。更具体地说,本专利技术涉及一种基于关键词提取的实体名消岐方法。
技术介绍
命名实体消歧是自然语言处理技术的一项基础性研究,在语义标注、在线推荐系统、互联网搜索引擎等应用中具有重要的实用价值,因此对命名实体消歧方法研究具有重要意义。命名实体歧义是指对于给定的命名实体指称具有多个含义。一个命名实体指向多个实体时,根据背景文本为其选择正确的语义实体就是命名实体消歧的主要内容。导致命名实体歧义主要包括命名实体的多样性和歧义性两方面原因。实体指称多样性指一个命名实体有多种表达方式,包括同义词和简称等情况;实体指称歧义性指一个命名实体可能表示不同的实体语义。消歧的工作就是为一个命名实体在多个语义下选择一个正确的语义实体。基于上下文实体信息在指称多样性和指称歧义性两方面进行消歧。现有的消岐技术有针对性略缩词的也有针对实体多音字的,但是将原始文本进行处理得到初步实体名然后和关键词进行相似性计算来消岐的案例基本没有。
技术实现思路
本专利技术的一个目的是解决至少上述问题,并提供至少后面将说明的优点。本专利技术还有一个目的是提供一种基于关键词提取的实体名消岐方法,其鲁棒性较强,能够适应不同长度、不同格式的文本,在多个信息来源下均有比较好的表现;具有较强的可解释性,各个步骤的结果可见。而且可以对负面词典进行管理以进行针对不同领域的精细化处理;具有更高的精确性,考虑负面词及词的词性信息,并且通过关键词对比的方法确保所识别的实体在文本的表达中占据主要地位。为了实现根据本专利技术的这些目的和其它优点,提供了一种基于关键词提取的实体名消岐方法,包括:准备步骤、以固有监测实体名单中的实体名为基准,从互联网上利用爬虫程序爬取带有实体名或者与实体名相关的未消岐的信息文本作为原始文本;步骤二、根据负面词词典将步骤一得到文本向量进行分词过滤,得到分词过滤后的语句;步骤三、通过HMM隐马尔科夫模型对步骤二得到的语句中的每个词进行词性标注,得到原始文本的初步实体名;步骤四、提取步骤三得到的词性标注后的语句的关键词;步骤五、计算步骤三得到的实体名与关键词之间的相似性;步骤六、根据步骤五得到的相似性结果得到原始文本与实体的消岐识别结果。优选的是,步骤一中,中文停用词表通过网络上的开源网站获得。优选的是,步骤二中,负面词词典包括:否定词、实体名所在领域的负面性名词与实体名所在领域的负面性动词。优选的是,步骤四中,关键词的提取采用text-rank、TF-IDF、SKE、word2vec+Kmeans或基于LDA的关键词提取方法中的一种进行。优选的是,HMM隐马尔科夫模型进行词性标注的具体过程为:将步骤二得到的语句作为观测序列,经过HMM隐马尔科夫模型进行词性标注后的序列为观测序列;观测序列到隐藏序列是通过viterbi算法,利用语料统计得到的起始概率、发射概率和转移概率来得到的,得到隐藏序列后即完成了词性标注过程。优选的是,步骤四种使用text-rank、TF-IDF、SKE、word2vec+Kmeans和基于LDA的关键词提取手段进行原始文本的关键词提取。优选的是,步骤四中,文本的命名实体与提取出的关键词的相似性计算是通过wordembedding得到的词向量进行计算的。本专利技术至少包括以下有益效果:第一、鲁棒性较强,能够适应不同长度、不同格式的文本,在多个信息来源下均有比较好的表现;第二、具有较强的可解释性,各个步骤的结果可见。而且可以对负面词典进行管理以进行针对不同领域的精细化处理;第三、具有更高的精确性,考虑负面词及词的词性信息,并且通过关键词对比的方法确保所识别的实体在文本的表达中占据主要地位。本专利技术的其它优点、目标和特征将部分通过下面的说明体现,部分还将通过对本专利技术的研究和实践而为本领域的技术人员所理解。附图说明图1为本专利技术基于关键词提取的实体名消岐方法的原理图;图2为本专利技术基于关键词提取的实体名消岐方法的流程图。具体实施方式下面结合实施例对本专利技术做进一步的详细说明,以令本领域技术人员参照说明书文字能够据以实施。具体步骤根据附图1~2所示,并进行举例说明:以下证券交易为背景进行举例说明;在准备步骤中,首先根据固有监测实体名单中的实体名为基准,从互联网上利用爬虫程序爬取带有实体名或者与实体名相关的未消岐的信息文本作为原始文本;其中,所述固有监测实体名名单为人为给出的,例如,以实体名“热钱”为例,其具有多种意思,热的钱币,刚到手的货币,刚到手的资金,游资或投机性短期资本;其中,使用者想在互联网上搜索关于“热钱”的文本信息,得到一系列原始文本,这些文本中的“热钱”具有多种可解释的含义,但是使用者所需要的本文中“热钱”的意思为游资或投机性短期资本,因此,其他文本中若“热钱”为其他意思,便成为歧义,为了得到更好的阅读体验因此需要进行文本的消岐处理,以满足使用者的需求;步骤一、对原始文本去除非文字部分,采用中文停用词表去除无效连接词,得到待向量化文本;采用适应n=2的n-gram方法将待向量化文本进行向量化处理,得文本向量;搜索得到的原始文本的格式不定,长度不同;先对原始文本进行基本过滤,去除原始文本中的非文字部分,这里的非文字部分包括标点符号、特殊标记、公式、数字;其中,所述中文词停用表来自以下开源网站中的其中一个,包括:https://github.com/fxsjy/jieba、https://github.com/uk9921/StopWords;此处只是举例,但是不限于上述的两个停用词表,符合该类的停用词表皆在保护范围内;采用n=2的n-gram方法将上述删除过非文字部分和无效连接词的文本进行向量化处理;步骤二、根据负面词词典将步骤一得到文本向量进行分词过滤,得到分词过滤后的语句;其中,选用一批负面词词典,例如,对于判断的否定,如果负面词距离,此处负面词指否定词,与实体距离很近,则很有可能会产生语义上的偏差,无法直接使用。所以需要将这一部分文本过滤掉,从而保证模型的准确率;其中,负面词词典为专业人员事先根据使用者需要进行人工总结得到,所述负面词词典中的词可以分为三类,包括常见的否定词(否、非、不、相反)、专业名词(以证券交易系统为背景举例,例如一级市场、二级市场、开盘价、收盘价、最高价、最低价、市盈率、换手率等)、专业负面动词(以证券交易系统为背景举例,例如诈骗、跑路、暴雷);其中,所述负面词与所述实体的距离的计算是指欧式距离,n维空间下的欧式距离是两个点在各维上差值的平方和的算数平方根,具体公式为:这里的实体是指监测实体名单中的实体名;得到距离值后根据本身的模型参数进行对比来判断是否应该进行过滤;这里的模型参数是根据多次文本消岐结果进行不断调整得到的;步骤三、通过HMM隐马尔科本文档来自技高网...

【技术保护点】
1.基于关键词提取的实体名消岐方法,其特征在于,包括以下步骤:/n以固有监测实体名单中的实体名为基准,从互联网上利用爬虫程序爬取带有实体名或者与实体名相关的未消岐的信息文本作为原始文本;/n对原始文本去除非文字部分,采用中文停用词表去除无效连接词,得到待向量化文本;采用适应n=2的n-gram方法将待向量化文本进行向量化处理,得文本向量;/n根据负面词词典将文本向量进行分词过滤,得到分词过滤后的语句;/n通过HMM隐马尔科夫模型对分词过滤后的语句中的每个词进行词性标注,得到原始文本的初步实体名;/n提取词性标注后的语句的关键词;/n计算实体名与关键词之间的相似性;/n通过得到的相似性结果得到原始文本与实体名的消岐结果。/n

【技术特征摘要】
1.基于关键词提取的实体名消岐方法,其特征在于,包括以下步骤:
以固有监测实体名单中的实体名为基准,从互联网上利用爬虫程序爬取带有实体名或者与实体名相关的未消岐的信息文本作为原始文本;
对原始文本去除非文字部分,采用中文停用词表去除无效连接词,得到待向量化文本;采用适应n=2的n-gram方法将待向量化文本进行向量化处理,得文本向量;
根据负面词词典将文本向量进行分词过滤,得到分词过滤后的语句;
通过HMM隐马尔科夫模型对分词过滤后的语句中的每个词进行词性标注,得到原始文本的初步实体名;
提取词性标注后的语句的关键词;
计算实体名与关键词之间的相似性;
通过得到的相似性结果得到原始文本与实体名的消岐结果。


2.如权利要求1所述的基于关键词提取的实体名消岐方法,其特征在于,中文停用词表通过网络上的开源网站获得。


3.如权利要求1所述的基于关键词提取的实体名消岐方法,其特征在于,负面词词典包括:否定词、实体名所在领域的负面性名词与实体名所在领域的负面性动词。


4...

【专利技术属性】
技术研发人员:吴俊杰部慧陈禹州李晔林罗炎林
申请(专利权)人:北京航空航天大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1