基于关键词提取的实体名消岐方法技术

技术编号:23149937 阅读:33 留言:0更新日期:2020-01-18 13:48
本发明专利技术公开了一种基于关键词提取的实体名消岐方法,包括:文本预处理及负面词过滤阶段,词性标注及分析阶段,关键词提取组合对比三个阶段,目的是从零散且异质化严重的互联网文本中找到与实体相关且实体在文本中占有重要地位的目标文本;采用提取文本中的关键词与实体名进行组合判断是否为相关文本,在实际中可以有效的解决多个实体名出现在同一文本中时的匹配问题;本发明专利技术将多阶段处理步骤融合,极大地提升了用实体名称匹配文本的准确性。

Entity name disambiguation based on keyword extraction

【技术实现步骤摘要】
基于关键词提取的实体名消岐方法
本专利技术涉及自然语言处理领域。更具体地说,本专利技术涉及一种基于关键词提取的实体名消岐方法。
技术介绍
命名实体消歧是自然语言处理技术的一项基础性研究,在语义标注、在线推荐系统、互联网搜索引擎等应用中具有重要的实用价值,因此对命名实体消歧方法研究具有重要意义。命名实体歧义是指对于给定的命名实体指称具有多个含义。一个命名实体指向多个实体时,根据背景文本为其选择正确的语义实体就是命名实体消歧的主要内容。导致命名实体歧义主要包括命名实体的多样性和歧义性两方面原因。实体指称多样性指一个命名实体有多种表达方式,包括同义词和简称等情况;实体指称歧义性指一个命名实体可能表示不同的实体语义。消歧的工作就是为一个命名实体在多个语义下选择一个正确的语义实体。基于上下文实体信息在指称多样性和指称歧义性两方面进行消歧。现有的消岐技术有针对性略缩词的也有针对实体多音字的,但是将原始文本进行处理得到初步实体名然后和关键词进行相似性计算来消岐的案例基本没有。
技术实现思路
本专利技术的一个目的是解本文档来自技高网...

【技术保护点】
1.基于关键词提取的实体名消岐方法,其特征在于,包括以下步骤:/n以固有监测实体名单中的实体名为基准,从互联网上利用爬虫程序爬取带有实体名或者与实体名相关的未消岐的信息文本作为原始文本;/n对原始文本去除非文字部分,采用中文停用词表去除无效连接词,得到待向量化文本;采用适应n=2的n-gram方法将待向量化文本进行向量化处理,得文本向量;/n根据负面词词典将文本向量进行分词过滤,得到分词过滤后的语句;/n通过HMM隐马尔科夫模型对分词过滤后的语句中的每个词进行词性标注,得到原始文本的初步实体名;/n提取词性标注后的语句的关键词;/n计算实体名与关键词之间的相似性;/n通过得到的相似性结果得到原...

【技术特征摘要】
1.基于关键词提取的实体名消岐方法,其特征在于,包括以下步骤:
以固有监测实体名单中的实体名为基准,从互联网上利用爬虫程序爬取带有实体名或者与实体名相关的未消岐的信息文本作为原始文本;
对原始文本去除非文字部分,采用中文停用词表去除无效连接词,得到待向量化文本;采用适应n=2的n-gram方法将待向量化文本进行向量化处理,得文本向量;
根据负面词词典将文本向量进行分词过滤,得到分词过滤后的语句;
通过HMM隐马尔科夫模型对分词过滤后的语句中的每个词进行词性标注,得到原始文本的初步实体名;
提取词性标注后的语句的关键词;
计算实体名与关键词之间的相似性;
通过得到的相似性结果得到原始文本与实体名的消岐结果。


2.如权利要求1所述的基于关键词提取的实体名消岐方法,其特征在于,中文停用词表通过网络上的开源网站获得。


3.如权利要求1所述的基于关键词提取的实体名消岐方法,其特征在于,负面词词典包括:否定词、实体名所在领域的负面性名词与实体名所在领域的负面性动词。


4...

【专利技术属性】
技术研发人员:吴俊杰部慧陈禹州李晔林罗炎林
申请(专利权)人:北京航空航天大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1