长尾实体的识别与消歧方法技术

技术编号:26505819 阅读:53 留言:0更新日期:2020-11-27 15:33
本发明专利技术公开了一种长尾实体的识别与消歧方法,其中所述长尾实体的消歧方法包括对识别出的长尾实体进行候选实体替换的过程。本发明专利技术可对长尾实体进行准确高效地消歧,可显著提升对文本中不同指称的理解,更好地进行信息跟踪及信息获取。

【技术实现步骤摘要】
长尾实体的识别与消歧方法
本专利技术涉及消歧方法的

技术介绍
在自然语言中,词义、句义、篇章含义层次都会出现语言根据上下文语义不同的现象,消歧即为根据上下文确定对象语义的过程,是自然语言理解中的核心问题之一。长尾实体是指在大量文本集中具有相对较少提及(mentions)的实体。它们的特征通常为不具有或只具有有限的常规知识库概要,或只具有在知识库之外的稀缺的资源。现有技术中关于长尾实体的识别和消歧手段较少,已有的一些,如通过半监督方法对特定领域的长尾实体,如科学出版物进行识别,需要先找到特定领域的语料库和设置相关种子,再通过扩展和过滤机制不断增加语料库和种子质量,从而识别出该领域的长尾实体,其不具有普适性的应用,同时消歧效果也并不太好。
技术实现思路
本专利技术的目的在于提出一种可对长尾实体进行准确高效消歧的识别和消歧方法,其可显著提升对文本中不同指称的理解,更好地进行信息跟踪及信息获取。本专利技术首先提出了如下的技术方案:一种长尾实体的识别方法,其包括:对文本进行命名实体识别本文档来自技高网...

【技术保护点】
1.一种长尾实体的识别方法,其特征在于:包括:对文本进行命名实体识别,并在识别出的实体中通过实体链接工具筛选出长尾实体。/n

【技术特征摘要】
1.一种长尾实体的识别方法,其特征在于:包括:对文本进行命名实体识别,并在识别出的实体中通过实体链接工具筛选出长尾实体。


2.根据权利要求1所述的识别方法,其特征在于:所述筛选包括:若识别出的实体不出现在实体链接工具中,且无法在知识库中搜索到概要描述,且该实体在文本中出现的频率不超过频率阈值,则该实体为长尾实体。


3.一种长尾实体的消歧方法,其特征在于:包括:通过权利要求1或2任一项所述的识别方法筛选出长尾实体,对筛选出的长尾实体通过候选实体替换。


4.根据权利要求3所述的消歧方法,其特征在于:所述替换包括:
获得由候选实体组成的候选实体集;
获得所述候选实体对内部实体的先验概率;
获得所述候选实体与内部实体的上下文之间的相似度;
获得所述候选实体与文本内实体之间的一致性;
基于所述先验概率,所述上下文之间相似度,所述一致性,通过机器学习获得候选实体评分,将其中评分最高的候选实体替换所述内部实体;
其中,所述内部实体为长尾实体中与所述候选实体对应的实体指称;
所述上下文相似度包括所述候选实体与上下文的实体间的加权向量余弦相似度;
所述上下文一致性包括所述候选实体与文本内全部实体的向量余弦相似度的均值。


5.根据权利要求4所述的消歧方法,其特征在于:所述加权向量余弦相似度通过候选实体向量与上下文特征向量相乘得到,所述上下文特征向量通过上下文实体与其权重矩阵相乘后得到,所述权重矩阵中与经依存句法分析标注为复合词且为名词的实体对应的权值大于其他词语的权值。


6.根据权利要求4所述的消歧方法,其特征在于:所述内部实体的获...

【专利技术属性】
技术研发人员:程良伦张鸿彬王德培张伟文
申请(专利权)人:广东工业大学
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1