一种利用上下文将文本中实体关联到知识库的方法技术

技术编号:37347979 阅读:32 留言:0更新日期:2023-04-22 21:43
本发明专利技术涉及一种利用上下文将文本中实体关联到知识库的方法,属于自然语言处理技术领域,该方法包括:建立知识库;建立知识库索引;对输入文本中实体指称的字符预处理,获取实体指称对应的候选实体集合;建立<指称,实体>对;选取与实体指称的上下文相关度较高的多个候选实体描述句子作为选择依据;根据选择依据判断实体指称对应的知识库中的实体名词或判断知识库中没有实体指称对应的实体名词。本申请提供的方法可以扩充匹配范围、有效提升关联的准确性;通过在预测结果标记处添加无法链接分类标签的MLP多层感知模型进行实体指称对应的实体名词判断,解决了现有技术中实体不在知识库中时,仅通过找出关联度最大的一项导致错误的关联这一问题。的关联这一问题。的关联这一问题。

【技术实现步骤摘要】
一种利用上下文将文本中实体关联到知识库的方法


[0001]本专利技术涉及自然语言处理
,尤其涉及一种利用上下文将文本中实体关联到知识库的方法。

技术介绍

[0002]自然语言文本作为现在互联网数据的主要承载形式,包括人工编写的新闻报告、说明分析等,相较于结构化的数据,其存在的数量更多、包含的信息更多,而实体往往作为与现实物体、概念等对应的词语,是查询、分析的核心。因此,围绕实体名词处理是现代数据处理的重要方法,通过推荐与实体名词语义相关的词语可以有效地为用户提供数据漫游的能力,但是实体名词存在歧义与多义的问题,并不能直接关联到知识库中的特定词条上。
[0003]从而,现有技术中存在以下问题:文中出现的简称,传统的检索难以在知识库命中;一般上下文与指称存在关联的部分并不多,而一般的对齐并没有在知识库的实体描述句子之上进行提炼,降低了正确的实体与指称之间的关联性;传统的实体是通过阈值的方式判断,这种方法只能分别考虑是否关联;实体并非一定会出现在知识库中,仅仅通过找出关联度最大的一项又会导致错误的关联。
专利
技术实现思路

[本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种利用上下文将文本中实体关联到知识库的方法,其特征在于,所述方法包括:获取互联网知识百科数据,建立包括各个类别实体名词的词典集合的知识库;建立知识库中各个实体名词对应的知识库索引;对输入文本中实体指称的字符进行预处理,将实体指称的字符拆解形成多个查询字符,将查询字符输入至知识库中进行搜索,获取实体指称对应的知识库中包含K个候选实体的候选实体集合;建立实体指称与对应的候选实体集合中K个候选实体组成的K个<指称,实体>对;分别计算K个<指称,实体>对中各个候选实体描述的特征向量与实体指称的上下文的特征向量,并分别选取与实体指称的上下文相关度较高的多个候选实体描述句子作为选择依据;根据选择依据判断实体指称对应的知识库中的实体名词或判断知识库中没有实体指称对应的实体名词。2.根据权利要求1所述的利用上下文将文本中实体关联到知识库的方法,其特征在于,所述对输入文本中实体指称的字符进行预处理包括:去除标点符号;将大写字母转化为小写字母;将数字文字转化为阿拉伯数字。3.根据权利要求1所述的利用上下文将文本中实体关联到知识库的方法,其特征在于,通过2

gram算法拆解将实体指称的字符拆解形成多个查询字符。4.根据权利要求1所述的利用上下文将文本中实体关联到知识库的方法,其特征在于,分别计算K个<指称,实体>对中各个候选实体描述的特征向量与实体指称的上下文的特征向量,并分别选取与实体指称的上下文相关度较高的多个候选实体描述句子作为选择依据包括:通过Doc2vec模型分别计算K个<指称,实体>对中各个候选实体描述的特征向量与实体指称的上下文的特征向量;计算特征向量之间的余弦相似度,根据余弦相似度找出与实体指称的上下文相近的多个候选实体描述句子,将与实体指称的上下文相近的多个候选实体描述句子作为选择依据。5.根据权利要求4所述的利用上下文将文本中实体关联到知识库的方法,其特征在于,与实体指称的上下文相近的多个候选实体描述句子长度之和小于512字。6.根据权利要求1所述的利用...

【专利技术属性】
技术研发人员:张昊岳一峰任祥辉
申请(专利权)人:中国电子科技集团公司第十五研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1