一种基于富文本特征的新闻实体链接方法和系统技术方案

技术编号:33290030 阅读:45 留言:0更新日期:2022-05-01 00:06
本发明专利技术公开了一种基于富文本特征的新闻实体链接方法和系统,所述方法包括如下步骤:构建候选实体的知识图谱,其中所述知识图谱包括指称实体和候选实体;获取新闻数据,从所述新闻数据中识别指称实体,根据所述指称实体从所述知识图谱中查找候选实体;将所述新闻数据进行分句获取上下文短句列表,筛选包含所述指称实体的所有上下文短句,生成上下文特征列表,获取候选实体的描述文本特征和附加属性特征,构建富文本特征,将所述富文本特征输入到二分类模型中训练,训练完毕后用于预测指称实体和候选实体的匹配的分类概率。所述方法和系统结合Attention计算让模型综合性考虑了不同描述方式下的文本语境,极大程度上提高了模型在复杂文本场景下的辨识度。在复杂文本场景下的辨识度。在复杂文本场景下的辨识度。

【技术实现步骤摘要】
一种基于富文本特征的新闻实体链接方法和系统


[0001]本专利技术涉及新闻传媒
,特别涉及一种基于富文本特征的新闻实体链接方法和系统。

技术介绍

[0002]在新闻结构化过程中常常需要利用NLP技术识别其中的人物、机构、地理等指称实体并链接至知识图谱中对应的目标实体,通过知识图谱中详细的实体信息有助于解析新闻从而更好服务于下游应用,其中实体链接是将新闻中提及的指称实体与知识图谱中唯一对应实体进行匹配的关键技术。由于自然语言存在复杂的歧义性,新闻中指称实体可能在知识图谱中存在较多同名实体,同时不同的上下文信息对链接结果也会造成较大影响,这些条件使得实体链接极具挑战性。
[0003]现有方案中,主要是抽取实体在新闻中的上下文,将其与知识图谱中候选实体的描述文本联合构建深度学习模型进行相似度对比,根据相似度分数判断是否链接成功。另外还有利用分词等辅助手段计算指称实体与候选实体描述文本的分词匹配度进行判断。然而现有技术方案存在如下技术问题:
[0004]目前实体链接方法的主要问题在于往往新闻中指称实体有多段上下文,每段上下文包含了本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于富文本特征的新闻实体链接方法,其特征在于,所述方法包括如下步骤:构建候选实体的知识图谱,其中所述知识图谱包括指称实体和候选实体;获取新闻数据,从所述新闻数据中识别指称实体,根据所述指称实体从所述知识图谱中查找候选实体;将所述新闻数据进行分句获取上下文短句列表,筛选包含所述指称实体的所有上下文短句,生成上下文特征列表;获取候选实体的描述文本特征和附加属性特征,构建富文本特征;将所述富文本特征输入到二分类模型中训练,训练完毕后用于预测指称实体和候选实体的匹配的分类概率。2.根据权利要求1所述的一种基于富文本特征的新闻实体链接方法,其特征在于,获取新闻数据后,根据新闻数据中文本的标点符号进行分句,遍历所有分句后筛选出包括所述指称实体的上下问短句作为所述上下文特征列表。3.根据权利要求1所述的一种基于富文本特征的新闻实体链接方法,其特征在于,所述实体的抽取方法包括:调用分词算法或实体识别算法抽取新闻数据文本中的包括人物、机构和地理信息,生成指称实体列表。4.根据权利要求1所述的一种基于富文本特征的新闻实体链接方法,其特征在于,在所述知识图谱中通过调用搜索获取指称实体对应的候选实体列表。5.根据权利要求1所述的一种基于富文本特征的新闻实体链接方法,其特征在于,通过对所述知识图谱的搜索获取所述指称实体对应的描述文本特征和对应候选实体的附属属性特征,将所述上下文特征列表、描述文本特征和附属属性特征组装成富文本特征,输入到...

【专利技术属性】
技术研发人员:辛宇
申请(专利权)人:新华智云科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1