基于语义相关度的目标实体确定方法及装置制造方法及图纸

技术编号:13269022 阅读:101 留言:0更新日期:2016-05-18 19:13
本发明专利技术提供了基于语义相关度的目标实体确定方法及装置,方法包括:根据用户实体及其当前语境在预设的实体关系库中确定用户实体对应的用户连通词集合,通过连通词的连通路径确定待定目标实体。根据用户实体与当前待定目标实体各个连通路径对应的路径权值,经综合计算后确定用户实体与当前待定目标实体之间的语义相关度,根据该语义相关度确定用户实体对应的目标实体。本发明专利技术中实体关系库通过搜索引擎动态生成和增长,可以实现实体信息的快速更新。在判断实体间语义相关度时,能结合语境区分歧义。

【技术实现步骤摘要】

本专利技术涉及信息处理领域,尤其涉及一种基于语义相关度的目标实体确定方法及 装置。
技术介绍
命名实体指的是人名、机构名、地名以及其他所有以名称为标识的实体,如"老人 与海"、"清华大学"、"北医三院"等。更广泛的命名实体还包括数字、日期、货币、地址等。随 着语义研究以及命名实体(以下简称实体)研究技术的深入发展,多数情况下都需要在获知 当前实体的情况下,根据语义相关度计算求解得到当前实体对应的目标实体。 例如,随着互联网搜索技术的发展,对用户输入的实体进行语义分析,得出用户输 入的实体与其他实体之间的关系度,将关系度较大的实体确定为用户输入的实体对应的目 标实体,并将目标实体推荐给用户,从而为用户提供更多需要的信息。再如,随着实体语义 聚类研究的发展,可利用语义相关度对目标实体进行实体聚类分析,进而还可实现对短文 本的语义聚类分析。再如,在已知当前实体时,对当前实体进行语义分析,得到当前实体与 任意一个实体之间的语义关系连接词,可为判断两实体间的语义关系提供帮助。 现有技术确定目标实体的方法一般两种,一种是基于语义词典的语义相关度计算 方法;另一种是基于已分类的语料库或知识库的语义相关度计算方法。两者的基本原理是, 首先获知当前实体,然后利用人工或机器预先构建并做好归类的实体的词典或知识库,通 过类属关系计算当前实体与其他实体之间的语义相关度,根据计算出的语义相关度的情况 确定当前实体对应的目标实体。其中,计算语义关系包括实体间的关系度和确定实体间的 语义关系连接词。 专利技术人在研究中发现,现有技术无法应对以下情况:当获知的当前实体有多重含 义时,如"人大",既能够表示"中国人民大学",也能够表示"人民代表大会",则利用现有技 术确定当前实体对应的目标实体时,有时会将"人大"判定成"中国人民大学",从"中国人民 大学"的角度出发进行语义分析,确定"人大"对应的目标实体,有时将"人大"判定成"人民 代表大会",从"人民代表大会"的角度出发进行语义分析,确定"人大"对应的目标实体。这 种实体含义判定的不确定性导致语义相关度分析不准确,进而使得求解得到的目标实体不 够准确。 可见,现有技术在确定目标实体时,当前实体有多重含义时,无法合理确定当前实 体的含义,导致无法准确确定与当前实体对应的目标实体。
技术实现思路
本专利技术提供了一种基于语义相关度的目标实体确定方法及装置,当前实体有多重 含义时,能够合理确定实体的含义,进而准确确定与当前实体对应的目标实体。 第一方面,本专利技术实施例提供了基于语义相关度的目标实体确定方法,所述方法 包括:从用户的信息中确定用户实体,以及所述用户实体的当前语境;判断预设的实体关系 库是否包含所述用户实体,若所述预设的实体关系库不包含所述用户实体,则根据所述用 户实体动态更新所述预设的实体关系库;其中,所述预设的实体关系库包括多个实体,所述 多个实体之间通过关联词连通,所述实体与所述关联词之间的连通线段具有对应的权值; 根据所述用户实体的当前语境在更新后的所述预设的实体关系库中确定所述用户实体对 应的用户连通词集合;将所述用户连通词连通的实体中除所述用户实体以外的其他实体依 次确定为待定目标实体,并分别确定各个待定目标实体对应的目标连通词集合;在所述预 设的实体关系库中逐一选定各个待定目标实体,根据所述用户连通词集合和当前待定目标 实体的目标连通词集合,确定所述用户实体与所述当前待定目标实体之间的多个连通路 径;分别计算各个所述连通路径对应的路径权值,根据各个所述连通路径对应的路径权值 确定所述用户实体与所述当前待定目标实体之间的语义相关度;根据所述用户实体与各个 所述待定目标实体之间的语义相关度确定所述用户实体对应的目标实体。 结合第一方面,本专利技术实施例提供了第一方面第一种可能的实施方式,其中,根据 所述用户实体的当前语境在更新后的所述预设的实体关系库中确定所述用户实体对应的 用户连通词集合,包括:根据所述当前语境确定与所述用户实体相关的用户相关词集合,在 预设的实体关系库中确定与所述用户实体直接连通的用户连通词集合;利用所述用户相关 词集合对所述用户连通词集合进行优化,将优化后的所述用户连通词集合作为所述用户实 体对应的用户连通词集合。 结合第一方面,本专利技术实施例提供了第一方面第二种可能的实施方式,其中,根据 所述用户连通词集合和当前待定目标实体的目标连通词集合,确定所述用户实体与所述当 前待定目标实体之间的多个连通路径,包括:检测所述用户连通词集合中的词与当前待定 目标实体的目标连通词集合中的词的连通关系;当所述用户连通词集合中的第一词与所述 目标连通词集合中的第二词连通时,将所述用户实体与所述当前待定目标实体之间的包含 所述第一词和所述第二词的路径确定为所述用户实体与所述当前待定目标实体之间的连 通路径。 结合第一方面,本专利技术实施例提供了第一方面第三种可能的实施方式,其中,分别 计算各个所述连通路径对应的路径权值,根据各个所述连通路径对应的路径权值确定所述 用户实体与所述当前待定目标实体之间的语义相关度,包括:对于所述用户实体与所述当 前待定目标实体之间的当前连通路径,计算组成所述当前连通路径的各个连通线段对应的 权值之和,以及组成所述当前连通路径的词数量之和,根据所述权值之和所述词数量之和, 确定所述当前连通路径的路径权值;将各个所述连通路径的路径权值加和,得到所述用户 实体与所述当前待定目标实体之间的关系度。 结合第一方面,本专利技术实施例提供了第一方面第四种可能的实施方式,其中,分别 计算各个所述连通路径对应的路径权值,根据各个所述连通路径对应的路径权值确定所述 用户实体与所述当前待定目标实体之间的语义相关度,包括:对于所述用户实体与所述当 前待定目标实体之间的当前连通路径,计算组成所述当前连通路径的各个连通线段对应的 权值的倒数之和,将所述倒数之和确定为所述当前连通路径的路径权值;比较各个所述连 通路径的路径权值大小,选择所述路径权值最小的连通路径;将选择的所述连通路径包括 的词作为所述用户实体与所述当前待定目标实体之间的语义关系连接词。 结合第一方面上述的实施方式,本专利技术实施例提供了第一方面第五种可能的实施 方式,其中,在从用户的信息中确定用户实体之前,所述方法还包括:确定归入所述预设的 实体关系库的多个实体,并逐一选定各个实体;根据所述当前实体进行搜索,根据所述搜索 结果确定所述当前实体对应的多个候选关联词,以及各个所述候选关联词对应的初始权 值,根据所述多个候选关联词以及所述初始权值建立所述当前实体的候选关联词表;根据 各个所述候选关联词在所述候选关联词表中的重要程度,以及各个所述候选关联词在已存 储的关联词表中的重要程度,确定各个所述候选关联词的最终权值,根据所述最终权值建 立所述当前实体的关联词表;将所述各个实体的关联词表拼接起来,获得所述预设的实体 关系库。 结合第一方面第五种可能的实施方式,本专利技术实施例提供了第一方面第六种可能 的实施方式,其中,根据所述搜索结果确定所述当前实体对应的多个候选关联词,以及各个 所述候选关联词对应的初始权值,包括:在所述搜索结果中提取包含所述当前实体的多条 句子文本和所述多条句子文本各自对应的链接地址;本文档来自技高网
...

【技术保护点】
基于语义相关度的目标实体确定方法,其特征在于,所述方法包括:从用户的信息中确定用户实体,以及所述用户实体的当前语境;判断预设的实体关系库是否包含所述用户实体,若所述预设的实体关系库不包含所述用户实体,则根据所述用户实体动态更新所述预设的实体关系库;其中,所述预设的实体关系库包括多个实体,所述多个实体之间通过关联词连通,所述实体与所述关联词之间的连通线段具有对应的权值;根据所述用户实体的当前语境在更新后的所述预设的实体关系库中确定所述用户实体对应的用户连通词集合;将所述用户连通词连通的实体中除所述用户实体以外的其他实体依次确定为待定目标实体,并分别确定各个待定目标实体对应的目标连通词集合;在所述预设的实体关系库中逐一选定各个待定目标实体,根据所述用户连通词集合和当前待定目标实体的目标连通词集合,确定所述用户实体与所述当前待定目标实体之间的多个连通路径;分别计算各个所述连通路径对应的路径权值,根据各个所述连通路径对应的路径权值确定所述用户实体与所述当前待定目标实体之间的语义相关度;根据所述用户实体与各个所述待定目标实体之间的语义相关度确定所述用户实体对应的目标实体。

【技术特征摘要】

【专利技术属性】
技术研发人员:黄贵懿
申请(专利权)人:重庆文理学院
类型:发明
国别省市:重庆;85

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1