一种词条同义判别的寻证方法、装置、设备和存储介质制造方法及图纸

技术编号:24939051 阅读:18 留言:0更新日期:2020-07-17 21:09
本申请公开了一种词条同义判别的寻证方法、装置、设备和存储介质,涉及知识图谱技术领域。具体实现方案为:获取待进行同义判别的词条对,以及所述词条对所属领域的数据源;将所述数据源中的文本按照设定粒度进行划分,得到多段文本;根据所述词条对在所述多段文本的每段文本中是否出现,计算所述词条对的相关度;如果所述词条对的相关度满足设定条件,将所述词条对共现的文本段作为所述词条对的同义判别证据。本申请实施例将可能同义的词条对出现在的一段段文本提取出来,作为同义判别证据,从而依据词条对的共现进行初步的同义判别,提高同义判别证据的准确性和权威性。

【技术实现步骤摘要】
一种词条同义判别的寻证方法、装置、设备和存储介质
本申请涉及计算机技术,尤其涉及知识图谱

技术介绍
有些行业中,描述行业内实体的术语别名较多,口语化的描述也差别很大。例如医疗领域中,对于检查、手术、临床、药物、疾病等的实体的标准名和别名较多,例如,感冒和上呼吸道感染描述的是同一疾病,妊高症和妊娠期高血压描述的是同一疾病。在将智能项目落地时,需要对同一实体的标准名和别名进行统一,以便项目成功运行。目前主要通过本领域专家通过经验直接判断两个词条是否同义。由于领域内实体的术语别名会不断增加和变化,专家的经验也不尽是正确的,单纯依据经验会使同义判断的依据不足,不够权威,难以评估同义判别的准确性。
技术实现思路
本申请实施例提供了一种词条同义判别的寻证方法、装置、设备和存储介质,以得到对词条对进行同义判别的证据,辅助相关人员进行同义判别,提高同义判别的准确性。第一方面,本申请实施例提供了一种词条同义判别的寻证方法,包括:获取待进行同义判别的词条对,以及所述词条对所属领域的数据源;将所述数据源中的文本按照设定粒度进行划分,得到多段文本;根据所述词条对在所述多段文本的每段文本中是否出现,计算所述词条对的相关度;如果所述词条对的相关度满足设定条件,将所述词条对共现的文本段作为所述词条对的同义判别证据。本申请实施例根据词条对在每段文本中是否出现计算相关度,如果相关度满足设定条件,说明词条对可能是同义的,进而将可能同义的词条对出现在的一段段文本提取出来,作为同义判别证据,从而依据词条对的共现进行初步的同义判别,提高同义判别证据的准确性和权威性;本申请实施例对词条对所属领域的数据源按照设定粒度进行划分,进而以每段文本为单位得到相关度,以便根据相关度将词条对共现的文本段,即具体出处提取出来,而非在整个数据源中查找词条对;该文本段能够直接反映词条对是否同义,通过将该文本作为同义判别证据进行最终的同义判别,能够进一步提高同义判别证据的权威性和准确性。可选的,根据所述词条对在所述多段文本的每段文本中是否出现,计算所述词条对的相关度,包括:根据所述词条对在所述多段文本的每段文本中是否出现,计算所述词条对的共现概率以及所述词条对中每个词条的出现概率;根据所述词条对的共现概率以及每个词条的出现概率,计算所述词条对的相关度。上述申请中的一种可选实施方式,词条对的共现概率实质是两个词条的联合分布概率,每个词条的出现概率实质是每个词条的边缘分布概率,在概率论和信息论中,根据联合分布概率和边缘分布概率可以得到词条对的相关度,该相关度体现了两个词条之间的内在依赖性,能有效度量词条对是否同义。可选地,所述数据源包括多个著作物;所述根据所述词条对在所述多段文本的每段文本中是否出现,计算所述词条对的共现概率以及所述词条对中每个词条的出现概率,包括:根据所述词条对在每个著作物的每段文本中是否出现,计算所述词条对在每个著作物中的共现概率以及所述词条对中每个词条在每个著作物中的出现概率;所述根据所述词条对的共现概率以及每个词条的出现概率,计算所述词条对的相关度,包括:根据所述词条对在每个著作物中的共现概率以及每个词条在每个著作物中的出现概率,计算所述词条对在每个著作物中的相关度;根据所述著作物的数量和所述词条对在每个著作物中的相关度,计算所述词条对在所述多个著作物中的平均相关度。上述申请中的一种可选实施方式,通过引入多个著作物扩充了同义判别证据的数据源,从而有利于提供更多的证据;以著作物为单位得到词条对在每个著作物中的相关度,从而在每个著作物中全面衡量词条对是否可能同义;通过得到平均相关度,避免在有些著作物中相关度过高或过低,导致判断错误的情况。可选地,在所述根据所述词条对的共现概率以及每个词条的出现概率,计算所述词条对的相关度之前,还包括:根据所述词条对和所述词条对之间的同义关联词在所述多段文本的每段文本中是否出现,计算所述词条对和所述同义关联词的共现概率;所述根据所述词条对的共现概率以及每个词条的出现概率,计算所述词条对的相关度,包括:根据所述词条对的共现概率、每个词条的出现概率以及所述词条对和所述同义关联词的共现概率,计算所述词条对的相关度。上述申请中的一种可选实施方式,在计算词条对的相关度时,除了词条对的共现概率和每个词条的出现概率之外,还引入了词条对和词条对之间的同义关联词的共现概率;显然,如果词条对和同义关联词共现能够直接表明词条对是同义的,因此通过根据词条对的共现概率、每个词条的出现概率以及词条对和同义关联词的共现概率能够得到更加准确的相关度,提高初步同义判断的准确性。可选的,如果所述词条对的相关度满足设定条件,将所述词条对共现的文本段作为所述词条对的同义判别证据,包括:如果所述词条对的相关度超过设定阈值,将所述词条对共现的文本段作为所述词条对的同义判别证据。上述申请中的一种可选实施方式,如果词条对的相关度小,即词条对几乎不相关,同义的概率性低;如果词条对的相关度大,即词条对很大可能相关,同义的概率高。通过对相关度设定阈值,从而以设定阈值为界对词条对进行同义判断。可选的,在所述如果所述词条对的相关度满足设定条件,将所述词条对共现的文本段作为所述词条对的同义判别证据之后,还包括:根据所述同义判别证据的每个来源著作物的权威程度,确定每个来源著作物的权值;根据所述词条对在每个来源著作物中的相关度以及每个来源著作物的权值,计算所述词条对在每个来源著作物中的加权相关度;根据所述词条对在每个来源著作物中的加权相关度,对所述多个来源著作物的同义判别证据进行排序。上述申请中的一种可选实施方式,通过按照加权相关度对同义判别证据进行排序,即按照每个来源著作物的权威程度对同义判别证据排序,来源著作物的权威程度越高,同义判别证据的参考价值和准确性越高。因此,通过对同义判别证据进行排序,能够定位到高参考价值和高准确性的证据,进而提高同义判别的准确率。可选的,所述设定粒度包括句子、段落或篇章。上述申请中的一种可选实施方式,通过将数据源中的文本按照句子、段落或者篇章划分,而句子、段落和篇章能够完整地表达某一个意思,出现同义词的概率较高,则通过以每个句子、段落或篇章为单位确定词条对是否出现,能够较准确地得到词条对的相关度;而且能够直接提取出词条对共现的句子、段落或篇章,获取到完整表达某一个意思的一段文本作为同义判别证据,提高证据的完整性和可用性。可选的,获取待进行同义判别的词条对,包括:获取输入词条和多个基准词条,所述输入词条和每个基准词条构成初始词条对;从多个初始词条对中,筛选不满足设定冲突关系的候选词条对;计算所述候选词条对的相似度,并将相似度满足设定相似条件的候选词条确定为所述待进行同义判别的词条对;其中,所述设定冲突关系包括:原词条包含关系、重排词条包含关系、属性冲突关系、包含指本文档来自技高网...

【技术保护点】
1.一种词条同义判别的寻证方法,其特征在于,包括:/n获取待进行同义判别的词条对,以及所述词条对所属领域的数据源;/n将所述数据源中的文本按照设定粒度进行划分,得到多段文本;/n根据所述词条对在所述多段文本的每段文本中是否出现,计算所述词条对的相关度;/n如果所述词条对的相关度满足设定条件,将所述词条对共现的文本段作为所述词条对的同义判别证据。/n

【技术特征摘要】
1.一种词条同义判别的寻证方法,其特征在于,包括:
获取待进行同义判别的词条对,以及所述词条对所属领域的数据源;
将所述数据源中的文本按照设定粒度进行划分,得到多段文本;
根据所述词条对在所述多段文本的每段文本中是否出现,计算所述词条对的相关度;
如果所述词条对的相关度满足设定条件,将所述词条对共现的文本段作为所述词条对的同义判别证据。


2.根据权利要求1所述的方法,其特征在于,所述根据所述词条对在所述多段文本的每段文本中是否出现,计算所述词条对的相关度,包括:
根据所述词条对在所述多段文本的每段文本中是否出现,计算所述词条对的共现概率以及所述词条对中每个词条的出现概率;
根据所述词条对的共现概率以及每个词条的出现概率,计算所述词条对的相关度。


3.根据权利要求2所述的方法,其特征在于,所述数据源包括多个著作物;
所述根据所述词条对在所述多段文本的每段文本中是否出现,计算所述词条对的共现概率以及所述词条对中每个词条的出现概率,包括:
根据所述词条对在每个著作物的每段文本中是否出现,计算所述词条对在每个著作物中的共现概率以及所述词条对中每个词条在每个著作物中的出现概率;
所述根据所述词条对的共现概率以及每个词条的出现概率,计算所述词条对的相关度,包括:
根据所述词条对在每个著作物中的共现概率以及每个词条在每个著作物中的出现概率,计算所述词条对在每个著作物中的相关度;
根据所述著作物的数量和所述词条对在每个著作物中的相关度,计算所述词条对在所述多个著作物中的平均相关度。


4.根据权利要求2所述的方法,其特征在于,在所述根据所述词条对的共现概率以及每个词条的出现概率,计算所述词条对的相关度之前,还包括:
根据所述词条对和所述词条对之间的同义关联词在所述多段文本的每段文本中是否出现,计算所述词条对和所述同义关联词的共现概率;
所述根据所述词条对的共现概率以及每个词条的出现概率,计算所述词条对的相关度,包括:
根据所述词条对的共现概率、每个词条的出现概率以及所述词条对和所述同义关联词的共现概率,计算所述词条对的相关度。


5.根据权利要求3所述的方法,其特征在于,在所述如果所述词条对的相关度满足设定条件,将所述词条对共现的文本段作为所述词条对的同义判别证据之后,还包括:
根据所述同义判别证据的每个来源著作物的权威程度,确定每个来源著作物的权值;
根据所述词条对在每个来源著作物中的相关度以及每个来源著作物的权值,计算所述词条对在每个来源著作物中的加权相关度;
根据所述词条对在每个来源著作物中的加权相关度,对所述多个来源著作物的同义判别证据进行排序。


6.根据权利要求1所述的方法,其特征在于,所述如果所述词条对的相关度满足设定条件,将所述词条对共现的文本段作为所述词条对的同义判别证据,包括:
如果所述词条对的相关度超过设定阈值,将所述词条对共现的文本段作为所述词条对的同义判别证据。


7.根据权利要求1所述的方法,其特征在于,所述设定粒度包括句子、段落或篇章。


8.根据权利要求1-7任一项所述的方法,其特征在于,所述获取待进...

【专利技术属性】
技术研发人员:郭辉林义明史亚冰
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1