一种词条同义判别的寻证方法、装置、设备和存储介质制造方法及图纸

技术编号：24939051 阅读：18 留言：0更新日期：2020-07-17 21:09

本申请公开了一种词条同义判别的寻证方法、装置、设备和存储介质，涉及知识图谱技术领域。具体实现方案为：获取待进行同义判别的词条对，以及所述词条对所属领域的数据源；将所述数据源中的文本按照设定粒度进行划分，得到多段文本；根据所述词条对在所述多段文本的每段文本中是否出现，计算所述词条对的相关度；如果所述词条对的相关度满足设定条件，将所述词条对共现的文本段作为所述词条对的同义判别证据。本申请实施例将可能同义的词条对出现在的一段段文本提取出来，作为同义判别证据，从而依据词条对的共现进行初步的同义判别，提高同义判别证据的准确性和权威性。

全部详细技术资料下载

【技术实现步骤摘要】
一种词条同义判别的寻证方法、装置、设备和存储介质
本申请涉及计算机技术，尤其涉及知识图谱

技术介绍
有些行业中，描述行业内实体的术语别名较多，口语化的描述也差别很大。例如医疗领域中，对于检查、手术、临床、药物、疾病等的实体的标准名和别名较多，例如，感冒和上呼吸道感染描述的是同一疾病，妊高症和妊娠期高血压描述的是同一疾病。在将智能项目落地时，需要对同一实体的标准名和别名进行统一，以便项目成功运行。目前主要通过本领域专家通过经验直接判断两个词条是否同义。由于领域内实体的术语别名会不断增加和变化，专家的经验也不尽是正确的，单纯依据经验会使同义判断的依据不足，不够权威，难以评估同义判别的准确性。
技术实现思路
本申请实施例提供了一种词条同义判别的寻证方法、装置、设备和存储介质，以得到对词条对进行同义判别的证据，辅助相关人员进行同义判别，提高同义判别的准确性。第一方面，本申请实施例提供了一种词条同义判别的寻证方法，包括：获取待进行同义判别的词条对，以及所述词条对所属领域的数据源；将所述数据源中的文本按照设定粒度进行划分，得到多段文本；根据所述词条对在所述多段文本的每段文本中是否出现，计算所述词条对的相关度；如果所述词条对的相关度满足设定条件，将所述词条对共现的文本段作为所述词条对的同义判别证据。本申请实施例根据词条对在每段文本中是否出现计算相关度，如果相关度满足设定条件，说明词条对可能是同义的，进而将可能同义的词条对出现在的一段段文本...

【技术保护点】
1.一种词条同义判别的寻证方法，其特征在于，包括：/n获取待进行同义判别的词条对，以及所述词条对所属领域的数据源；/n将所述数据源中的文本按照设定粒度进行划分，得到多段文本；/n根据所述词条对在所述多段文本的每段文本中是否出现，计算所述词条对的相关度；/n如果所述词条对的相关度满足设定条件，将所述词条对共现的文本段作为所述词条对的同义判别证据。/n

【技术特征摘要】
1.一种词条同义判别的寻证方法，其特征在于，包括：
获取待进行同义判别的词条对，以及所述词条对所属领域的数据源；
将所述数据源中的文本按照设定粒度进行划分，得到多段文本；
根据所述词条对在所述多段文本的每段文本中是否出现，计算所述词条对的相关度；
如果所述词条对的相关度满足设定条件，将所述词条对共现的文本段作为所述词条对的同义判别证据。

2.根据权利要求1所述的方法，其特征在于，所述根据所述词条对在所述多段文本的每段文本中是否出现，计算所述词条对的相关度，包括：
根据所述词条对在所述多段文本的每段文本中是否出现，计算所述词条对的共现概率以及所述词条对中每个词条的出现概率；
根据所述词条对的共现概率以及每个词条的出现概率，计算所述词条对的相关度。

3.根据权利要求2所述的方法，其特征在于，所述数据源包括多个著作物；
所述根据所述词条对在所述多段文本的每段文本中是否出现，计算所述词条对的共现概率以及所述词条对中每个词条的出现概率，包括：
根据所述词条对在每个著作物的每段文本中是否出现，计算所述词条对在每个著作物中的共现概率以及所述词条对中每个词条在每个著作物中的出现概率；
所述根据所述词条对的共现概率以及每个词条的出现概率，计算所述词条对的相关度，包括：
根据所述词条对在每个著作物中的共现概率以及每个词条在每个著作物中的出现概率，计算所述词条对在每个著作物中的相关度；
根据所述著作物的数量和所述词条对在每个著作物中的相关度，计算所述词条对在所述多个著作物中的平均相关度。

4.根据权利要求2所述的方法，其特征在于，在所述根据所述词条对的共现概率以及每个词条的出现概率，计算所述词条对的相关度之前，还包括：
根据所述词条对和所述词条对之间的同义关联词在所述多段文本的每段文本中是否出现，计算所述词条对和所述同义关联词的共现概率；
所述根据所述词条对的共现概率以及每个词条的出现概率，计算所述词条对的相关度，包括：
根据所述词条对的共现概率、每个词条的出现概率以及所述词条对和所述同义关联词的共现概率，计算所述词条对的相关度。

5.根据权利要求3所述的方法，其特征在于，在所述如果所述词条对的相关度满足设定条件，将所述词条对共现的文本段作为所述词条对的同义判别证据之后，还包括：
根据所述同义判别证据的每个来源著作物的权威程度，确定每个来源著作物的权值；
根据所述词条对在每个来源著作物中的相关度以及每个来源著作物的权值，计算所述词条对在每个来源著作物中的加权相关度；
根据所述词条对在每个来源著作物中的加权相关度，对所述多个来源著作物的同义判别证据进行排序。

6.根据权利要求1所述的方法，其特征在于，所述如果所述词条对的相关度满足设定条件，将所述词条对共现的文本段作为所述词条对的同义判别证据，包括：
如果所述词条对的相关度超过设定阈值，将所述词条对共现的文本段作为所述词条对的同义判别证据。

7.根据权利要求1所述的方法，其特征在于，所述设定粒度包括句子、段落或篇章。

8.根据权利要求1-7任一项所述的方法，其特征在于，所述获取待进...

【专利技术属性】
技术研发人员：郭辉，林义明，史亚冰，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人