实体消歧的方法及系统技术方案

技术编号:24889435 阅读:35 留言:0更新日期:2020-07-14 18:16
本发明专利技术实施例公开了一种实体消歧的方法及装置,应用于分布式平台,其中该方法包括:将待消歧实体的词向量数据划分为多个部分,对每个部分的词向量数据进行聚类得到每个部分中每一类的类表示向量;将所有部分的所有类表示向量一同再次进行聚类,得到最终聚类结果;其中,不同部分的词向量数据由所述分布式平台中的不同节点进行聚类。如此,利用分布式平台通过二次聚类来完成实体消歧,能够满足对大量实体词进行实体消歧的需求。

【技术实现步骤摘要】
实体消歧的方法及系统
本专利技术涉及自然语言处理领域,尤指一种实体消歧的方法及装置。
技术介绍
信息抽取在自然语言处理中是一个很重要的工作,特别在当今信息爆炸的背景下,显得格外的重要。在抽取的众多实体中,将意义相近的词合并是一个重要课题,该课题被称作实体消歧。实体在自然语言处理领域,可以简单理解为名词,例如人名、机构名、地名以及其他所有以名称为标识的实体,更广泛的实体还包括数字、日期、货币、地址等等。一个实体可以有多个意思,例如同一个实体在不同的上下文中所表示的含义是不一样的。对于人来说,可以直观判断出这些实体代表的具体含义,但是对机器来说,就需要借助自然语言处理技术才能识别出每一个实体代表的具体含义,并能够区分不同的实体,即实体消歧技术。目前,可以应用在分布式环境中的机器学习算法非常少的,只有少量简单机器学习算法可应用于分布式计算平台上,对于大量其他算法仍然是计算在单机环境中,但是在单机环境中运行带来的问题就是计算能力有限,计算速度较慢,无法满足对大量实体词进行实体消歧的需求。可以说,现有技术中还没有能够满足对大量实体词进行实本文档来自技高网...

【技术保护点】
1.一种实体消歧的方法,应用于分布式平台,包括:/n将待消歧实体的词向量数据划分为多个部分,对每个部分的词向量数据进行聚类得到每个部分中每一类的类表示向量;/n将所有部分的所有类表示向量一同再次进行聚类,得到最终聚类结果;/n其中,不同部分的词向量数据由所述分布式平台中的不同节点进行聚类。/n

【技术特征摘要】
1.一种实体消歧的方法,应用于分布式平台,包括:
将待消歧实体的词向量数据划分为多个部分,对每个部分的词向量数据进行聚类得到每个部分中每一类的类表示向量;
将所有部分的所有类表示向量一同再次进行聚类,得到最终聚类结果;
其中,不同部分的词向量数据由所述分布式平台中的不同节点进行聚类。


2.根据权利要求1所述的方法,其特征在于,所述对每个部分的词向量数据进行聚类得到每个部分中每一类的类表示向量,包括:
对于每个部分的词向量数据分别进行如下操作:
采用相似度算法计算该部分中每两个实体之间的相似度;
使用聚类算法根据该部分中每两个实体之间的相似度进行聚类;
将该部分中聚类得到的每一类内所有词向量数据分别相加后取平均,得到该部分中每一类的类表示向量。


3.根据权利要求1所述的方法,其特征了在于,所述将所有部分的所有类表示向量一同再次进行聚类,得到最终聚类结果,包括:
采用相似度算法计算每两类之间的相似度;
使用聚类算法根据每两类之间的相似度再次进行聚类;
将再次聚类得到的每一类内所有词向量数据相加后取平均得到再次聚类后的每一类的类表示向量。


4.根据权利要求1所述的方法,其特征在于,在将待消歧实体的词向量数据进行划分之前,该方法还包括:
根据预设筛选规则对原始实体词向量数据进行筛选,得到所述待消歧实体的词向量数据。


5.根据权利要求4所述的方法,其特征在于,在根据预设筛选规则对原始实体词向量数据进行筛选之前,该方法还包括:
利用实体...

【专利技术属性】
技术研发人员:齐云飞付骁弈张杰
申请(专利权)人:北京明略软件系统有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1