命名实体对齐方法、装置、电子设备及可读存储介质制造方法及图纸

技术编号:25836614 阅读:23 留言:0更新日期:2020-10-02 14:17
本发明专利技术涉及一种大数据技术,揭露了一种命名实体对齐方法,包括:对所述待对齐命名实体进行标准化处理,得到标准待对齐命名实体;对所述测试命名实体集进行抽样处理,得到测试命名实体子集;利用每个测试命名实体子集训练预设的神经网络模型,得到命名实体对齐模型集合;根据所述命名实体对齐模型集合对所述待对齐命名实体进行模型对齐,得到对齐结果。本发明专利技术还涉及一种区块链技术,用于模型训练的数据可存储于区块链中。本发明专利技术还提出一种命名实体对齐装置、电子设备以及一种计算机可读存储介质。本发明专利技术可以提高命名实体对齐的准确率。

【技术实现步骤摘要】
命名实体对齐方法、装置、电子设备及可读存储介质
本专利技术涉及大数据领域,尤其涉及一种命名实体对齐的方法、装置、电子设备及可读存储介质。
技术介绍
随着大数据时代的来临,如何高效地获取、处理其中的知识是一个重要的研究议题。自然语言处理领域中的命名实体对齐研究旨在将同一概念的不同表述方式进行统一标准化,能够极大的方便用户对知识的理解及应用。目前命名实体对齐方法主要有两类,一类是基于不同实体间的形态特征进行对齐,但部分形态特征对齐丧失了语义特征,准确率低;另一类是基于实体进行语义对齐,需要大量的训练数据进行训练,但训练数据不易获取导致该方法准确率也不高。
技术实现思路
本专利技术提供一种命名实体对齐方法、装置、电子设备及计算机可读存储介质,其主要目的在于降低模型训练的数据量,提高命名实体对齐的准确率。为实现上述目的,本专利技术提供的一种命名实体对齐方法,包括:获取待对齐命名实体,对所述待对齐命名实体进行标准化处理,得到标准待对齐命名实体;获取测试命名实体集,对所述测试命名实体集进行抽样处理,得到测本文档来自技高网...

【技术保护点】
1.一种命名实体对齐方法,其特征在于,所述方法包括:/n获取待对齐命名实体,对所述待对齐命名实体进行标准化处理,得到标准待对齐命名实体;/n获取测试命名实体集,对所述测试命名实体集进行抽样处理,得到测试命名实体子集;/n利用每个测试命名实体子集训练预设的神经网络模型,得到命名实体对齐模型集合;/n根据所述命名实体对齐模型集合对所述待对齐命名实体进行模型对齐,得到对齐结果。/n

【技术特征摘要】
1.一种命名实体对齐方法,其特征在于,所述方法包括:
获取待对齐命名实体,对所述待对齐命名实体进行标准化处理,得到标准待对齐命名实体;
获取测试命名实体集,对所述测试命名实体集进行抽样处理,得到测试命名实体子集;
利用每个测试命名实体子集训练预设的神经网络模型,得到命名实体对齐模型集合;
根据所述命名实体对齐模型集合对所述待对齐命名实体进行模型对齐,得到对齐结果。


2.如权利要求1所述的命名实体对齐方法,其特征在于,所述利用每一个所述测试命名实体子集训练预设的神经网络模型,得到命名实体对齐模型集合,包括:
将所述测试命名实体子集中的每个测试命名实体转化为测试命名实体向量,得到测试命名实体向量子集;
将所述测试命名实体向量子集确定为训练集;
对所述测试命名实体向量子集进行标记,得到标签集;
利用所述训练集及所述标签集对所述神经网络模型进行训练,得到命名实体对齐模型;
汇总所有的所述命名实体对齐模型,得到所述命名实体对齐模型集合。


3.如权利要求1所述的命名实体对齐方法,其特征在于,所述根据命名实体对齐模型集合对所述标准待对齐命名实体进行模型对齐之前,还包括:
利用所述标准待对齐命名实体在预构建的标准命名实体库中进行形态对齐,若所述形态对齐成功,得到所述对齐结果;
若所述形态对齐不成功,根据所述命名实体对齐模型集合对所述标准待对齐命名实体进行模型对齐。


4.如权利要求3所述的命名实体对齐方法,其特征在于,所述利用所述标准待对齐命名实体在预构建的标准命名实体库中进行形态对齐,若所述形态对齐成功,得到所述对齐结果,包括:
计算所述标准待对齐命名实体与所述标准命名实体库中每个标准命名实体的编辑距离;
当在所述编辑距离中存在目标编辑距离等于预设编辑距离值时,确定对齐成功,选取所述目标编辑距离对应的标准命名实体作为所述对齐结果。


5.如权利要求3所述的命名实体对齐方法,其特征在于,所述根据命名实体对齐模型集合对所述待对齐命名实体进行模型对齐,得到对齐结果,包括:
将所述标准待对齐命名实体中每个文字转化为预定维度的字向量,计算所述标准待对齐命名实体中所有文字对应的字向量的平均值,得到标准待对齐命名实体向量;
利用所述命名实体对齐模型集合中的每个命名实体对齐模型对所述标准待对齐命名实体向量进行对齐处理,得到预测对齐实体向量;
将所述标准命名实体库中的每个标准命名实体转化为标准命名实体向量,汇总所有所述标准命名实体向量,得到标准命名实体向量库;
对...

【专利技术属性】
技术研发人员:阮晓雯邓攀徐亮肖京
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1