System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及实体解析领域,特别是涉及一种实体解析方法、设备、介质及产品。
技术介绍
1、实体解析(entityresolution er)是数据库、信息检索、机器学习、自然语言处理等领域的研究重点,是实现数据集成的先决条件,旨在识别来自两个不同来源的元组是否指向真实世界中的同一对象,或称两者为等价匹配。
2、早期解决实体解析任务的方法主要是基于规则的方法和基于传统的机器学习方法,近几年,基于深度学习的方法在实体解析中被广泛使用,并取得了理想的结果。目前,基于深度学习解决实体解析分为两类:(1)基于属性特征的实体解析模型;(2)基于实体类型的实体解析模型。其中,基于属性特征的实体解析模型包括结合注意力机制的rnn(循环神经网络)和lstm(长短期记忆网络),这些模型能够捕获语义和句法信息,以更好地表示语义相似性,特别是对于文本属性。基于实体类型的实体解析模型,如grapher模型,主要通过图卷积网络(gcn)表示实体记录,直接提取类型的比较特征,将语义和结构信息软性嵌入到图网络中;grapher模型依赖端到端的深度学习框架,解决了属性中心方法所面临的一些挑战;
3、然而,grapher模型存在一些不足。首先,在特征提取方面,虽然grapher从字符的角度出发提取实体类型,在捕获单词语义及其结构特征表现出色,但不擅长理解句子的整体语义,而整体语义的理解有助于解决实体名称的歧义问题,提升实体解析的准确性;因此,grapher模型在特征提取方面的处理使得实体解析的准确性不高。
4、在可扩展性方面,gra
5、在泛化能力方面,grapher模型基于的图神经网络,在面对不同领域和类型的文本时,可能需要花费大量工作对图结构进行调整和优化,以适应特定任务。
6、综上所述,基于现有grapher模型不擅长理解整体句子语义以及在数据量增多或面对新领域数据时,可扩展性和泛化能力受限的问题,亟需提供一种新的实体解析方法。
技术实现思路
1、本申请的目的是提供一种实体解析方法、设备、介质及产品,能够理解整体句子,实现实体解析模型的强泛化能力和高扩展性,提高实体解析的准确性。
2、为实现上述目的,本申请提供了如下方案:
3、第一方面,本申请提供了一种实体解析方法,所述实体解析方法包括:
4、获取基于实体解析任务的数据集;所述数据集中每一条样本数据包括两个来源不同的实体以及对应的相似结果;
5、根据语法知识将数据集中每一条样本数据中的两个实体生成相应的句子;
6、利用生成句子的数据集训练bert-pair-networks网络,得到实体解析模型;
7、利用实体解析模型对待解析的实体进行实体解析。
8、可选地,所述根据语法知识将数据集中每一条样本数据中的两个实体生成相应的句子,具体包括:
9、利用公式si=fg(ri1,ri2,...,rik,...,rim)将实体ri生成句子si;
10、利用公式sj=fg(rj1,rj2,...,rjk,...,rjm)将实体rj生成句子sj;
11、其中,实体ri=(ri1,ri2,...,rik,...,rim),rik为第i个实体的第k个属性数据,实体rj=(rj1,rj2,…,rjk,…,rjm),rjk为第j个实体的第k个属性数据,m表示属性数据的个数,fg为利用属性数据产生句子的语法映射函数。
12、可选地,所述bert-pair-networks网络的训练过程,具体包括:
13、利用bert-pair-networks网络中的预训练语言表示模型分别对句子si和句子sj进行编码,得到句子编码ei和句子编码ej;
14、利用bert-pair-networks网络中的池化策略将句子编码ei和句子编码ej映射为固定维度向量ui和固定维度向量uj;
15、利用bert-pair-networks网络中的mlp网络将固定维度向量ui和固定维度向量uj进行分类,得到分类结果;分类结果包括两个实体相似或两个实体不相似。
16、可选地,所述池化策略为平均池化、最大池化或cls三种映射函数。
17、可选地,所述利用bert-pair-networks网络中的mlp网络将固定维度向量ui和固定维度向量uj进行分类,得到分类结果,具体包括:
18、利用公式o=softmax(wt(ui,uj,|ui-uj|))确定分类结果;
19、其中,softmax为分类函数,wt为训练的参数,wt∈r3n×d,r为实数集,n表示句子嵌入的维度,d为分类标签的个数,对于实体解析任务,d=2,o∈{0,1}为分类结果,1表示两个实体相似,0表示两个实体不相似。
20、可选地,训练bert-pair-networks网络的目标函数为:
21、||sa-sp||+ε<||sa-sq||;
22、其中,sa、sp、sq为句子的嵌入向量,||.||为句子度量,ε为边界,a为给定的原始句子,p为给定的正面例子,q为给定的负面例子。
23、第二方面,本申请提供了一种实体解析设备,所述实体解析设备包括:
24、数据集获取模块,用于获取基于实体解析任务的数据集;所述数据集中每一条样本数据包括两个来源不同的实体以及对应的相似结果;
25、句子生成模块,用于根据语法知识将数据集中每一条样本数据中的两个实体生成相应的句子;
26、实体解析模型确定模块,用于利用生成句子的数据集训练bert-pair-networks网络,得到实体解析模型;
27、实体解析模块,用于利用实体解析模型对待解析的实体进行实体解析。
28、第三方面,本申请提供了一种计算机设备,包括:存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序以实现所述的实体解析方法。
29、第四方面,本申请提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现所述的实体解析方法。
30、第五方面,本申请提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现所述的实体解析方法。
31、根据本申请提供的具体实施例,本申请公开了以下技术效果:
32、本申请提供了一种实体解析方法、设备、介质及产品,通过根据语法知识将数据集中每一条样本数据中的两个实体生成相应的句子,从句子角度出发,通过生成句子,有效整合属性数据,从而对属性数据进行更加精确的语义理解;通过bert-pair-networks训练得到的实体解析模型,进而基于bert-pair-ne本文档来自技高网...
【技术保护点】
1.一种实体解析方法,其特征在于,所述实体解析方法包括:
2.根据权利要求1所述的实体解析方法,其特征在于,所述根据语法知识将数据集中每一条样本数据中的两个实体生成相应的句子,具体包括:
3.根据权利要求2所述的实体解析方法,其特征在于,所述BERT-Pair-Networks网络的训练过程,具体包括:
4.根据权利要求3所述的实体解析方法,其特征在于,所述池化策略为平均池化、最大池化或CLS三种映射函数。
5.根据权利要求3所述的实体解析方法,其特征在于,所述利用BERT-Pair-Networks网络中的MLP网络将固定维度向量Ui和固定维度向量Uj进行分类,得到分类结果,具体包括:
6.根据权利要求3所述的实体解析方法,其特征在于,训练BERT-Pair-Networks网络的目标函数为:
7.一种实体解析设备,其特征在于,所述实体解析设备包括:
8.一种计算机设备,包括:存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序以实现权利要求1
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1-6中任一项所述的实体解析方法。
10.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1-6中任一项所述的实体解析方法。
...【技术特征摘要】
1.一种实体解析方法,其特征在于,所述实体解析方法包括:
2.根据权利要求1所述的实体解析方法,其特征在于,所述根据语法知识将数据集中每一条样本数据中的两个实体生成相应的句子,具体包括:
3.根据权利要求2所述的实体解析方法,其特征在于,所述bert-pair-networks网络的训练过程,具体包括:
4.根据权利要求3所述的实体解析方法,其特征在于,所述池化策略为平均池化、最大池化或cls三种映射函数。
5.根据权利要求3所述的实体解析方法,其特征在于,所述利用bert-pair-networks网络中的mlp网络将固定维度向量ui和固定维度向量uj进行分类,得到分类结果,具体包括:
6...
【专利技术属性】
技术研发人员:刘鑫,姚俊萍,王佳硕,陈菁,李晓军,郭毅,
申请(专利权)人:中国人民解放军火箭军工程大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。