实体识别方法、装置、设备及存储介质制造方法及图纸

技术编号：40103974 阅读：5 留言：0更新日期：2024-01-23 18:08

本发明专利技术涉及金融科技领域的人工智能技术，揭露了一种实体识别方法，包括：基于原始训练集合中的标签进行数据增强处理，得到标准训练集合，获取多源领域的多源训练集合，基于标准训练集合及所述多源训练集合对预构建的第一语言模型进行自适应训练，得到第一实体识别模型；利用标准训练集合及多源训练集合对预构建的第二语言模型进行贡献度领域迁移训练，得到第二实体识别模型，利用第一实体识别模型及所述第二实体识别模型对目标领域的待识别数据进行实体识别，得到实体识别结果。本发明专利技术还涉及区块链技术，所述实体识别结果可存储在区块链的节点中。本发明专利技术还提出一种实体识别装置、电子设备以及可读存储介质。本发明专利技术可以提高实体识别的准确率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及金融科技及人工智能，尤其涉及一种实体识别方法、装置、电子设备及可读存储介质。

技术介绍

1、随着人工智能的发展，实体识别广泛应用于不同领域，可以提高数据识别的效率，例如，在银行和保险业务中，用户信息录入和核对等业务上存在着很多消耗人力的重复性工作，而实体识别技术可以自动识别给定数据文本中的命名实体信息，提高了信息统计的效率和准确性。

2、现有技术中，实体识别领域自适应方法已经取得了一定的进展，但仍存在着一些问题，包括：1、大多数自适应方法都是从单一源领域迁移到目标领域，但当目标领域与源领域差异较大时，迁移的效果并不理想，导致实体识别的准确率较低，例如以寿险业务中用户信息为目标领域，新闻报道、科技文献等不同源领域的数据迁移效果较差；2、当前基于预训练的自适应方法通常需要大规模的目标领域或相关领域无标注语料对语言模型进行预训练，但并非所有目标领域都可以满足这一条件，因此训练数据的质量难以保证，进而影响模型训练，导致实体识别准确率较低。

技术实现思路

1、本专利技术提供一种实体识别方法、装置、电子设备及可读存储介质，其主要目的在于可以提高实体识别的准确率。

2、为实现上述目的，本专利技术提供的一种实体识别方法，包括：

3、获取目标领域的原始训练集合，基于所述原始训练集合中的标签对所述原始训练集合进行数据增强处理，得到标准训练集合；

4、获取多源领域的多源训练集合，基于所述标准训练集合及所述多源训练集合对预构建的第一语言模型进行

5、利用所述标准训练集合及所述多源训练集合对预构建的第二语言模型进行贡献度领域迁移训练，得到第二实体识别模型；

6、利用所述第一实体识别模型及所述第二实体识别模型对目标领域的待识别数据进行实体识别，得到实体识别结果。

7、可选地，所述基于所述原始训练集合中的标签对所述原始训练集合进行数据增强处理，得到标准训练集合，包括：

8、依次将所述原始训练集合中文本对应的标签选为目标标签；

9、利用预设的元数据替换所述目标标签对应的文本，得到增强训练数据，汇总所有的增强训练数据及所述原始训练数据集合得到所述标准训练集合。

10、可选地，所述基于所述标准训练集合及所述多源训练集合对预构建的第一语言模型进行自适应训练，得到第一实体识别模型，包括：

11、利用所述标准训练集合对所述第一语言模型进行初始预训练，得到自适应语言模型；

12、利用所述多源训练集合对所述自适应语言模型进行二阶段预训练，得到实体识别模型。

13、可选地，所述利用所述标准训练集合及所述多源训练集合对预构建的第二语言模型进行贡献度领域迁移训练，得到第二实体识别模型，包括：

14、利用所述第一实体识别模型对所述标准训练集合及所述多源训练集合中的训练文本进行向量化处理，得到句子特征向量；

15、计算所述句子特征向量的领域贡献度，以及计算所述句子特征向量的样本贡献度；

16、利用所述第二语言模型对所述句子特征向量进行实体预测，得到预测标签；

17、基于所述预测标签、所述领域贡献度及所述样本贡献度对所述第二语言模型进行领域迁移训练，得到第二实体识别模型。

18、可选地，所述基于所述预测标签、所述领域贡献度及所述样本贡献度对所述第二语言模型进行领域迁移训练，得到第二实体识别模型，包括：

19、基于所述领域贡献度及所述样本贡献度计算贡献权重，利用所述贡献权重及所述预测标签计算损失值；

20、在所述损失值大于等于预设的损失阈值时，调整所述第二语言模型的模型参数，并返回所述利用所述标准训练集合及所述多源训练集合对预构建的第二语言模型进行贡献度领域迁移训练的步骤，直至所述损失值小于所述损失阈值时，停止训练，得到所述第二实体识别模型。

21、可选地，所述损失值通过下述损失函数计算：

22、

23、其中，l表示损失值，m为多源训练集合中的句子特征向量总数，n为标准训练集合中目标领域的句子特征向量总数，表示第j个句子特征向量的预测实体标签，表示第j个句子特征向量的真实实体标签，wj表示第j个句子特征向量的贡献权重，表示第j个句子特征向量的预测领域标签。

24、可选地，所述利用所述第一实体识别模型及所述第二实体识别模型对目标领域的待识别数据进行实体识别，得到实体识别结果，包括：

25、利用所述第一实体识别模型对所述目标领域的待识别数据进行向量化处理，得到待识别向量；

26、利用所述第二实体识别模型对所述待识别向量进行实体识别，得到所述实体识别结果。

27、为了解决上述问题，本专利技术还提供一种实体识别装置，所述装置包括：

28、数据增强模块，用于获取目标领域的原始训练集合，基于所述原始训练集合中的标签对所述原始训练集合进行数据增强处理，得到标准训练集合；

29、模型训练模块，用于获取多源领域的多源训练集合，基于所述标准训练集合及所述多源训练集合对预构建的第一语言模型进行自适应训练，得到第一实体识别模型，利用所述标准训练集合及所述多源训练集合对预构建的第二语言模型进行贡献度领域迁移训练，得到第二实体识别模型；

30、实体识别模块，用于利用所述第一实体识别模型及所述第二实体识别模型对目标领域的待识别数据进行实体识别，得到实体识别结果。

31、为了解决上述问题，本专利技术还提供一种电子设备，所述电子设备包括：

32、存储器，存储至少一个计算机程序；及

33、处理器，执行所述存储器中存储的计算机程序以实现上述所述的实体识别方法。

34、为了解决上述问题，本专利技术还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一个计算机程序，所述至少一个计算机程序被电子设备中的处理器执行以实现上述所述的实体识别方法。

35、本专利技术基于对目标领域的原始训练集合进行数据增强处理，得到标准训练集合，可以提高数据质量。并且基于所述标准训练集合及所述多源训练集合对预构建的第一语言模型进行自适应训练，得到第一实体识别模型，以及利用所述标准训练集合及所述多源训练集合对预构建的第二语言模型进行贡献度领域迁移训练，得到第二实体识别模型，可以提高模型对实体识别的准确率。例如在金融寿险领域，对于寿险目标领域、新闻报道、科技文献等多源领域，通过引入贡献度来进行领域迁移，可以提高对寿险目标领域实体识别的准确率。因此本专利技术提出的实体识别方法、装置、电子设备及计算机可读存储介质，可以提高实体识别的准确率。

本文档来自技高网...

【技术保护点】

1.一种实体识别方法，其特征在于，所述方法包括：

2.如权利要求1所述的实体识别方法，其特征在于，所述基于所述原始训练集合中的标签对所述原始训练集合进行数据增强处理，得到标准训练集合，包括：

3.如权利要求1所述的实体识别方法，其特征在于，所述基于所述标准训练集合及所述多源训练集合对预构建的第一语言模型进行自适应训练，得到第一实体识别模型，包括：

4.如权利要求1中所述的实体识别方法，其特征在于，所述利用所述标准训练集合及所述多源训练集合对预构建的第二语言模型进行贡献度领域迁移训练，得到第二实体识别模型，包括：

5.如权利要求4所述的实体识别方法，其特征在于，所述基于所述预测标签、所述领域贡献度及所述样本贡献度对所述第二语言模型进行领域迁移训练，得到第二实体识别模型，包括：

6.如权利要求5中所述的实体识别方法，其特征在于，所述损失值通过下述损失函数计算：

7.如权利要求1所述的实体识别方法，其特征在于，所述利用所述第一实体识别模型及所述第二实体识别模型对目标领域的待识别数据进行实体识别，得到实体识别结果，包括：

8.一种实体识别装置，其特征在于，所述装置包括：

9.一种电子设备，其特征在于，所述电子设备包括：

10.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7中任意一项所述的实体识别方法。

...

【技术特征摘要】

1.一种实体识别方法，其特征在于，所述方法包括：

5.如权利要求4所述的实体识别方法，其特征在于，所述基于所述预测标签、所...

【专利技术属性】
技术研发人员：于凤英，王健宗，程宁，
申请(专利权)人：平安创科科技北京有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人