当前位置: 首页 > 专利查询>国网内蒙古东部电力有限公司信息通信分公司专利>正文

基于字词向量融合的实体识别方法、系统、设备及介质技术方案

技术编号：40595914 阅读：4 留言：0更新日期：2024-03-12 21:58

本发明专利技术公开了一种基于字词向量融合的实体识别方法、系统、设备及介质，涉及信息提取技术领域，方法包括：获取待识别文本，通过BERT模型中的经通信领域词典融合后得到的Transformer处理后得到第一文本向量；将所述第一文本向量作为所述BERT模型中的下一层的输入进行处理，得到该待识别文本对应的实体类型。本发明专利技术能够通过词典适配器将外部词典知识直接集成到BERT模型中，提高实体识别的准确性，并在融合词典信息的基础上，进行后续识别，更能提高识别的准确性。

全部详细技术资料下载

【技术实现步骤摘要】

所属的技术人员知道，本专利技术可以实现为系统、方法或计算机程序产品，因此，本公开可以具体实现为以下形式，即：可以是完全的硬件、也可以是完全的软件(包括固件、驻留软件、微代码等)，还可以是硬件和软件结合的形式，本实施例一般称为“电路”、“模块”或“系统”。此外，在一些实施例中，本专利技术还可以实现为在一个或多个计算机可读介质中的计算机程序产品的形式，该计算机可读介质中包含计算机可读的程序代码。可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是一一但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(ram)，只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本实施例件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。尽管上面已经示出和描述了本专利技术的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本专利技术的限制，本领域的普通技术人员在本专利技术的范围内可以对上述实施例进行变化、修改、替换和变型。

技术介绍

1、领域实体识别(domain entity identification)：一种信息提取技术，从

2、主动学习(active learning)：使用尽可能少的标注样本，达到与监督学习类似的效果，通过综合评估样本的价值与样本间的相似性来选择具有代表性的待标注样本。

3、现有技术中，针对实体识别方面存在以下几点问题：

4、(1)电力通信领域实体边界模糊

5、实体识别任务通常采用字向量的方式进行输入，但是中文语义的基本单位是词语，字级别嵌入缺失了字符在词汇中的语义表达，会破坏语义的完整性。同时存在实体边界难以判断的问题。

6、(2)领域特征难以提取，无法充分获取上下文信息

7、领域文本数据存在专有名词多、汉字中夹带字母及部分记录格式不规范等特点，导致基于字向量模型不能很好地学习到特定领域的特征信息，存在识别准确率较低的问题。

8、(3)领域样本不平衡

9、由于有些垂直领域是私有数据，存在样本不平衡、人工标注费时费力的问题。

技术实现思路

1、本专利技术所要解决的技术问题是针对现有技术的不足，具体针对领域特征难提取以及费时费力等问题，具体提供了基于字词向量融合的实体识别方法、系统、设备及介质，具体如下：

2、1)第一方面，本专利技术提供一种基于字词向量融合的实体识别方法，具体技术方案如下：

3、s1，获取待识别文本，通过bert模型中的经通信领域词典融合后得到的transformer处理后得到第一文本向量；

4、s2，将所述第一文本向量作为所述bert模型中的下一层的输入进行处理，得到该待识别文本对应的实体类型。

5、本专利技术提供的一种井深数据的校正方法的有益效果如下：

6、通过词典适配器将外部词典知识直接集成到bert模型中，提高实体识别的准确性，并在融合词典信息的基础上，进行后续识别更能提高识别的准确性。

7、在上述方案的基础上，本专利技术还可以做如下改进。

8、进一步，所述通信领域词典的构建过程具体为：

9、基于n元模型对通过给定语料文本构成的文件进行不同词片段的词频统计；

10、确定不同词片段对应的点互信息；

11、基于ac自动计算法确定每个词片段对应的左右字，并基于所述左右字计算每个词片段的左右信息熵；

12、将词片段与该词片段对应的词频、点互信息以及左右信息熵进行关联，构建通信领域词典。

13、进一步，通过bert模型中的经通信领域词典融合后得到的transformer处理后得到第一文本向量的过程为：

14、获取所述待识别文本中的每个字向量，并在所述通信领域词典中搜索与任意一个字向量对应的词向量，对搜索到的词向量进行维度对齐处理，得到对齐后的第一词向量；

15、根据第一词向量以及该第一词向量对应的字向量依次进行注意力权重计算以及特征融合处理，得到第一文本向量。

16、进一步，所述将所述第一文本向量作为所述bert模型中的下一层的输入进行处理具体为：

17、将所述第一文本向量输入至bigru子模块中进行前后向序列特征的提取。

18、进一步，还包括：

19、s3，获取待识别文本对应的信息量，并判断所述信息量是否超过阈值，若超过阈值则将该待识别文本以及该待识别文本对应的实体类型关联存储至数据池中，并通过更新后的数据池对bert模型进行训练，返回s1，直至所述bert模型满足需求。

20、2)第二方面，本专利技术还提供一种基于字词向量融合的实体识别系统，具体技术方案如下：

21、获取模块用于：获取待识别文本，通过bert模型中的经通信领域词典融合后得到的transformer处理后得到第一文本向量；

22、识别模块用于：将所述第一文本向量作为所述bert模型中的下一层的输入进行处理，得到该待识别文本对应的实体类型。

23、在上述方案的基础上，本专利技术还可以做如下改进。

24、进一步，所述通信领域词典的构建过程具体为：

25、基于n元模型对通过给定语料文本构成的文件进行不同词片段的词频统计；

26、确定不同词片段对应的点互信息；

27、基于ac自动计算法确定每个词片段对应的左右字，并基于所述左右字计算每个词片段的左右信息熵；

28、将词片段与该词片段对应的词频、点互信息以及左右信息熵进行关联，构建通信领域词典。

29、进一步，所述将所述第一文本向量作为所述bert模型中的下一层的输入进行处理具体为：

30、将所述第一文本向量输入至bigru子模块中进行前后向序列特征的提取。

31、进一步，所述将所述第一文本向量作为所述bert模型中的下一层的输入进行处理具体为：

32、将所述第一文本向量输入至bigru子模块中进行前后向序列特征的提取。

33、进一步，还包括：

34、训练模型用于：获取待识别文本对应的信息量，并判断所述信息量是否超过阈值，若超过阈值则将该待识别文本以及该待识别文本对应的实体类型关联存储至数据池中，并通过更新后的数据池对bert模型进行训练，返回执行获取模块以及识别模块，直至所述bert模型满足需求。

35、3)第三方面，本专利技术还提供一种计算机设备，所述计算机设备包括处理器，所本文档来自技高网...

【技术保护点】

1.一种基于字词向量融合的实体识别方法，其特征在于，包括：

2.根据权利要求1所述的一种基于字词向量融合的实体识别方法，其特征在于，所述通信领域词典的构建过程具体为：

3.根据权利要求1所述的一种基于字词向量融合的实体识别方法，其特征在于，通过BERT模型中的经通信领域词典融合后得到的Transformer处理后得到第一文本向量的过程为：

4.根据权利要求1所述的一种基于字词向量融合的实体识别方法，其特征在于，所述将所述第一文本向量作为所述BERT模型中的下一层的输入进行处理具体为：

5.根据权利要求4所述的一种基于字词向量融合的实体识别方法，其特征在于，还包括：

6.一种基于字词向量融合的实体识别系统，其特征在于，包括：

7.根据权利要求6所述的一种基于字词向量融合的实体识别系统，其特征在于，所述通信领域词典的构建过程具体为：

8.根据权利要求6所述的一种基于字词向量融合的实体识别系统，其特征在于，所述将所述第一文本向量作为所述BERT模型中的下一层的输入进行处理具体为：

9.一种计

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条计算机程序，所述至少一条计算机程序由处理器加载并执行，以使计算机实现如权利要求1至5任一项权利要求所述的一种基于字词向量融合的实体识别方法。

...

【技术特征摘要】

1.一种基于字词向量融合的实体识别方法，其特征在于，包括：

2.根据权利要求1所述的一种基于字词向量融合的实体识别方法，其特征在于，所述通信领域词典的构建过程具体为：

3.根据权利要求1所述的一种基于字词向量融合的实体识别方法，其特征在于，通过bert模型中的经通信领域词典融合后得到的transformer处理后得到第一文本向量的过程为：

4.根据权利要求1所述的一种基于字词向量融合的实体识别方法，其特征在于，所述将所述第一文本向量作为所述bert模型中的下一层的输入进行处理具体为：

5.根据权利要求4所述的一种基于字词向量融合的实体识别方法，其特征在于，还包括：

6.一种基于字词向量融合的实体识别系统，其特征在于，包括：

7.根据权利要求6所述的一种基于字词...

【专利技术属性】
技术研发人员：崔鸣石，粘中元，邬雪阳，慕春芳，王华，薛文丽，朱宏伟，陈志刚，高翔，景立新，曲朝阳，王蕾，
申请(专利权)人：国网内蒙古东部电力有限公司信息通信分公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人