一种统一命名实体识别方法及系统技术方案

技术编号：40958572 阅读：4 留言：0更新日期：2024-04-18 20:36

本发明专利技术公开了一种统一命名实体识别方法及系统，本发明专利技术首先通过词汇增强挖掘细粒度语义信息，并使用自注意力机制增强语义信息，对实体进行补充和扩展，将词汇合并到字符表示得到融合向量，依次输入双向长短期记忆网络，获得长序列语义特征；然后通过建模实体的边界关系生成实体边界网格和字边界网格，分别捕获实体边界关系和字边界关系；最后利用包含一个双仿射分类器和一个多层感知机的预测器来联合推理所有词对之间的关系，本发明专利技术可以充分利用数据中的词汇信息，加快识别速度，补足边界信息，有效地解决扁平实体、嵌套实体和不连续实体的NER问题，兼顾运算速度和准确率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及文本识别领域，具体涉及一种统一命名实体识别方法及系统。

技术介绍

1、命名实体识别(ner)首次是在muc-6(the sixth message understandingconference)中被提出，当时的识别主要用来识别文本中的组织名、人名、地理位置、货币、时间和百分比表达式等等。命名实体识别解决的问题就是从给定的文本中识别出实体的边界以及实体的类型，实体的类型通常是由人为的提前预定义好。

2、大部分统一ner方法是在基于跨度的方法上进行，主要使用指针网络形式聚焦于实体边界的识别，分别设置start指针和end指针，表示实体的开始和结束位置信息，开始和结束位置之间的字符片段即为实体跨度，再对所有的实体跨度进行分类判断。

3、有一部分统一ner方法利用biaffine去判断实体跨度，可以更好地捕捉输入序列中字符之间的复杂关系，如距离、方向等，因为嵌套和不连续实体通常由多个字符组成，不同字符的位置关系可能很复杂，而biaffine可以对每对字符之间的关系进行建模，来更好地识别嵌套和不连续实体。

4、还有一部分统一ner方法使用词词关系分类架构来解决统一ner问题。词词关系分类架构通过对实体之间的相邻关系进行建模，其中相邻关系分为三种：1)next-neighboring-word，表示两个词在一个实体中是否相邻；2)tail-head-word-*，表示一个词是实体的头部，一个词是实体的尾部。3)none：表示词对之间没有任何关系。

5、以上方法中，基于跨度的方法

技术实现思路

1、针对现有技术中的上述不足，本专利技术提供的一种统一命名实体识别方法及系统解决了现有方法难以兼顾复杂度和识别准确率的问题。

2、为了达到上述专利技术目的，本专利技术采用的技术方案为：

3、提供一种统一命名实体识别方法，其包括以下步骤：

4、s1、获取待识别序列，对待识别序列中的每个字符构建词汇特性，并将词汇特性添加到对应的字符中，得到融合向量；

5、s2、通过双向长短期记忆网络生成融合向量的上下文字符表示，得到长序列语义特征；

6、s3、将长序列语义特征输入双仿射注意力机制网络，获取第一部分标签得分；

7、s4、基于长序列语义特征生成词词关系；

8、s5、获取待识别序列的边界信息；

9、s6、将词词关系和边界信息进行融合，并将融合结果输入多层感知机，得到第二部分标签得分；

10、s7、将两部分标签得分进行联合，通过解码生成最终的标签结果，完成统一命名实体识别。

11、进一步地，步骤s1的具体方法包括以下子步骤：

12、s1-1、根据公式：

13、w＝split(sentence)＝{wj|j＝1,2,...,m},m≤n

14、

15、

16、

17、s(ci)＝{ci}

18、为待识别序列sentence中第i个字符ci构建bies标签词集；其中n为待识别序列sentence中字符总数；split(·)表示分词操作；w表示分词操作得到的词汇集合；wj表示第j个分词操作得到的词汇；m为分词操作得到的词汇集合中词汇的总数；α和β为待识别序列sentence中的字符段；φ表示空；b(ci)、i(ci)、e(ci)和s(ci)均为第i个字符ci的bies标签词集；none表示字符“none”；ciα表示由字符ci和字符段α组成的字符串；αciβ表示由字符段α、字符ci和字符段β组成的字符串；αci表示由字符段α和字符ci组成的字符串；

19、s1-2、根据公式：

20、

21、

22、

23、通过动态加权算法自注意力机制计算某一字符对应的bies标签词集中词汇的权重信息，对所有词汇的权重进行归一化，得到任一字符的b标签词集的加权表示vs(b)；其中attention表示动态加权算法自注意力机制；表示b标签词集中wj的权重；ew为自然词汇嵌入表；z为词汇wj在四个词集的总权重；

24、s1-3、采用与步骤s1-2相同的方法获取任一字符的i标签词集的加权表示vs(i)、任一字符的e标签词集的加权表示vs(e)和任一字符的s标签词集的加权表示vs(s)；

25、s1-4、将四个词集的加权表示组合成一个固定维的特征，并将其添加到对应的字符中，得到融合向量。

26、进一步地，步骤s3的具体方法包括以下子步骤：

27、s3-1、通过多层感知机对长序列语义特征h＝{h1,h2,...,hn}中任意两个特征hi和hj分别进行计算，得到对应的输出si和oj；

28、s3-2、根据公式：

29、

30、获取第一部分标签得分其中u、w*和b均为可训练参数；[si；oj]表示将si和oj进行拼接；siuoj表示将si、u和oj相乘。

31、进一步地，步骤s4的具体方法为：

32、根据公式：

33、

34、

35、

36、获取词对(xi,xj)之间的关系vij，即得到长序列语义特征生成词词关系；其中μ和σ分别为hj元素的平均值和标准差；dh为维度矩阵；hjk为hj的第k个维度；γij为增益参数，γij＝wαhi+bα，wα为可学习矩阵；bα为偏置；λij为偏置，λij＝wβhi+bβ，wβ为可学习矩阵；bβ为偏置；hi为xi对应的语义特征；hj为xj对应的语义特征。

37、进一步地，步骤s5的具体方法包括以下子步骤：

38、s5-1、通过分词技术对待识别序列进行分词，选择分词结果最少的序列进入步骤s5-2；

39、s5-2、对于选中的序列，取其字符ci在序列中的位置值为loc(ci)，取其字符cj在序列中的位置值为loc(cj)，并根据公式：

40、

41、获取字符ci与字符cj的距离

42、s5-3、将所有字符之间的距离所构成的矩阵作为字字边界网格，即得到字符的边界信息；

43、s5-4、根据公式：

44、

45、获取选中序列中第j个实体与第i个实体之间的距离其中start(wj)表示选中序列中第j个实体中第一个字符的位置；start(wi)表示选中序列中第i个实体中第一个字符的位置；

46、s5-5、将所有实体之间的距离所构成的矩阵作为实体边界网格，即得到实体之间的边界信息。

47、进一步地，步骤s6的具体方法为：

48、将词本文档来自技高网...

【技术保护点】

1.一种统一命名实体识别方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的统一命名实体识别方法，其特征在于，步骤S1的具体方法包括以下子步骤：

3.根据权利要求1所述的统一命名实体识别方法，其特征在于，步骤S3的具体方法包括以下子步骤：

4.根据权利要求1所述的统一命名实体识别方法，其特征在于，步骤S4的具体方法为：

5.根据权利要求4所述的统一命名实体识别方法，其特征在于，步骤S5的具体方法包括以下子步骤：

6.根据权利要求5所述的统一命名实体识别方法，其特征在于，步骤S6的具体方法为：

7.根据权利要求1所述的统一命名实体识别方法，其特征在于，步骤S7的具体方法为：

8.一种基于权利要求1～7任一所述的统一命名实体识别方法的系统，其特征在于，包括：

9.根据权利要求8所述的系统，其特征在于，在训练过程中，损失函数为：

【技术特征摘要】

1.一种统一命名实体识别方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的统一命名实体识别方法，其特征在于，步骤s1的具体方法包括以下子步骤：

3.根据权利要求1所述的统一命名实体识别方法，其特征在于，步骤s3的具体方法包括以下子步骤：

4.根据权利要求1所述的统一命名实体识别方法，其特征在于，步骤s4的具体方法为：

5.根据权利要求4所述的统一命名实体识别方...

【专利技术属性】
技术研发人员：覃晓，淳鑫，刘君，程曼曼，李永玉，彭磊，黄焕福，覃军，覃福武，胡捷，
申请(专利权)人：广西中教教育投资集团有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人