System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 实体词信息识别方法及装置、存储介质、计算机设备制造方法及图纸_技高网

实体词信息识别方法及装置、存储介质、计算机设备制造方法及图纸

技术编号:41381901 阅读:5 留言:0更新日期:2024-05-20 10:23
本申请公开了一种实体词信息识别方法及装置、存储介质、计算机设备,该方法包括:对目标文本中各文字编码为目标文本字向量,并基于目标文本字向量对目标文本中的相邻文字进行实体词边界识别,确定目标文本中的初始实体词;针对每个初始实体词,利用初始实体词对应的剩余初始实体词,对初始实体词进行上下文信息融合计算;确定目标文本对应的每个文本跨度,将初始实体词的上下文信息融合计算结果作为与初始实体词匹配的文本跨度的文本向量,并基于剩余的文本跨度对应的字向量,计算剩余的文本跨度的文本向量;通过实体词信息识别模型对每个文本跨度的文本向量进行实体词信息识别,以确定目标文本对应的目标实体词信息。以提升实体词识别准确性。

【技术实现步骤摘要】

本申请涉及自然语言处理,尤其是涉及到一种实体词信息识别方法及装置、存储介质、计算机设备


技术介绍

1、命名实体识别是自然语言处理的一个重要研究分支,旨在对文本中的命名实体进行定位。一般来说在命名实体识别领域,存在两种主流的方法:基于序列标注的方法和基于跨度的方法。这两种方法都致力于提高实体边界识别的准确性,但它们具有各自的局限性。

2、对于基于序列标注的方法,研究者们尝试通过标注序列中实体与非实体部分来检测边界,而另一些工作则关注于培训模型以捕捉实体头尾的位置信息。这些方法在一定程度上提高了边界检测的效能,但它们的主要缺点在于边界区分度不足,尤其是在面对相邻的不同类型实体时,辨识度显著降低。另外,基于跨度的方法是构建一个包含实体头尾信息的跨度矩阵,并通过遍历计算每个跨度的有效性。尽管这种方法有助于跨度的检测,但其核心问题在于主要关注字符级别的信息交互,缺乏跨度级别的信息交互。这限制了它们在判别跨度类型和区分相似跨度时的效果。

3、综上所述,尽管现有方法在命名实体识别领域取得了一定进展,但它们仍存在边界识别不精准的重要缺陷。这些缺点成为了本专利方案需要解决的关键问题。


技术实现思路

1、有鉴于此,本申请实施例提供了一种实体词信息识别方法及装置、存储介质、计算机设备,有助于提升文本中实体词边界识别的准确性。

2、根据本申请的一个方面,提供了一种实体词信息识别方法,所述方法包括:

3、对目标文本中的各文字进行编码,得到目标文本字向量,并基于所述目标文本字向量对所述目标文本中的相邻文字进行实体词边界识别;

4、根据实体词边界识别结果对所述目标文本进行实体词分割,确定所述目标文本中的初始实体词,并针对每个初始实体词,利用所述初始实体词对应的剩余初始实体词,对所述初始实体词进行上下文信息融合计算;

5、确定所述目标文本对应的每个文本跨度,将所述初始实体词的上下文信息融合计算结果作为与所述初始实体词匹配的文本跨度的文本向量,并基于剩余的文本跨度对应的字向量,计算剩余的文本跨度的文本向量;

6、通过实体词信息识别模型对每个文本跨度的文本向量进行实体词信息识别,以确定所述目标文本对应的目标实体词信息。

7、可选地,所述基于所述目标文本字向量对所述目标文本中的相邻文字进行实体词边界识别,包括:

8、基于所述目标文本字向量,计算目标文本语义向量;

9、针对每对相邻文字,对所述相邻文字的字向量进行卷积计算,并基于所述目标文本语义向量和所述相邻文字的卷积计算结果,确定所述相邻文字对应的边界模式识别信息;

10、对所述边界模式识别信息进行实体词边界识别,确定每对相邻文字的边界模式,其中,所述边界模式用于表示相邻两个文字之间的实体关系,所述实体关系包括前后两个文字都为非实体、前一文字为非实体且后一文字为实体、前后两个文字归属相同实体、前一文字为实体且后一文字为非实体、前后两个文字归属相同实体类别的不同实体、前后两个文字归属不同实体类别的不同实体中的一种。

11、可选地,所述根据实体词边界识别结果对所述目标文本进行实体词分割,确定所述目标文本中的初始实体词,包括:

12、在所述目标文本中过滤掉所述实体关系为所述前后两个文字都为非实体的相邻文字,得到候选实体字;

13、将连续且实体关系为所述前后两个文字归属相同实体的相邻候选实体字进行组合,得到所述目标文本中的初始实体词。

14、可选地,所述基于所述目标文本字向量对所述目标文本中的相邻文字进行实体词边界识别之前,所述方法还包括:

15、获取样本文本以及对所述样本文本中每对相邻样本文字的实体词边界模式标注信息,对所述样本文本中的各文字进行编码得到样本文本字向量,基于所述样本文本字向量以及所述实体词边界模式标注信息,构建训练样本;

16、构建边界模式识别模型,利用所述训练样本进行所述边界模式识别模型的训练,其中,所述边界模式识别模式包括卷积计算模块、向量融合模块和模式识别模块,所述卷积计算模块用于对每对相邻样本文字的字向量进行卷积计算,所述向量融合模块用于基于所述样本文本字向量计算所述样本文本的样本文本语义向量,并分别将每对相邻样本文字的卷积计算结果与所述样本文本语义向量进行融合,所述模式识别模块用于分别基于每对相邻样本文字对应的融合结果识别所述相邻样本文字的边界模式

17、相应地,所述基于所述目标文本字向量对所述目标文本中的相邻文字进行实体词边界识别,包括:

18、将所述目标文本语义向量和所述目标文本字向量输入至所述边界模式识别模型中,确定所述目标文本中每对相邻文字的边界模式。

19、可选地,所述针对每个初始实体词,利用所述初始实体词对应的剩余初始实体词,对所述初始实体词进行上下文信息融合计算,包括:

20、针对每个所述初始实体词,将所述初始实体词对应的剩余初始实体词作为所述初始实体词对应的上下文实体词,对每个所述上下文实体词的字向量进行压缩计算,并基于各所述上下文实体词的压缩字向量构建所述初始实体词对应的上下文信息;

21、基于所述上下文信息和所述初始实体词的字向量,对所述初始实体词进行上下文信息融合计算;

22、所述基于剩余的文本跨度对应的字向量,计算剩余的文本跨度的文本向量,包括:

23、分别对每个剩余的文本跨度的字向量进行压缩计算,得到每个剩余的文本跨度的文本向量。

24、可选地,所述通过实体词信息识别模型对每个文本跨度的文本向量进行实体词信息识别,以确定所述目标文本对应的目标实体词信息,包括:

25、通过实体词信息识别模型对每个文本跨度的文本向量进行实体词信息识别,得到每个文本跨度对应的实体词类别概率分布数据,其中,所述实体词类别概率分布数据包括所述文本跨度属于非实体词以及属于至少一种预设实体词类别的概率;

26、根据每个文本跨度的实体词类别概率分布数据,确定属于实体词的文本跨度以及对应的实体词类别,其中,所述目标实体词信息包括所述目标文本中的目标实体词及其对应的实体词类别。

27、可选地,所述通过实体词信息识别模型对每个文本跨度的文本向量进行实体词信息识别,得到每个文本跨度对应的实体词类别概率分布数据,包括:

28、针对每个文本跨度,基于所述文本跨度的文本向量以及所述文本跨度中每对相邻文字之间的实体关系信息,构建所述文本跨度的文本跨度识别信息,并通过实体词信息识别模型对所述文本跨度识别信息进行实体词信息识别,得到所述文本跨度对应的实体词类别概率分布数据。

29、可选地,所述目标文本包括搜索信息文本;所述根据每个文本跨度的实体词类别概率分布数据,确定属于实体词的文本跨度以及对应的实体词类别之后,所述方法还包括:

30、基于所述目标实体词以及所述目标实体词的实体词类别,对电子商务平台提供的商品进行搜索。

31本文档来自技高网...

【技术保护点】

1.一种实体词信息识别方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述基于所述目标文本字向量对所述目标文本中的相邻文字进行实体词边界识别,包括:

3.根据权利要求2所述的方法,其特征在于,所述根据实体词边界识别结果对所述目标文本进行实体词分割,确定所述目标文本中的初始实体词,包括:

4.根据权利要求1至3中任一项所述的方法,其特征在于,所述基于所述目标文本字向量对所述目标文本中的相邻文字进行实体词边界识别之前,所述方法还包括:

5.根据权利要求1至3中任一项所述的方法,其特征在于,所述针对每个初始实体词,利用所述初始实体词对应的剩余初始实体词,对所述初始实体词进行上下文信息融合计算,包括:

6.根据权利要求1至3中任一项所述的方法,其特征在于,所述通过实体词信息识别模型对每个文本跨度的文本向量进行实体词信息识别,以确定所述目标文本对应的目标实体词信息,包括:

7.根据权利要求6所述的方法,其特征在于,所述通过实体词信息识别模型对每个文本跨度的文本向量进行实体词信息识别,得到每个文本跨度对应的实体词类别概率分布数据,包括:

8.一种实体词信息识别装置,其特征在于,所述装置包括:

9.一种存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法。

10.一种计算机设备,包括存储介质、处理器及存储在存储介质上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法。

...

【技术特征摘要】

1.一种实体词信息识别方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述基于所述目标文本字向量对所述目标文本中的相邻文字进行实体词边界识别,包括:

3.根据权利要求2所述的方法,其特征在于,所述根据实体词边界识别结果对所述目标文本进行实体词分割,确定所述目标文本中的初始实体词,包括:

4.根据权利要求1至3中任一项所述的方法,其特征在于,所述基于所述目标文本字向量对所述目标文本中的相邻文字进行实体词边界识别之前,所述方法还包括:

5.根据权利要求1至3中任一项所述的方法,其特征在于,所述针对每个初始实体词,利用所述初始实体词对应的剩余初始实体词,对所述初始实体词进行上下文信息融合计算,包括:

6.根据权利要求1至3...

【专利技术属性】
技术研发人员:侯俊屹
申请(专利权)人:拉扎斯网络科技上海有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1