System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种词汇增强方法、装置、设备及存储介质制造方法及图纸_技高网

一种词汇增强方法、装置、设备及存储介质制造方法及图纸

技术编号:41326496 阅读:2 留言:0更新日期:2024-05-13 15:03
本申请提供一种词汇增强方法、装置、设备及存储介质,大型语言模型通过获取待增强的词汇,待增强的词汇对应的领域信息,以及待增强的词汇的结构;根据待增强的词汇对应的领域信息以及词汇的结构,对待增强的词汇进行泛化处理,生成待增强的词汇对应的泛化词;输出待增强的词汇和泛化词。本申请中基于大型语言模型,生成待增强词汇对应的泛化词,而泛化词的专业化程度以及学术化程度较低,将待增强词汇和对应的泛化词作为词汇增强结果输出,在进行命名实体识别的过程中,基于待增强词汇和泛化词,可以对专业化、学术化、非专业化以及非学术化的文本进行有效识别,进而本申请提供的方法可以有效提升词汇增强方法的适用性。

【技术实现步骤摘要】

本申请涉及自然语言处理,尤其涉及一种词汇增强方法、装置、设备及存储介质


技术介绍

1、命名实体识别(named entity recognition,ner),是指识别文本中具有特定意义的实体,例如识别文本中的人名、地名、机构名,以及专有名词等。词汇增强是为命名实体识别任务提供大量词汇数据的方式,以便提高命名实体识别的准确性。

2、目前在一些场景中,可以由行业领域的技术人员,基于相关标准、行业规范、企业规章制度,收集整理数据并结合专业知识构建领域词典,以实现词汇增强,为命名实体识别任务提供大量的词汇数据。

3、然而通常情况下,领域词典中的词汇较为专业化、学术化。基于较为专业化、学术化的领域词典,在进行命名实体识别的过程中,无法对非专业化、非学术化的文本进行有效识别,导致现有的词汇增强方法具有适用性差的问题。


技术实现思路

1、本申请提供的一种词汇增强方法、装置、设备及存储介质,目的在于解决在进行命名实体识别时,无法对非专业化、非学术化的文本进行有效识别的问题。

2、为达到上述目的,本申请采用如下技术方案:

3、第一方面:本申请提供一种词汇增强方法,由大型语言模型执行,包括:

4、获取待增强的词汇,所述待增强的词汇对应的领域信息,以及所述待增强的词汇的结构;

5、根据所述待增强的词汇对应的领域信息,以及所述待增强的词汇的结构,对所述待增强的词汇进行泛化处理,生成所述待增强的词汇对应的泛化词;

6、输出所述待增强的词汇和所述待增强的词汇对应的泛化词。

7、在一种可能的实现方式中,所述根据所述待增强的词汇对应的领域信息,以及所述待增强的词汇的结构,对所述待增强的词汇进行泛化处理,生成所述待增强的词汇对应的泛化词,包括:

8、对所述待增强的词汇进行分词处理,获得分词处理后的待增强的词汇;

9、根据所述待增强的词汇对应的领域信息,以及所述待增强的词汇的结构,对所述分词处理后的待增强的词汇进行泛化处理,生成所述待增强的词汇对应的泛化词。

10、在一种可能的实现方式中,所述根据所述待增强的词汇对应的领域信息,以及所述待增强的词汇的结构,对所述待增强的词汇进行泛化处理,生成所述待增强的词汇对应的泛化词之后,还包括:

11、计算所述待增强的词汇对应的泛化词的置信度,获得所述泛化词的置信度;

12、所述输出所述待增强的词汇和所述待增强的词汇对应的泛化词,包括:

13、输出所述待增强的词汇,所述待增强的词汇对应的泛化词,和所述泛化词的置信度。

14、在一种可能的实现方式中,所述计算所述待增强的词汇对应的泛化词的置信度,获得所述泛化词的置信度之后,还包括:

15、将所述泛化词的置信度低于阈值的泛化词,确定为不可信的泛化词;

16、为所述不可信的泛化词,生成所述不可信的泛化词对应的置信度标签;

17、所述输出所述待增强的词汇,所述待增强的词汇对应的泛化词,和所述泛化词的置信度,包括:

18、输出所述待增强的词汇,所述待增强的词汇对应的泛化词,和所述不可信的泛化词对应的置信度标签。

19、在一种可能的实现方式中,所述根据所述待增强的词汇对应的领域信息,以及所述待增强的词汇的结构,对所述待增强的词汇进行泛化处理,生成所述待增强的词汇对应的泛化词之前,还包括:

20、获取所述待增强词汇对应的参考词汇;

21、所述根据所述待增强的词汇对应的领域信息,以及所述待增强的词汇的结构,对所述待增强的词汇进行泛化处理,生成所述待增强的词汇对应的泛化词,包括:

22、根据所述待增强的词汇对应的领域信息,所述待增强的词汇的结构,以及所述参考词汇,对所述待增强的词汇进行泛化处理,生成所述待增强的词汇对应的泛化词。

23、在一种可能的实现方式中,所述输出所述待增强的词汇和所述待增强的词汇对应的泛化词,包括:

24、按照预设的输出格式,输出所述待增强的词汇和所述待增强的词汇对应的泛化词。

25、在一种可能的实现方式中,所述泛化处理,包括:缩写处理、近音词替换处理、近形词替换处理、近义词替换处理、阿拉伯数字替换处理和汉字数字替换处理中的至少一种。

26、第二方面:本申请提供一种词汇增强装置,包括:

27、获取单元、生成单元,以及输出单元;

28、所述获取单元,用于获取待增强的词汇,所述待增强的词汇对应的领域信息,以及所述待增强的词汇的结构;

29、所述生成单元,用于根据所述待增强的词汇对应的领域信息,以及所述待增强的词汇的结构,对所述待增强的词汇进行泛化处理,生成所述待增强的词汇对应的泛化词;

30、所述输出单元,用于输出所述待增强的词汇和所述待增强的词汇对应的泛化词。

31、在一种可能的实现方式中,所述生成单元,包括:

32、分词子单元和生成子单元;

33、所述分词子单元,用于对所述待增强的词汇进行分词处理,获得分词处理后的待增强的词汇;

34、所述生成子单元,用于根据所述待增强的词汇对应的领域信息,以及所述待增强的词汇的结构,对所述分词处理后的待增强的词汇进行泛化处理,生成所述待增强的词汇对应的泛化词。

35、在一种可能的实现方式中,还包括:计算单元;

36、所述计算单元,用于计算所述待增强的词汇对应的泛化词的置信度,获得所述泛化词的置信度;

37、所述输出单元,具体用于:输出所述待增强的词汇,所述待增强的词汇对应的泛化词,和所述泛化词的置信度。

38、在一种可能的实现方式中,还包括:确定单元和标签生成单元;

39、所述确定单元,用于将所述泛化词的置信度低于阈值的泛化词,确定为不可信的泛化词;

40、所述标签生成单元,用于为所述不可信的泛化词,生成所述不可信的泛化词对应的置信度标签;

41、所述输出单元,具体用于:输出所述待增强的词汇,所述待增强的词汇对应的泛化词,和所述不可信的泛化词对应的置信度标签。

42、在一种可能的实现方式中,所述装置,还包括:参考词汇获取单元;

43、所述参考词汇获取单元,用于获取所述待增强词汇对应的参考词汇;

44、所述生成单元,具体用于:根据所述待增强的词汇对应的领域信息,所述待增强的词汇的结构,以及所述参考词汇,对所述待增强的词汇进行泛化处理,生成所述待增强的词汇对应的泛化词。

45、在一种可能的实现方式中,所述输出单元,具体用于:

46、按照预设的输出格式,输出所述待增强的词汇和所述待增强的词汇对应的泛化词。

47、在一种可能的实现方式中,所述泛化处理,包括:缩写处理、近音词替换处理、近形词替换处理、近义词替换处理、阿拉伯数字替换处理和汉字数字替换处理中的至少本文档来自技高网...

【技术保护点】

1.一种词汇增强方法,其特征在于,由大型语言模型执行,包括:

2.根据权利要求1所述的方法,其特征在于,所述根据所述待增强的词汇对应的领域信息,以及所述待增强的词汇的结构,对所述待增强的词汇进行泛化处理,生成所述待增强的词汇对应的泛化词,包括:

3.根据权利要求1所述的方法,其特征在于,所述根据所述待增强的词汇对应的领域信息,以及所述待增强的词汇的结构,对所述待增强的词汇进行泛化处理,生成所述待增强的词汇对应的泛化词之后,还包括:

4.根据权利要求3所述的方法,其特征在于,所述计算所述待增强的词汇对应的泛化词的置信度,获得所述泛化词的置信度之后,还包括:

5.根据权利要求1所述的方法,其特征在于,所述根据所述待增强的词汇对应的领域信息,以及所述待增强的词汇的结构,对所述待增强的词汇进行泛化处理,生成所述待增强的词汇对应的泛化词之前,还包括:

6.根据权利要求1所述的方法,其特征在于,所述输出所述待增强的词汇和所述待增强的词汇对应的泛化词,包括:

7.根据权利要求1-6任一项所述的方法,其特征在于,所述泛化处理,包括:缩写处理、近音词替换处理、近形词替换处理、近义词替换处理、阿拉伯数字替换处理和汉字数字替换处理中的至少一种。

8.一种词汇增强装置,其特征在于,包括:

9.一种计算机设备,其特征在于,所述计算机设备包括:处理器以及存储器;

10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1-7任一项所述的一种词汇增强方法的步骤。

...

【技术特征摘要】

1.一种词汇增强方法,其特征在于,由大型语言模型执行,包括:

2.根据权利要求1所述的方法,其特征在于,所述根据所述待增强的词汇对应的领域信息,以及所述待增强的词汇的结构,对所述待增强的词汇进行泛化处理,生成所述待增强的词汇对应的泛化词,包括:

3.根据权利要求1所述的方法,其特征在于,所述根据所述待增强的词汇对应的领域信息,以及所述待增强的词汇的结构,对所述待增强的词汇进行泛化处理,生成所述待增强的词汇对应的泛化词之后,还包括:

4.根据权利要求3所述的方法,其特征在于,所述计算所述待增强的词汇对应的泛化词的置信度,获得所述泛化词的置信度之后,还包括:

5.根据权利要求1所述的方法,其特征在于,所述根据所述待增强的词汇对应的领域信息,以及所述待增强的词汇的结...

【专利技术属性】
技术研发人员:郑彤
申请(专利权)人:太保科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1