一种词汇增强方法、装置、设备及存储介质制造方法及图纸

技术编号:41326496 阅读:20 留言:0更新日期:2024-05-13 15:03
本申请提供一种词汇增强方法、装置、设备及存储介质,大型语言模型通过获取待增强的词汇,待增强的词汇对应的领域信息,以及待增强的词汇的结构;根据待增强的词汇对应的领域信息以及词汇的结构,对待增强的词汇进行泛化处理,生成待增强的词汇对应的泛化词;输出待增强的词汇和泛化词。本申请中基于大型语言模型,生成待增强词汇对应的泛化词,而泛化词的专业化程度以及学术化程度较低,将待增强词汇和对应的泛化词作为词汇增强结果输出,在进行命名实体识别的过程中,基于待增强词汇和泛化词,可以对专业化、学术化、非专业化以及非学术化的文本进行有效识别,进而本申请提供的方法可以有效提升词汇增强方法的适用性。

【技术实现步骤摘要】

本申请涉及自然语言处理,尤其涉及一种词汇增强方法、装置、设备及存储介质


技术介绍

1、命名实体识别(named entity recognition,ner),是指识别文本中具有特定意义的实体,例如识别文本中的人名、地名、机构名,以及专有名词等。词汇增强是为命名实体识别任务提供大量词汇数据的方式,以便提高命名实体识别的准确性。

2、目前在一些场景中,可以由行业领域的技术人员,基于相关标准、行业规范、企业规章制度,收集整理数据并结合专业知识构建领域词典,以实现词汇增强,为命名实体识别任务提供大量的词汇数据。

3、然而通常情况下,领域词典中的词汇较为专业化、学术化。基于较为专业化、学术化的领域词典,在进行命名实体识别的过程中,无法对非专业化、非学术化的文本进行有效识别,导致现有的词汇增强方法具有适用性差的问题。


技术实现思路

1、本申请提供的一种词汇增强方法、装置、设备及存储介质,目的在于解决在进行命名实体识别时,无法对非专业化、非学术化的文本进行有效识别的问题。p>

2、为达到本文档来自技高网...

【技术保护点】

1.一种词汇增强方法,其特征在于,由大型语言模型执行,包括:

2.根据权利要求1所述的方法,其特征在于,所述根据所述待增强的词汇对应的领域信息,以及所述待增强的词汇的结构,对所述待增强的词汇进行泛化处理,生成所述待增强的词汇对应的泛化词,包括:

3.根据权利要求1所述的方法,其特征在于,所述根据所述待增强的词汇对应的领域信息,以及所述待增强的词汇的结构,对所述待增强的词汇进行泛化处理,生成所述待增强的词汇对应的泛化词之后,还包括:

4.根据权利要求3所述的方法,其特征在于,所述计算所述待增强的词汇对应的泛化词的置信度,获得所述泛化词的置信度之后,还包括...

【技术特征摘要】

1.一种词汇增强方法,其特征在于,由大型语言模型执行,包括:

2.根据权利要求1所述的方法,其特征在于,所述根据所述待增强的词汇对应的领域信息,以及所述待增强的词汇的结构,对所述待增强的词汇进行泛化处理,生成所述待增强的词汇对应的泛化词,包括:

3.根据权利要求1所述的方法,其特征在于,所述根据所述待增强的词汇对应的领域信息,以及所述待增强的词汇的结构,对所述待增强的词汇进行泛化处理,生成所述待增强的词汇对应的泛化词之后,还包括:

4.根据权利要求3所述的方法,其特征在于,所述计算所述待增强的词汇对应的泛化词的置信度,获得所述泛化词的置信度之后,还包括:

5.根据权利要求1所述的方法,其特征在于,所述根据所述待增强的词汇对应的领域信息,以及所述待增强的词汇的结...

【专利技术属性】
技术研发人员:郑彤
申请(专利权)人:太保科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1