新词识别方法、新词识别模型训练方法和装置制造方法及图纸

技术编号:43680470 阅读:26 留言:0更新日期:2024-12-18 21:02
本申请涉及一种新词识别方法、新词识别模型训练方法、装置、计算机设备、存储介质和计算机程序产品。所述方法包括:基于目标词片段中的目标字符在目标词片段所属的第一语料集中的出现次数、目标词片段中包含目标字符的字符片段在第一语料集中的出现次数,得到目标词片段对应的词内部关联度;基于目标词片段在第一语料集中的出现次数、目标词片段中的子词在第一语料集中的出现次数,得到目标词片段对应的词语义独立度;子词是从目标词片段中切分出的词语;基于目标词片段对应的词内部关联度和词语义独立度,确定目标词片段对应的词片段向量;基于词片段向量,得到目标词片段对应的新词识别结果。采用本方法能够提高新词识别准确性。

【技术实现步骤摘要】

本申请涉及计算机,特别是涉及一种新词识别方法、新词识别模型训练方法、装置、计算机设备、存储介质和计算机程序产品。


技术介绍

1、随着计算机技术的发展,出现了自然语言处理技术,自然语言处理技术是一门融语言学、计算机科学、数学于一体的科学。新词发现是自然语言处理技术中比较重要的一个环节,通过对大量语料进行分析以挖掘新词。

2、传统技术中,通常是基于特定规则的新词识别方法,具体通过语言专家根据构词学原理来构造特定的模板去挖掘新词。然而,通过特定的模板去挖掘新词存在局限性,无法保障新词识别准确性。


技术实现思路

1、基于此,有必要针对上述技术问题,提供一种能够提高新词识别准确性的新词识别方法、新词识别模型训练方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。

2、本申请提供了一种新词识别方法。所述方法包括:

3、获取目标词片段和所述目标词片段所属的第一语料集;

4、基于所述目标词片段中的目标字符在所述第一语料集中的出现次数以及所述目标词片段中包含所述目标字符的本文档来自技高网...

【技术保护点】

1.一种新词识别方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述获取目标词片段和所述目标词片段所属的第一语料集,包括:

3.根据权利要求1所述的方法,其特征在于,所述基于所述目标词片段中的目标字符在所述第一语料集中的出现次数以及所述目标词片段中包含所述目标字符的字符片段在所述第一语料集中的出现次数,得到所述目标词片段对应的词内部关联度,包括:

4.根据权利要求1所述的方法,其特征在于,所述基于所述目标词片段在所述第一语料集中的出现次数以及所述目标词片段中的子词在所述第一语料集中的出现次数,得到所述目标词片段对应的词语义独...

【技术特征摘要】

1.一种新词识别方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述获取目标词片段和所述目标词片段所属的第一语料集,包括:

3.根据权利要求1所述的方法,其特征在于,所述基于所述目标词片段中的目标字符在所述第一语料集中的出现次数以及所述目标词片段中包含所述目标字符的字符片段在所述第一语料集中的出现次数,得到所述目标词片段对应的词内部关联度,包括:

4.根据权利要求1所述的方法,其特征在于,所述基于所述目标词片段在所述第一语料集中的出现次数以及所述目标词片段中的子词在所述第一语料集中的出现次数,得到所述目标词片段对应的词语义独立度,包括:

5.根据权利要求1所述的方法,其特征在于,所述至少基于所述目标词片段对应的词内部关联度和词语义独立度,确定所述目标词片段对应的词片段向量,包括:

6.根据权利要求1所述的方法,其特征在于,所述至少基于所述目标词片段对应的词内部关联度和词语义独立度,确定所述目标词片段对应的词...

【专利技术属性】
技术研发人员:李长林陆全肖冰曹磊罗奇帅
申请(专利权)人:马上消费金融股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1