System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种中英文分词模型训练方法及装置制造方法及图纸_技高网

一种中英文分词模型训练方法及装置制造方法及图纸

技术编号:40741874 阅读:4 留言:0更新日期:2024-03-25 20:01
本申请公开了一种中英文分词模型训练方法及装置,所述方法包括:从训练文本中分别提取中文语料和英文语料;针对筛选的中文语料,采用字节对编码BPE算法实现中文词频的统计,生成中文词表M;采用传统中文分词模型对生成的中文词表M进行语义性识别和调整,生成调整后的中文词表N;针对筛选的英文语料,采用字节对编码BPE算法实现英文词频的统计,生成英文词表O;合并中文词表N和英文词表O,得到训练后的中英文分词模型。本申请采用字节对编码BPE方法,解决了生僻字导致的词表数量过多问题,采用传统中文分词模型处理BPE词频统计结果,提升了训练的中文词表的语义表达性。

【技术实现步骤摘要】

本专利技术涉及自然语言处理,尤其涉及一种中英文分词模型训练方法及装置


技术介绍

1、中英文分词模型是一种用于将中文或英文文本切分成单词或词语的模型。在自然语言处理任务中,分词是一个重要的预处理步骤,它将连续的字符序列切分成有意义的单元,如中文的词语或英文的单词。

2、对于中文而言,由于汉字之间没有明显的空格或其他分隔符,因此需要使用特定的算法或模型来进行分词。常见的中文分词模型包括基于规则、基于统计和基于深度学习等方法。这些模型会根据已有的语料库和规则来学习汉字之间可能存在的边界位置,并将输入文本切分成合适长度的词语。

3、对于英文而言,通常以空格作为单词之间的分隔符,因此相对简单。但在某些情况下,如缩写、连字符、特殊符号等情况下仍然需要进行特殊处理。英文分词模型可以根据已有规则和语料库来判断哪些字符序列应该被视为一个完整单词。

4、中英文分词模型在很多自然语言处理任务中都起到了关键作用,如机器翻译、信息检索、情感分析等。它能够将文本切分成更小的单元,为后续的处理和分析提供更准确和有效的输入。

5、目前,分词作为自然语言处理的基础,分词的准确度直接影响自然语言处理的结果。如何训练分词模型以提升分词准确性,是本申请所要解决的技术问题。


技术实现思路

1、本专利技术的目的在于提供一种中英文分词模型训练方法及装置,能够基于海量训练文本,采用基于字节码(byte-level)的字节对编码(byte pair encoding,bpe)算法实现词频统计,同时针对统计的中文词语进行语义性识别和调整,最终实现中英文分词模型的完整训练。

2、为实现上述目的,本专利技术采用以下技术方案:

3、本申请第一个方面提供一种中英文分词模型训练方法,包括如下步骤:

4、从训练文本中分别提取中文语料和英文语料;

5、针对筛选的中文语料,采用字节对编码bpe算法实现中文词频的统计,生成中文词表m,中文词表m储存中文语料中各个中文分词及其所出现的中文词频之间的对应关系数据,所述中文词频用于指示对应的中文分词在中文语料中出现的次数;

6、采用传统中文分词模型对生成的中文词表m进行语义性识别和调整,生成调整后的中文词表n;

7、针对筛选的英文语料,采用字节对编码bpe算法实现英文词频的统计,生成英文词表o,英文词表o存储英文语料中各个英文分词及其所出现的英文词频之间的对应关系数据,所述英文词频用于指示对应的英文分词在英文语料中出现的次数;

8、合并中文词表n和英文词表o,得到训练后的中英文分词模型。

9、在一种优选实施例中,所述从训练文本中分别提取中文语料和英文语料,是通过文本语言筛选器实现的,文本语言筛选器的实现方法,包括:通过中英文在unicode编码中的分区码段进行字符识别;或者,

10、基于机器学习或深度学习算法的中英文文本分类模型实现。

11、在一种优选实施例中,采用字节对编码bpe算法实现中文词频的统计,生成中文分词m,包括如下步骤:

12、确定期望训练的中文词表大小;

13、将中文语料拆分为中文字符序列,并构建初始的中文词表,初始的中文词表中存储所述中文语料中的各个中文字符及其所出现的词频之间的对应关系数据;

14、重复执行以下步骤,直到中文词表的大小达到期望值,或者,剩余字节对的出现频率小于或等于第一预设阈值:

15、统计中文语料中每一个连续字节对出现的频率,选择频率最高的字节对合并成新的子词,并更新中文词表。

16、在一种优选实施例中,所述传统中文分词模型包括、但不限于jieba、pyltp、lexical analysis of chinese中的一种。

17、在一种优选实施例中,所述采用传统中文分词模型对生成的中文分词m进行语义性识别和调整,生成调整后的中文分词n,包括如下步骤:

18、从统计的中文词表m中筛选出中文字符长度大于或等于第二预设阈值l的词表{p1,p2,p3,…,pn};

19、采用传统中文分词模型,对{p1,p2,p3,…,pn}进行遍历分词,获得pi对应的分词结果qi,其中,i为大于等于1且小于等于n的整数;

20、遍历{p1,p2,p3,…,pn},统计pi对应的qi数量,当qi数量大于或等于第三预设阈值r时,将pi从中文词表m中剔除,得到语义增强后的中文词表n。

21、在一种优选实施例中,采用字节对编码bpe算法实现英文词频的统计,生成英文词表o,包括如下步骤:

22、确定期望训练的英文词表大小;

23、将英文语料拆分为英文字符序列,并构建初始的英文词表,初始的英文词表中存储所述英文语料中的各个英文字符及其所出现的词频之间的对应关系数据;

24、重复执行以下步骤,直到英文词表的大小达到期望值,或者,剩余字节对的出现频率小于或等于第四预设阈值:

25、统计英文语料中每一个连续字节对出现的频率,选择频率最高的字节对合并成新的子词,并更新英文词表。

26、在一种优选实施例中,所述中文语料/英文语料为:至少一个句子、至少一个段落或者整篇文章。

27、本申请第二个方面提供了一种中英文分词模型训练装置,包括:

28、提取模块,被配置为从训练文本中分别提取中文语料和英文语料;

29、中文词表生成模块,被配置为获取筛选的中文语料,基于字节对编码bpe算法实现中文词频的统计,生成中文词表m,中文词表m储存中文语料中各个中文分词及其所出现的中文词频之间的对应关系数据,所述中文词频用于指示对应的中文分词在中文语料中出现的次数;

30、中文词表后处理模块,被配置为基于传统中文分词模型对生成的中文词表m进行语义性识别和调整,生成调整后的中文词表n;

31、英文词表生成模块,被配置为获取筛选的英文语料,基于字节对编码bpe算法实现英文词频的统计,生成英文词表o,英文词表o存储英文语料中各个英文分词及其所出现的英文词频之间的对应关系数据,所述英文词频用于指示对应的英文分词在英文语料中出现的次数;

32、合并模块,被配置为合并中文词表n和英文词表o,得到训练后的中英文联合分词模型。

33、在一种优选实施例中,所述中文词表生成模块,包括:

34、第一确定单元,被配置为确定期望训练的中文词表大小;

35、第一构建单元,被配置为将中文语料拆分为中文字符序列,并构建初始的中文词表,初始的中文词表中存储所述中文语料中的各个中文字符及其所出现的词频之间的对应关系数据;

36、第一处理单元,被配置为,重复执行统计中文语料中每一个连续字节对出现的频率、选择频率最高的字节对合并成新的子词并更新中文词表的处理,直到中文词表的大小达到期望值,或者,剩余字节对的出现频率小于或等于第一预设阈值。

3本文档来自技高网...

【技术保护点】

1.一种中英文分词模型训练方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的一种中英文分词模型训练方法,其特征在于,所述从训练文本中分别提取中文语料和英文语料,是通过文本语言筛选器实现的,文本语言筛选器的实现方法,包括:通过中英文在Unicode编码中的分区码段进行字符识别;或者,

3.根据权利要求1所述的一种中英文分词模型训练方法,其特征在于,采用字节对编码BPE算法实现中文词频的统计,生成中文分词M,包括如下步骤:

4.根据权利要求1所述的一种中英文分词模型训练方法,其特征在于,所述采用传统中文分词模型对生成的中文分词M进行语义性识别和调整,生成调整后的中文分词N,包括如下步骤:

5.根据权利要求1所述的一种中英文分词模型训练方法,其特征在于,采用字节对编码BPE算法实现英文词频的统计,生成英文词表O,包括如下步骤:

6.一种中英文分词模型训练装置,其特征在于,包括:

7.根据权利要求6所述的一种中英文分词模型训练装置,其特征在于,所述中文词表生成模块,包括:

8.根据权利要求6所述的一种中英文分词模型训练装置,其特征在于,所述英文词表生成模块,包括:

9.根据权利要求6所述的一种中英文分词模型训练装置,其特征在于,所述中文词表后处理模块,包括:

10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储计算机程序,该计算机程序被处理器执行时实现如权利要求1至5中任一权利要求所述方法的步骤。

...

【技术特征摘要】

1.一种中英文分词模型训练方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的一种中英文分词模型训练方法,其特征在于,所述从训练文本中分别提取中文语料和英文语料,是通过文本语言筛选器实现的,文本语言筛选器的实现方法,包括:通过中英文在unicode编码中的分区码段进行字符识别;或者,

3.根据权利要求1所述的一种中英文分词模型训练方法,其特征在于,采用字节对编码bpe算法实现中文词频的统计,生成中文分词m,包括如下步骤:

4.根据权利要求1所述的一种中英文分词模型训练方法,其特征在于,所述采用传统中文分词模型对生成的中文分词m进行语义性识别和调整,生成调整后的中文分词n,包括如下步骤:

5.根据权利要求1所述的...

【专利技术属性】
技术研发人员:杨华
申请(专利权)人:上海岩芯数智人工智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1