分词模型训练方法、分词处理方法和装置制造方法及图纸

技术编号:37675999 阅读:16 留言:0更新日期:2023-05-26 04:40
本申请公开了一种分词模型训练方法、分词处理方法和装置,方法包括:获取与待分词文本相关联的词库,所述词库包括多个分词及各分词对应的词频,所述分词包括构成所述待分词文本的至少部分词语,所述词频用于指示对应的分词在所述待分词文本中出现的次数;根据所述词库中的分词及其对应的词频生成预设数量的样本句子,并对所述样本句子进行分词标注,所述分词标注用于指示对所述样本句子进行切分得到的分词处理结果;基于分词标注后的多个样本句子对待训练的分词模型进行迭代训练,得到训练后的分词模型,所述训练后的分词模型用于对所述待分词文本进行分词处理。本申请能够提升文本分词的准确率和速率。本分词的准确率和速率。本分词的准确率和速率。

【技术实现步骤摘要】
分词模型训练方法、分词处理方法和装置


[0001]本申请涉及深度学习
,尤其涉及一种分词模型训练方法、分词处理方法和装置。

技术介绍

[0002]在英文中,单词与单词之间是有明显的分隔符号的。自然语言处理对于英文的分词处理,只需要简单的操作即可将一个英文句子准确的划分为若干个单词而不需要考虑这个单词是否为新词。与英文不同的是,中文用于表达意思的最小语言单位为词,词与词之间没有明显的分隔符号,因此自然语言处理中对中文文本的首要处理操作为分词。
[0003]自然语言处理过程要求计算机能准确地提炼出句子所表达的含义,处理过程涉及句法、语义成分、语义结构、语境等方面。这一切的基础都是基于将一个句子准确地切分为多个词语的组合。在更深—层自然语言处理过程中,譬如个性化推荐、情感分析、主题分类、舆情分析等,都需要准确率较高的分词效果作为前提保证。而新词的出现往往会对现有分词软件造成干扰,导致分词效果不理想,进而影响了后续对中文文本的处理。如何训练分词模型以提升分词准确性,是本申请所要解决的技术问题。

技术实现思路

[0004]本申请实施例的目的是提供一种分词模型训练方法、分词处理方法和装置,有利于提升文本分词的准确率和处理效率,解决常用方法中流程复杂、效率低、限制词长度等问题。
[0005]第一方面,提供了一种分词模型训练方法,包括:
[0006]获取与待分词文本相关联的词库,所述词库包括多个分词及各分词对应的词频,所述分词包括构成所述待分词文本的至少部分词语,所述词频用于指示对应的分词在所述待分词文本中出现的次数;
[0007]根据所述词库中的分词及其对应的词频生成预设数量的样本句子,并对所述样本句子进行分词标注,所述分词标注用于指示对所述样本句子进行切分得到的分词处理结果;
[0008]基于分词标注后的多个样本句子对待训练的分词模型进行迭代训练,得到训练后的分词模型,所述训练后的分词模型用于对所述待分词文本进行分词处理。
[0009]第二方面,提供了一种分词处理方法,包括:
[0010]获取待分词文本和训练后的分词模型,其中,所述训练后的分词模型根据分词标注后的多个样本句子对待训练的分词模型进行迭代训练得到,所述多个样本句子为预设数量的样本句子中的多个样本句子,所述分词标注用于指示对所述样本句子进行切分得到的分词处理结果,所述预设数量的样本句子根据与所述待分词文本相关联的词库中的分词及其对应的词频生成,所述词库包括多个分词及各分词对应的词频,所述分词包括构成所述待分词文本的至少部分词语,所述词频用于指示对应的分词在所述待分词文本中出现的次
数;
[0011]将所述待分词文本输入所述训练后的分词模型,得到所述待分词文本的分词处理结果。
[0012]第三方面,提供了一种分词模型训练装置,包括:
[0013]第一获取模块,获取与待分词文本相关联的词库,所述词库包括多个分词及各分词对应的词频,所述分词包括构成所述待分词文本的至少部分词语,所述词频用于指示对应的分词在所述待分词文本中出现的次数;
[0014]第一生成模块,根据所述词库中的分词及其对应的词频生成预设数量的样本句子,并对所述样本句子进行分词标注,所述分词标注用于指示对所述样本句子进行切分得到的分词处理结果;
[0015]第一训练模块,基于分词标注后的多个样本句子对待训练的分词模型进行迭代训练,得到训练后的分词模型,所述训练后的分词模型用于对所述待分词文本进行分词处理。
[0016]第四方面,提供了一种分词处理装置,包括:
[0017]第二获取模块,获取待分词文本和训练后的分词模型,其中,所述训练后的分词模型根据分词标注后的多个样本句子对待训练的分词模型进行迭代训练得到,所述多个样本句子为预设数量的样本句子中的多个样本句子,所述分词标注用于指示对所述样本句子进行切分得到的分词处理结果,所述预设数量的样本句子根据与所述待分词文本相关联的词库中的分词及其对应的词频生成,所述词库包括多个分词及各分词对应的词频,所述分词包括构成所述待分词文本的至少部分词语,所述词频用于指示对应的分词在所述待分词文本中出现的次数;
[0018]第二处理模块,将所述待分词文本输入所述训练后的分词模型,得到所述待分词文本的分词处理结果。
[0019]第五方面,提供了一种电子设备,该电子设备包括处理器、存储器及存储在该存储器上并可在该处理器上运行的计算机程序,该计算机程序被该处理器执行时实现如第一方面或第二方面的方法的步骤。
[0020]第六方面,提供了一种计算机可读存储介质,该计算机可读存储介质上存储计算机程序,该计算机程序被处理器执行时实现如第一方面或第二方面的方法的步骤。
[0021]在本申请实施例中,通过获取与待分词文本相关联的词库,词库包括多个分词及各分词对应的词频,分词包括构成待分词文本的至少部分词语,词频用于指示对应的分词在待分词文本中出现的次数;根据词库中的分词及其对应的词频生成预设数量的样本句子,并对样本句子进行分词标注,分词标注用于指示对样本句子进行切分得到的分词处理结果;基于分词标注后的多个样本句子对待训练的分词模型进行迭代训练,得到训练后的分词模型,训练后的分词模型用于对待分词文本进行分词处理。可见,本申请通过基于待分词文本关联的词库生成样本句子,能使训练后的分词模型适配于待分词文本,提升文本分词的准确率和速率。通过根据词库中的分词自动生成用于训练分词模型的样本句子,以及自动实现样本句子的分词标注,无需人工标注,能高效生成样本句子,用以训练出准确率高的分词模型。基于分词标注后的多个样本句子对待训练的分词模型进行迭代训练,使训练得到的分词模型结构简单且易于理解,具有速率快以及优化迭代简便的优势。本申请中不限制分词的长度,能用于对不同长度的词实现准确划分。另外,本申请能够灵活应用于多种
领域,通过获取待分词文本相关联的词库生成适用于实际应用领域的样本句子,进而训练得到适用于实际应用领域的分词模型,具有良好的迁移性、通用性以及可扩展性。
附图说明
[0022]此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
[0023]图1是本申请的一个实施例提供的一种分词模型训练方法的流程示意图之一。
[0024]图2是本申请的一个实施例提供的一种分词模型训练方法的流程示意图之二。
[0025]图3是本申请的一个实施例提供的一种分词模型训练方法的流程示意图之三。
[0026]图4是本申请的一个实施例提供的一种分词模型训练方法的流程示意图之四。
[0027]图5是本申请的一个实施例提供的一种分词模型训练方法的流程示意图之五。
[0028]图6是本申请的一个实施例提供的一种分词模型训练方法的流程示意图之六。
[0029]图7是本申请的一个实施例提供的一种分词模型训练方法的流程示意图之七。...

【技术保护点】

【技术特征摘要】
1.一种分词模型训练方法,其特征在于,包括:获取与待分词文本相关联的词库,所述词库包括多个分词及各分词对应的词频,所述分词包括构成所述待分词文本的至少部分词语,所述词频用于指示对应的分词在所述待分词文本中出现的次数;根据所述词库中的分词及其对应的词频生成预设数量的样本句子,并对所述样本句子进行分词标注,所述分词标注用于指示对所述样本句子进行切分得到的分词处理结果;基于分词标注后的多个样本句子对待训练的分词模型进行迭代训练,得到训练后的分词模型,所述训练后的分词模型用于对所述待分词文本进行分词处理。2.如权利要求1所述的方法,其特征在于,所述待分词文本包括多个待分词句子,所述获取与待分词文本相关联的词库,包括:获取与所述多个待分词句子中每个句子都包含共有分词的词库;根据所述词库中的各分词在所述待分词文本中出现的次数确定所述各分词对应的词频。3.如权利要求2所述的方法,其特征在于,所述根据所述词库中的分词及其对应的词频生成预设数量的样本句子,包括:确定所述待分词文本中包含的待分词句子的数量M;根据所述待分词句子的数量M确定待生成的样本句子的数量N,其中,N与M为正整数,N与M的比值大于预设比值;根据所述词库中的分词及其对应的词频生成N个样本句子,并对所述N个样本句子进行分词标注。4.如权利要求2所述的方法,其特征在于,所述根据所述词库中的分词及其对应的词频生成预设数量的样本句子,并对所述样本句子进行分词标注,包括:确定所述待分词文本的字数集合,其中,所述待分词文本中每个待分词句子的字数值均属于所述字数集合;将所述词库中分词的总字数与所述词库中分词的总数量的比值确定为分词平均长度;根据所述字数集合、所述分词平均长度、所述词库中的分词及其对应的词频生成预设数量的样本句子,并对所述样本句子进行分词标注,其中,生成的样本句子包含的分词数量为所述字数集合内的随机数与所述分词平均长度的比值。5.如权利要求4所述的方法,其特征在于,所述确定所述待分词文本的字数集合之后,还包括:将所述字数集合分为多个字数子集,任一字数子集中包含至少一个待分词句子的字数值;分别确定所述多个字数子集对应的权重,其中,任一字数子集对应的权重表征所述待分词文本中的待分词句子的字数值属于对应的字数子集的概率;其中,所述根据所述字数集合、所述分词平均长度、所述词库中的分词及其对应的词频生成预设数量的样本句子,并对所述样本句子进行分词标注,包括:根据所述字数集合中各个字数子集对应的权重确定目标字数子集;从所述目标字数子集中抽选随机数,根据所述随机数以及所述分词平均长度确定目标样本句子包含的分词的目标数量;
根据所述词库构建包含目标数量个分词的目标样本句子,并对所述目标样本句子进行分词标注。6.如权利要求5所述的方法,其特征在于,所述根据所述词库构建包含目标数量个分词的目标样本句子,并对所述目标样本句子进行分词标注,包括:根据词频从所述词库中选出目标数量个目标分词,其中,分词被选出的概率与分词的词频正相关;对所述目标分词随机排列组合生成预构建的第一目标样本句子;根据所述目标数量对所述预构建的第一目标样本句子添加标点,生成第二目标样本句子,并对所述第二目标样本句子进行分词标注,其中,对所述预构建的第一目标样本句子添加的标点的数量...

【专利技术属性】
技术研发人员:李长林肖冰曹磊罗奇帅
申请(专利权)人:马上消费金融股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1