【技术实现步骤摘要】
分词模型训练方法、分词处理方法和装置
[0001]本申请涉及深度学习
,尤其涉及一种分词模型训练方法、分词处理方法和装置。
技术介绍
[0002]在英文中,单词与单词之间是有明显的分隔符号的。自然语言处理对于英文的分词处理,只需要简单的操作即可将一个英文句子准确的划分为若干个单词而不需要考虑这个单词是否为新词。与英文不同的是,中文用于表达意思的最小语言单位为词,词与词之间没有明显的分隔符号,因此自然语言处理中对中文文本的首要处理操作为分词。
[0003]自然语言处理过程要求计算机能准确地提炼出句子所表达的含义,处理过程涉及句法、语义成分、语义结构、语境等方面。这一切的基础都是基于将一个句子准确地切分为多个词语的组合。在更深—层自然语言处理过程中,譬如个性化推荐、情感分析、主题分类、舆情分析等,都需要准确率较高的分词效果作为前提保证。而新词的出现往往会对现有分词软件造成干扰,导致分词效果不理想,进而影响了后续对中文文本的处理。如何训练分词模型以提升分词准确性,是本申请所要解决的技术问题。
技术实现思路
[0004]本申请实施例的目的是提供一种分词模型训练方法、分词处理方法和装置,有利于提升文本分词的准确率和处理效率,解决常用方法中流程复杂、效率低、限制词长度等问题。
[0005]第一方面,提供了一种分词模型训练方法,包括:
[0006]获取与待分词文本相关联的词库,所述词库包括多个分词及各分词对应的词频,所述分词包括构成所述待分词文本的至少部分词语,所述词频用于指示对应的分
【技术保护点】
【技术特征摘要】
1.一种分词模型训练方法,其特征在于,包括:获取与待分词文本相关联的词库,所述词库包括多个分词及各分词对应的词频,所述分词包括构成所述待分词文本的至少部分词语,所述词频用于指示对应的分词在所述待分词文本中出现的次数;根据所述词库中的分词及其对应的词频生成预设数量的样本句子,并对所述样本句子进行分词标注,所述分词标注用于指示对所述样本句子进行切分得到的分词处理结果;基于分词标注后的多个样本句子对待训练的分词模型进行迭代训练,得到训练后的分词模型,所述训练后的分词模型用于对所述待分词文本进行分词处理。2.如权利要求1所述的方法,其特征在于,所述待分词文本包括多个待分词句子,所述获取与待分词文本相关联的词库,包括:获取与所述多个待分词句子中每个句子都包含共有分词的词库;根据所述词库中的各分词在所述待分词文本中出现的次数确定所述各分词对应的词频。3.如权利要求2所述的方法,其特征在于,所述根据所述词库中的分词及其对应的词频生成预设数量的样本句子,包括:确定所述待分词文本中包含的待分词句子的数量M;根据所述待分词句子的数量M确定待生成的样本句子的数量N,其中,N与M为正整数,N与M的比值大于预设比值;根据所述词库中的分词及其对应的词频生成N个样本句子,并对所述N个样本句子进行分词标注。4.如权利要求2所述的方法,其特征在于,所述根据所述词库中的分词及其对应的词频生成预设数量的样本句子,并对所述样本句子进行分词标注,包括:确定所述待分词文本的字数集合,其中,所述待分词文本中每个待分词句子的字数值均属于所述字数集合;将所述词库中分词的总字数与所述词库中分词的总数量的比值确定为分词平均长度;根据所述字数集合、所述分词平均长度、所述词库中的分词及其对应的词频生成预设数量的样本句子,并对所述样本句子进行分词标注,其中,生成的样本句子包含的分词数量为所述字数集合内的随机数与所述分词平均长度的比值。5.如权利要求4所述的方法,其特征在于,所述确定所述待分词文本的字数集合之后,还包括:将所述字数集合分为多个字数子集,任一字数子集中包含至少一个待分词句子的字数值;分别确定所述多个字数子集对应的权重,其中,任一字数子集对应的权重表征所述待分词文本中的待分词句子的字数值属于对应的字数子集的概率;其中,所述根据所述字数集合、所述分词平均长度、所述词库中的分词及其对应的词频生成预设数量的样本句子,并对所述样本句子进行分词标注,包括:根据所述字数集合中各个字数子集对应的权重确定目标字数子集;从所述目标字数子集中抽选随机数,根据所述随机数以及所述分词平均长度确定目标样本句子包含的分词的目标数量;
根据所述词库构建包含目标数量个分词的目标样本句子,并对所述目标样本句子进行分词标注。6.如权利要求5所述的方法,其特征在于,所述根据所述词库构建包含目标数量个分词的目标样本句子,并对所述目标样本句子进行分词标注,包括:根据词频从所述词库中选出目标数量个目标分词,其中,分词被选出的概率与分词的词频正相关;对所述目标分词随机排列组合生成预构建的第一目标样本句子;根据所述目标数量对所述预构建的第一目标样本句子添加标点,生成第二目标样本句子,并对所述第二目标样本句子进行分词标注,其中,对所述预构建的第一目标样本句子添加的标点的数量...
【专利技术属性】
技术研发人员:李长林,肖冰,曹磊,罗奇帅,
申请(专利权)人:马上消费金融股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。