【技术实现步骤摘要】
针对多语种的语句困惑度获取方法、系统及相关设备
[0001]本专利技术涉及自然语言处理
,尤其涉及的是一种针对多语种的语句困惑度获取方法、系统及相关设备。
技术介绍
[0002]随着科学技术的发展,尤其是深度学习技术的发展,自然语言处理的相关应用越来越广泛。在自然语言处理的过程中,通过多种手段进行语句清洗以确定有价值的语料是极为重要的一步,其中,可以结合语句困惑度确定语料的价值。
[0003]语句困惑度是用于衡量语句是否通顺、语义是否清晰的指标。现有技术中,通常通过一个n_gram困惑度计算模型计算语句困惑度,现有技术的问题在于,一个n_gram困惑度计算模型只能针对某一特定语种的语句进行语句困惑度获取,无法适用于其它语种(对于其它语种准确性不高)。因此在多语种的场景中,对于不同语种的语句都使用同一个n_gram困惑度计算模型计算语句困惑度均需要使用该语种的语料重新训练,则不利于提高获取多语种语句困惑度的准确性。
[0004]因此,现有技术还有待改进和发展。
技术实现思路
[0005]本 ...
【技术保护点】
【技术特征摘要】
1.一种针对多语种的语句困惑度获取方法,其特征在于,所述针对多语种的语句困惑度获取方法包括:获取待计算语句,其中,所述待计算语句所对应的语种是预设的多种语种中的至少一种;根据已训练的分词模型和多语种词典获取所述待计算语句对应的基元序列,其中,所述基元序列中的各个元素分别与所述多语种词典中一个位置索引所指示的值相同;在所述基元序列的首位添加目标语种令牌以获得目标序列,其中,所述目标语种令牌是所述多语种词典中与所述待计算语句的语种所对应的语种标识的位置索引;根据所述目标序列,通过已训练的多语种困惑度计算模型获取所述待计算语句对应的语句困惑度,其中,所述已训练的多语种困惑度计算模型根据所述预设的多种语种对应的多语种语料集训练获得。2.根据权利要求1所述的针对多语种的语句困惑度获取方法,其特征在于,所述获取待计算语句,包括:获取待处理文本,根据预先设置的预处理操作对所述待处理文本进行预处理以获得预处理文本,其中,所述预处理操作包括全半角转换、大小写统一和多空白字符合并,所述待处理文本由所述预设的多种语种中的任意一种语种所对应的语句构成;根据所述预处理文本中的句子分割符对所述预处理文本进行单句切分,并将单句切分后获得的各个语句依次作为所述待计算语句。3.根据权利要求2所述的针对多语种的语句困惑度获取方法,其特征在于,所述已训练的分词模型和所述多语种词典根据如下步骤预先训练获得:获取所述多语种语料集,其中,所述多语种语料集中包括所述预设的多种语种中各个语种对应的正常语义数据集;根据所述预处理操作对各所述正常语义数据集进行预处理以获得各所述正常语义数据集对应的预处理训练文本;通过预设的SentencePiece工具针对所述预处理训练文本训练获得所述已训练的分词模型和待处理词典;在所述待处理词典的尾部增加所述预设的多种语种中各语种对应的语种标识以获得所述多语种词典,其中,所述多语种词典中包括多个词缀和多个所述语种标识,各所述词缀和各所述语种标识的位置分别由对应的位置索引指示。4.根据权利要求3所述的针对多语种的语句困惑度获取方法,其特征在于,所述位置索引是用于表示位置的下标值。5.根据权利要求3所述的针对多语种的语句困惑度获取方法,其特征在于,所述根据所述目标序列,通过已训练的多语种困惑度计算模型获取所述待计算语句对应的语句困惑度,包括:将所述目标序列输入所述已训练的多语种困惑度计算模型,获取所述已训练的多语种困惑度计算模型输出的目标标量值;将1减去所述目标标量值之后获得的数值作为所述待计算语句对应的语句困惑度。6.根据权利要求5所述的针对多语种的语句困惑度获取方法,其特征在于,所述已训练的多语种困惑度计算模型包括多层堆叠的编码器,一个全连接层以及一个sigmoid函数。
7.根据权利要求6所述的针对多语种的语句困惑度获取方法,其特征在于,所述多语种困惑度计算模型预先根据如下步骤进行训练:根据各所述预处理训练文本中的句子分割符分别对各所述预处理训练文本进行单句切分,获得各所述预处理训练文本对应的各个训练语句;根据所述已训练的分词模型和所述多语种词典获取各所述训练语句对应的训练原始基元序列;根据所述训练原始基元序列和预先设置的负样本构造操作构造获得各所述训练原始基元序列对应的训练负样本基元序列,其中,所述负样本构造操作包括针对所述训练原始基元序列中元素的随机乱序重组、随机替换、随机删减、随机插入、片段位置互换和位置倒序中的至少一种;分别在各所述训练原始基元序列的首位增加对应的训练目标语种令牌以获得训练目标原始序列,分别在各所述训练负样本序列的首位增加对应的训练目标语种令牌以获得训练目标负样本序列;根据所述...
【专利技术属性】
技术研发人员:黄嘉鑫,谢育涛,尹曦,谢凯,
申请(专利权)人:粤港澳大湾区数字经济研究院福田,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。