分词语种的识别方法及装置制造方法及图纸

技术编号:29134025 阅读:13 留言:0更新日期:2021-07-02 22:29
本申请公开了一种分词语种的识别方法及装置。其中,该方法包括:获取待检测文本,其中,待检测文本中至少包括两种不同语种的语料;将待检测文本的多个分词输入混合语言模型进行分析,得到待检测文本中每个分词至少一个分词的第一评分指标,其中,第一评分指标用于指示每个分词至少一个分词属于目标语种的概率;基于第一评分指标判断每个分词至少一个分词属于第一语种的概率是否大于至少一个分词属于第二语种的概率;确定待检测文本中至少一个分词的前一个分词所属的语种;依据判断结果以及前一个分词所属的语种确定至少一个分词的语言模型;基于确定的语言模型确定至少一个分词的第二评分指标。

【技术实现步骤摘要】
分词语种的识别方法及装置
本申请涉及智能识别领域,具体而言,涉及一种分词语种的识别方法及装置。
技术介绍
随着互联网的发展,全球的数据和信息融合,语言表达已不局限于一种语言,比如以一种主要语言和其他辅助语言(中文为主,英文术语为辅),或者两种语言紧密结合(印度语与英语)。在口语表达中,中国人也越来越多融合了英文的词汇、短语、整句引用的表达,这给语言模型建模提出了新的挑战。对多语种的混合,也叫语码转换或者语码混合,成为自然语言处理一个重要的研究问题。相关技术中,采用对一种或者多种语言之间进行翻译的机器翻译组件,生成能够接受使用一种或者多种语言的语言学输入的过程。其依赖已有的特定语向的翻译模型,将输入从其语言翻译成锚语言。该方法依赖翻译模型,需要预先使用平行语料训练翻译模型,无法在没有平行语料的语向上使用。同时因为翻译模型和目标语言建模的数据存在差异,该方法处理新词汇(翻译模型无法翻译的词汇)和多义词汇(一个词语在不同上下文下有多种含义,例如苹果是一种水果还是一家公司)的效率较低。针对上述的问题,目前尚未提出有效的解决方案。
技术实现思路
本申请实施例提供了一种分词语种的识别方法及装置,以至少解决现有的翻译模型识别新词汇以及多义词汇的准确度较低的技术问题。根据本申请实施例的一个方面,提供了一种分词语种的识别方法,包括:获取待检测文本,其中,待检测文本中至少包括两种不同语种的语料;将待检测文本的多个分词输入混合语言模型进行分析,得到待检测文本中至少一个分词的第一评分指标,其中,第一评分指标用于计算至少一个分词属于目标语种的概率。基于第一评分指标判断至少一个分词属于第一语种的概率是否大于至少一个分词属于第二语种的概率,其中,第二语种包括除第一语种之外的任意一个语种;确定待检测文本中指定分词的所属的语种,其中,指定分词包括待检测文本中与至少一个分词不同的分词;依据判断结果以及指定分词所属的语种确定至少一个分词的语言模型;基于确定的语言模型确定至少一个分词的第二评分指标,其中,第二评分指标用于指示至少一个分词属于目标语种的概率;并基于第二评分指标确定至少一个分词所属的语种。根据本申请实施例的另一个方面,提供了一种分词语种的识别方法,包括:获取待检测文本,其中,待检测文本中至少包括两种不同语种的语料;将待检测文本的多个分词输入混合语言模型进行分析,得到待检测文本中至少一个分词的第一评分指标,其中,第一评分指标用于指示至少一个分词属于目标语种的概率;基于第一评分指标确定至少一个分词的语言模型;基于确定的语言模型对至少一个分词进行识别。根据本申请实施例的另一方面,还提供了一种分词语种的识别装置,包括:获取模块,用于获取待检测文本,其中,待检测文本中至少包括两种不同语种的语料;分析模块,用于将待检测文本的多个分词输入混合语言模型进行分析,得到待检测文本中至少一个分词的第一评分指标,其中,第一评分指标用于指示至少一个分词属于目标语种的概率;判断模块,用于基于第一评分指标判断至少一个分词属于第一语种的概率是否大于至少一个分词属于第二语种的概率;第一确定模块,用于确定待检测文本中至少一个分词的前一个分词所属的语种;第二确定模块,依据判断结果以及前一个分词所属的语种确定至少一个分词的语言模型;第三确定模块,基于确定的语言模型确定至少一个分词的第二评分指标。根据本申请实施例的另一方面,还提供了一种分词语种的确定方法,包括:在展示界面中展示用于触发上传待检测文本的第一控件,其中,待检测文本中至少包括两种不同语种的语料;输出将待检测文本的多个分词输入混合语言模型进行分析后得到的待检测文本中至少一个分词的第一评分指标,其中,第一评分指标用于计算至少一个分词属于目标语种的概率;输出以下至少之一:基于第一评分指标确定的至少一个分词属于不同语种的概率;待检测文本中指定分词的所属的语种,其中,指定分词包括待检测文本中与至少一个分词不同的分词;其中,概率以及指定分词所属的语种用于确定至少一个分词对应的语言模型;输出基于语言模型确定的至少一个分词的第二评分指标,输出依据第二评分指标确定的至少一个分词所属的语种,其中,第二评分指标用于指示至少一个分词属于目标语种的概率。根据本申请实施例的另一方面,还提供了一种分词语种的识别方法,包括:在用户端设备的展示界面中展示用于上传待检测文本的第三控件,其中,待检测文本中至少包括两种不同语种的语料;在展示界面中展示后台设备输出的待检测文本的多个分词;在展示界面中展示依据混合语言模型对至少一个分词进行分析后得到的第一评分指标,其中,第一评分指标用于计算至少一个分词属于目标语种的概率;在展示界面中展示基于第一评分指标确定的不同语种的概率,以及待检测文本中指定分词的所属的语种,其中,指定分词包括待检测文本中与至少一个分词不同的分词;其中,概率以及指定分词所属的语种用于确定至少一个分词对应的语言模型;在展示界面中展示基于语言模型确定的至少一个分词的第二评分指标,以及依据第二评分指标确定的至少一个分词所属的语种,其中,第二评分指标用于指示至少一个分词属于目标语种的概率。根据本申请实施例的另一个方面,提供了一种分词语种的识别方法,包括:获取待检测文本,其中,待检测文本中至少包括两种不同语种的语料;获取待检测文本中各个语种出现的概率;基于概率确定待检测文本中至少一个分词对应的语言模型;基于语言模型对至少一个分词进行评估,得到评分指标,其中,该评分指标用于指示至少一个分词属于目标语种的概率。根据本申请实施例的另一个方面,提供一种模型训练方法,包括:获取多个语种的单语语料;确定多个语种的单语语料中指定字符占比大于预设阈值的目标单语语料,其中,指定字符占比为单语语料中与第一语种不同的第二语种的字符在单语语料中的比例,其中,第一语种的语料在单语语料中的比例大于第二语种的字符在单语语料中的比例;基于目标单语语料和多个语种的单语语料进行预处理,得到目标混合语料;采用目标混合语料中的单语语料训练单语语言模型,得到与第一语种对应的第一单语语言模型和与第二语种对应的第二单语语言模型;采用目标混合语料中的混合语料训练,得到混合语言模型,其中,混合语料包括第一语种的语料和第二语种的语料。在本申请实施例中,采用获取待检测文本,其中,待检测文本中至少包括两种不同语种的语料;将待检测文本的多个分词输入混合语言模型进行分析,得到待检测文本中至少一个分词的第一评分指标,其中,第一评分指标用于指示至少一个分词属于目标语种的概率;基于第一评分指标判断至少一个分词属于第一语种的概率是否大于至少一个分词属于第二语种的概率;确定待检测文本中至少一个分词的指定分词所属的语种;依据判断结果以及指定分词所属的语种确定至少一个分词的语言模型;基于确定的语言模型确定至少一个分词的第二评分指标的方式,通过将待检测文本的多个分词输入混合语言模型进行分析,获取待检测文中至少一个分词的第一评分指标,根据第一评分指标确定各个分词对应的语言模型的目的,从而实现了基于混合语言模型以及至少一个分词对应的语言模型的选择,提高文本的识别准本文档来自技高网...

【技术保护点】
1.一种分词语种的识别方法,其特征在于,包括:/n获取待检测文本,其中,所述待检测文本中至少包括两种不同语种的语料;/n将所述待检测文本的多个分词输入混合语言模型进行分析,得到待检测文本中至少一个分词的第一评分指标,其中,所述第一评分指标用于计算所述至少一个分词属于目标语种的概率;/n基于所述第一评分指标判断所述至少一个分词属于第一语种的概率是否大于所述至少一个分词属于第二语种的概率,其中,所述第二语种包括除所述第一语种之外的任意一个语种;/n确定所述待检测文本中指定分词的所属的语种,其中,所述指定分词包括所述待检测文本中与所述至少一个分词不同的分词;/n依据判断结果以及所述指定分词所属的语种确定所述至少一个分词的语言模型;/n基于确定的语言模型确定所述至少一个分词的第二评分指标,其中,所述第二评分指标用于指示所述至少一个分词属于目标语种的概率;并基于所述第二评分指标确定所述至少一个分词所属的语种。/n

【技术特征摘要】
1.一种分词语种的识别方法,其特征在于,包括:
获取待检测文本,其中,所述待检测文本中至少包括两种不同语种的语料;
将所述待检测文本的多个分词输入混合语言模型进行分析,得到待检测文本中至少一个分词的第一评分指标,其中,所述第一评分指标用于计算所述至少一个分词属于目标语种的概率;
基于所述第一评分指标判断所述至少一个分词属于第一语种的概率是否大于所述至少一个分词属于第二语种的概率,其中,所述第二语种包括除所述第一语种之外的任意一个语种;
确定所述待检测文本中指定分词的所属的语种,其中,所述指定分词包括所述待检测文本中与所述至少一个分词不同的分词;
依据判断结果以及所述指定分词所属的语种确定所述至少一个分词的语言模型;
基于确定的语言模型确定所述至少一个分词的第二评分指标,其中,所述第二评分指标用于指示所述至少一个分词属于目标语种的概率;并基于所述第二评分指标确定所述至少一个分词所属的语种。


2.根据权利要求1所述的方法,其特征在于,所述指定分词包括:所述待检测文本中所述至少一个分词的前一个分词。


3.根据权利要求1所述的方法,其特征在于,将所述待检测文本的多个分词输入混合语言模型进行分析之前,所述方法还包括:
获取多个语种的单语语料;
获取多语种的目标混合语料;
采用所述目标混合语料中的单语语料训练单语语言模型,得到与所述第一语种对应的第一单语语言模型和与所述第二语种对应的第二单语语言模型;采用所述目标混合语料对预设混合语言模型进行训练,得到所述混合语言模型,其中,所述目标混合语料包括所述第一语种的语料和第二语种的语料。


4.根据权利要求3所述的方法,其特征在于,获取多语种的目标混合语料,包括:
确定所述多个语种的单语语料中指定字符占比大于预设阈值的目标单语语料,其中,所述指定指定字符占比为所述多个语种的单语语料中与第一语种不同的第二语种的字符在所述单语语料中的比例,其中,所述第一语种的语料在所述单语语料中的比例大于所述第二语种的字符在所述单语语料中的比例;
从所述目标单语语料中提取多语种部分的语料,并基于所述多语种部分的语料确定所述目标混合语料,其中,所述多语言部分的语料中至少包括多个语种的语料。


5.根据权利要求4所述的方法,其特征在于,基于所述多语种部分的语料确定所述目标混合语料包括:
对所述多语种部分的语料进行分词处理,得到多个分词;对所述多个分词使用字节对编码算法进行处理,得到高频子词;基于所述高频子词确定所述多个语种的通用词表,并将所述通用词表作为所述目标混合语料。


6.根据权利要求3所述的方法,其特征在于,依据判断结果以及所述指定分词所属的语种确定所述至少一个分词的语言模型,包括:
在所述指定分词包括所述待检测文本中所述至少一个分词的前一个分词的情况下,在判断结果指示所述至少一个分词属于第一语种的概率大于属于第二语种的概率,并且所述至少一个分词的前一个分词属于第一语种时,确定采用所述第一单语语言模型计算所述至少一个分词的第二评分指标;
在判断结果指示所述至少一个分词属于第一语种的概率大于属于第二语种的概率,且所述至少一个分词的前一个分词属于第二语种时,确定采用所述第二单语语言模型和所述混合语言模型对所述至少一个分词的第二评分指标进行计算;
在所述判断结果指示所述至少一个分词属于第一语种的概率小于属于第二语种的概率,且所述前一个分词属于第一语种时,确定采用所述第一单语语言模型和所述混合语言模型对所述至少一个分词的第二评分指标进行计算;
在所述判断结果指示所述至少一个分词属于第一语种的概率小于属于第二语种的概率,且所述前一个分词属于第二语种时,确定采用所述第二单语语言模型对所述至少一个分词的第二评分指标进行计算。


7.根据权利要求6所述的方法,其特征在于,确定采用所述第二单语语言模型和所述混合语言模型对所述至少一个分词的第二评分指标进行计算,包括:
分别采用所述第二单语语言模型和所述混合语言模型计算所述至少一个分词的初始评分指标;并将采用所述第二单语语言模型和所述混合语言模型计算得到的初始评分指标进行加权运算,得到所述第二评分指标。


8.根据权利要求1所述的方法,其特征在于,将所述待检测文本的多个分词输入混合语言模型进行分析之前,所述方法还包括:
对所述待检测文本采用字节对编码算法进行分词处理,得到子词,将所述子词作为所述输入所述混合语言模型的分词。


9.一种分词语种的确定方法,其特征在于,包括:
在展示界面中展示用于触发上传待检测文本的第一控件,其中,所述待检测文本中至少包括两种不同语种的语料;
输出将所述待检测文本的多个分词输入混合语言模型进行分析后得到的待检测文本中至少一个分词的第一评分指标,其中,所述第一评分指标用于计算所述至少一个分词属于目标语种的概率;
输出以下至少之一:基于所述第一评分指标确定的所述至少一个分词属于不同语种的概率;所述待检测文本中指定分词的所属的语种,其中,所述指定分词包括所述待检测文本中与所述至少一个分词不同的分词;其中,所述概...

【专利技术属性】
技术研发人员:李辰包祖贻刘恒友徐光伟李林琳
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛;KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1