语言类型判别方法、装置、设备及存储介质制造方法及图纸

技术编号:25522665 阅读:30 留言:0更新日期:2020-09-04 17:12
本发明专利技术实施例提供了一种语言类型判别方法、装置、设备及存储介质,语言类型判别方法包括:取待语言类型判别的文本;基于已知类型文本的预定的第一字数组合向量库,获取文本的各个第一字数组合的第一字数组合向量;融合各第一字数组合向量,得到文本的第一字数文本向量;至少根据第一字数文本向量获取融合文本向量;根据融合文本向量获取语言类型判别向量,并根据语言类别判别向量,获取文本的类型为已知类型文本的类型的概率。本发明专利技术实施例所提供的语言类型判别方法、装置、设备及存储介质,可以实现文本的语言类型判别,并提高判别的准确性。

【技术实现步骤摘要】
语言类型判别方法、装置、设备及存储介质
本专利技术实施例涉及计算机领域,尤其涉及一种语言类型判别方法、装置、设备及存储介质。
技术介绍
随着人工智能技术的发展,自然语言处理成为机器学习研究的一个重要的方向。现阶段,基于自然语言的处理主要集中在不同语言之间的翻译,并未涉及自然语言的语言类型的判定,然而在一些领域,需要首先判定出自然语言的种类,然后再进行后续步骤的处理。然而,现阶段并未发现实现语言类型判别的方法。因此,如何实现语言类型的判别,就成为亟需解决的技术问题。
技术实现思路
本专利技术实施例提供一种语言类型判别方法、装置、设备及存储介质,以实现语言类型的确定。为解决上述问题,本专利技术实施例提供一种语言类型判别方法,包括:获取待语言类型判别的文本;基于已知类型文本的预定的第一字数组合向量库,获取所述文本的各个第一字数组合的第一字数组合向量,其中,所述第一字数为所述已知类型文本的第一概率的成词字数,且各所述第一字数组合向量的维度数量相同;融合各所述第一字数组合向量,得到所述文本的第一字数文本本文档来自技高网...

【技术保护点】
1.一种语言类型判别方法,其特征在于,包括:/n获取待语言类型判别的文本;/n基于已知类型文本的预定的第一字数组合向量库,获取所述文本的各个第一字数组合的第一字数组合向量,其中,所述第一字数为所述已知类型文本的第一概率的成词字数,且各所述第一字数组合向量的维度数量相同;/n融合各所述第一字数组合向量,得到所述文本的第一字数文本向量,其中,所述第一字数文本向量的各个维度值分别为各所述第一字数组合向量同一纬度的维度值的融合值;/n至少根据所述第一字数文本向量获取融合文本向量;/n根据所述融合文本向量获取语言类型判别向量,并根据所述语言类别判别向量,获取所述文本的类型为所述已知类型文本的类型的概率。...

【技术特征摘要】
1.一种语言类型判别方法,其特征在于,包括:
获取待语言类型判别的文本;
基于已知类型文本的预定的第一字数组合向量库,获取所述文本的各个第一字数组合的第一字数组合向量,其中,所述第一字数为所述已知类型文本的第一概率的成词字数,且各所述第一字数组合向量的维度数量相同;
融合各所述第一字数组合向量,得到所述文本的第一字数文本向量,其中,所述第一字数文本向量的各个维度值分别为各所述第一字数组合向量同一纬度的维度值的融合值;
至少根据所述第一字数文本向量获取融合文本向量;
根据所述融合文本向量获取语言类型判别向量,并根据所述语言类别判别向量,获取所述文本的类型为所述已知类型文本的类型的概率。


2.如权利要求1所述的语言类型判别方法,其特征在于,所述基于已知类型文本的预定的第一字数组合向量库,获取所述文本的各个第一字数组合的第一字数组合向量的步骤包括:
利用第一滑窗获取所述文本的各组第一字数组合;
基于各组所述第一字数组合在所述第一字数组合向量库中查找,得到对应的各第一字数组合向量。


3.如权利要求2所述的语言类型判别方法,其特征在于,所述利用第一滑窗获取所述文本的各组第一字数组合的步骤包括:
利用所述第一滑窗获取所述文本的各组无复用字第一字数组合,并舍弃文本最后少于所述第一字数的文字,得到各组所述第一字数组合。


4.如权利要求2所述的语言类型判别方法,其特征在于,所述基于各组所述第一字数组合在所述第一字数组合向量库中查找,得到对应的各第一字数组合向量的步骤包括:
基于各组所述第一字数组合在所述第一字数组合向量库中查找各个所述第一字数组合所对应的各个编号;
根据各所述编号确定分别与各组所述第一字数组合对应的各所述第一字数组合向量。


5.如权利要求1所述的语言类型判别方法,其特征在于,还包括:
基于所述已知类型文本的预定的第二字数组合向量库获取所述文本的各组第二字数组合的第二字数组合向量,其中,所述第二字数为所述已知类型文本的第二概率的成词字数,各所述第二字数组合向量的维度数量与所述第一字数组合向量的维度数量相同;
根据各所述第二字数组合向量获取所述文本的第二字数文本向量,其中,所述第二字数文本向量的各个维度值分别为各所述第二字数组合向量同一纬度的维度值的融合值;
所述至少根据所述第一字数文本向量获取融合文本向量的步骤包括:
根据所述第一字数文本向量和所述第二字数文本向量获取所述融合文本向量。


6.如权利要求5所述的语言类型判别方法,其特征在于,所述根据所述第一字数文本向量和所述第二字数文本向量获取所述融合文本向量的公式如下:
P=p1O1+(1-p1)O2
其中:P--融合文本向量;
p1--第一概率;
O1--第一字数文本向量;
O2--第二字数文本向量。


7.如权利要求5所述的语言类型判别方法,其特征在于,还包括:
基于所述已知类型文本的预定的第三字数组合向量库获取所述文本的各组第三字数组合的第三字数组合向量,其中,所述第三字数为所述已知类型文本第三概率的成词字数,各所述第三字数组合向量的维度数量与所述第一字数组合向量的维度数量相同;
根据各所述第三字数组合向量获取所述文本的第三字数文本向量,其中,所述第三字数文本向量的各个维度值分别为各所述第三字数组合向量同一纬度的维度值的融合值;
所述至少根据所述第一字数文本向量获取融合文本向量的步骤包括:
根据所述第一字数文本向量、所述第二字数文本向量和所述第三字数文本向量获取所述融合文本向量。


8.如权利要求6所述的语言类型判别方法,其特征在于,所述至少根据所述第一字数文本向量、所述第二字数文本向量和所述第三字数文本向量获取所述融合文本向量的公式如下:
P=p1O1+p2O2+(1-p1-p2)O3
其中:P--融合文本向量;
p1--第一概率;
p2--第一概率
O1--第一字数文本向量;
O2--第二字数文本向量;
O3--第三字数文本向量。
<...

【专利技术属性】
技术研发人员:向宇丁文彪刘子韬
申请(专利权)人:北京世纪好未来教育科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1