【技术实现步骤摘要】
语种识别方法
本专利技术涉及计算机
,特别涉及一种语种识别方法。
技术介绍
语种识别是指计算机根据输入的语音数据,自动判断该语音数据所属的语言种类,例如汉语、德语、英语、法语或日语等。近年来,语种识别越来越显示出其应用价值,在信息服务、军事、网络社交等领域得到了广泛的应用。目前,现有技术中所使用的语种识别的方案,大部分需要利用拉普拉斯变换模型进行滤波,或者使用高斯变换模型等复杂算法进行语种识别。现有技术中所采用的语种识别方案在大数据集上无法实际使用,算法复杂,需要较长的识别处理时间,因此识别速度慢,而且识别的准确率低,不能满足当前语种识别的需求。
技术实现思路
本专利技术提供一种语种识别方法,用以确保语种识别准确率的前提下,减少数据运算量,提高语种识别速度。本专利技术提供了一种语种识别方法,所述语种识别方法包括:接收输入的需进行语种识别的待识别语种信息;根据接收的所述待识别语种信息,统计并获取所述待识别语种信息中包含的词语在对应语种中的出现频率和排行信息;根据 ...
【技术保护点】
1.一种语种识别方法,其特征在于,所述语种识别方法包括:/n接收输入的需进行语种识别的待识别语种信息;/n根据接收的所述待识别语种信息,统计并获取所述待识别语种信息中包含的词语在对应语种中的出现频率和排行信息;/n根据所述出现频率和排行信息,计算所述待识别语种信息为对应语种的语种概率;/n根据计算得到的所述语种概率,确定所述待识别语种信息对应的语种。/n
【技术特征摘要】
1.一种语种识别方法,其特征在于,所述语种识别方法包括:
接收输入的需进行语种识别的待识别语种信息;
根据接收的所述待识别语种信息,统计并获取所述待识别语种信息中包含的词语在对应语种中的出现频率和排行信息;
根据所述出现频率和排行信息,计算所述待识别语种信息为对应语种的语种概率;
根据计算得到的所述语种概率,确定所述待识别语种信息对应的语种。
2.如权利要求1所述的语种识别方法,其特征在于,所述根据接收的所述待识别语种信息,统计并获取所述待识别语种信息中包含的词语在对应语种中的出现频率和排行信息,包括:
根据接收到的所述待识别语种信息,统计所述待识别语种信息中各词语的出现频率;
根据所述词语对应的所述出现频率,按照所述出现频率对所述词语进行排序,得到每一个词语对应的所述出现频率在所述待识别语种信息中出现次数的排列顺序所对应的排行信息;
其中,将所述出现频率和排行信息分别记为f(m)和r(m),m表示所述待识别语种信息中的词语的序号,m取值为1、2、3,…,M,M为所述词语的序号对应的最大值,m为1时表示第一个词语,m为2时表示第二个词语,m取值M时表示第M个词语。
3.如权利要求2所述的语种识别方法,其特征在于,所述根据所述出现频率和排行信息,计算所述待识别语种信息为对应语种的语种概率,包括:
根据已知语种的语种数据,统计并记录所述待识别语种信息中各词语在对应的已知语种中出现的已知频率和已知排序;
根据所述出现频率和排行信息,并结合所述已知频率和已知排序,计算得到所述待识别语种信息为对应语种的语种概率。
4.如权利要求3所述的语种识别方法,其特征在于,所述根据已知语种的语种数据,统计并记录待识别语种信息中各词语在对应的已知语种中出现的已知频率和已知排序,包括:
收集已知语种的语种数据,得到每个语种分别对应的已知语种数据库;其中,yi表示语种,i取1,2,…,Y;y1表示第一个语种,y2表示第二个语种,以此类推;Y表示所述已知语种数据库中语种编号对应的最大值;
基于所述已知语种数据库,统计并记录所述待识别语种信息中包含的第m个词语cm在对应的第i个已知语种yi中出现的已知频率f(yi,cm)和已知排序r(yi,cm);其中,m取1,2,…,M;f(yi,cm)表示第m个词语cm在语种i中对应出现的已知频率,r(yi,cm)表示所述第m个词语cm在语种i中出现频率的排列顺序对应的已知排序。
5.如权利要求4所述的语种识别方法,其特征在于,所述根据所述出现频率和排行信息,并结合所述已知频率和已知排序,计算所述待识别语种信息为对应语种的语种概率,包括:
获取所述第m个词语cm在不同语种i中的出现频率f(yi,cm)及排行信息r(yi,cm);
根据所述出现频率f(m)和排行信息r(m),以及所述出现频率f(yi,cm)及排行信息r(yi,cm),计算所述待识别语种信息与语种i的频率特征距离以及排行特征距离;
根据计算得到的所述频率特征距离以及排行特征距离,计算得到所述待识别语种信息为语种i的语种概率。
6.如权利要求5所述的语种识别方法,其特征在于,所述根据所述出现频率f(m)和排行信息r(m),以及所述出现频率f(yi,cm)...
【专利技术属性】
技术研发人员:崔炜,
申请(专利权)人:上海松鼠课堂人工智能科技有限公司,
类型:发明
国别省市:上海;31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。