一种语种识别方法、装置、设备、存储介质及产品制造方法及图纸

技术编号：38161669 阅读：10 留言：0更新日期：2023-07-13 09:34

本申请实施例提供了一种语种识别方法、装置、设备、存储介质及产品。本申请实施例提供的技术方案通过语种识别模型对待识别语音信息进行语种识别，得到待识别语音信息的语种识别结果，并且用于对该语种识别模型进行训练的训练语音样本，通过对识别语种标签和社交语种标签一致的目标用户进行语音数据收集得到，可进一步对该语种识别模型进行训练的训练语音样本进行大规模的数据扩充，识别语种和社交语种一致的目标用户的音频数据在多语种场景下的语种置信度更高，训练语音样本的可靠性更高，训练语音的内容更多样，训练得到的语种识别模型在复杂语种环境下的识别精度更高，有效提高在复杂的多语种场景下语种识别准确度。在复杂的多语种场景下语种识别准确度。在复杂的多语种场景下语种识别准确度。

全部详细技术资料下载

【技术实现步骤摘要】
一种语种识别方法、装置、设备、存储介质及产品

[0001]本申请实施例涉及音频处理
，尤其涉及一种语种识别方法、装置、设备、存储介质及产品。

技术介绍

[0002]随着音频处理技术和互联网技术的发展，用户对社交平台的个性化精准推荐、内容精准识别及理解等需求也提出了更高的要求。对于有多语种用户群体的社交平台，用户内容的识别、理解和推荐有着更大的挑战，复杂的多语种场景需要先解决语种识别问题，才能更好地进行内容识别、理解及推荐。因此语种识别对个性化精准语种的推荐下发有着不可缺少的地位，同时也是其他内容识别和理解技术落地和性能提升的基础。
[0003]对于语种较为单一的国家或地区，语音的语种可以直接通过IP地址或者国家码确认，而对于语种类型较为复杂的国家或地区，在同一个国家或地区中会同时存在大量使用不同语种的用户的情况，此时通过IP地址或者国家码难以确定准确的语音语种，语种识别准确度较低。

技术实现思路

[0004]本申请实施例提供一种语种识别方法、装置、设备、存储介质及产品，以解决相关技术在复杂的多语种场景下语种识别准确度较低的技术问题，有效提高在复杂的多语种场景下语种识别准确度。
[0005]在第一方面，本申请实施例提供了一种语种识别方法，包括：
[0006]获取待识别用户的待识别语音信息；
[0007]将所述待识别语音信息输入至训练完成的语种识别模型，通过所述语种识别模型对所述待识别语音信息进行语种识别，得到所述待识别用户对应的语种识别结果，所述语种识别模型通过预先...

【技术保护点】

【技术特征摘要】
1.一种语种识别方法，其特征在于，包括：获取待识别用户的待识别语音信息；将所述待识别语音信息输入至训练完成的语种识别模型，通过所述语种识别模型对所述待识别语音信息进行语种识别，得到所述待识别用户对应的语种识别结果，所述语种识别模型通过预先收集的训练语音样本进行训练得到，所述训练语音样本通过对识别语种标签和社交语种标签一致的目标用户进行语音数据收集得到。2.根据权利要求1所述的语种识别方法，其特征在于，所述训练语音样本的收集步骤包括：获取多个样本用户的初始语音样本，并基于所述初始语音样本确定各个所述样本用户的识别语种标签；获取各个所述样本用户的社交关系信息，并基于所述社交关系信息确定各个所述样本用户的社交语种标签；基于所述识别语种标签和所述社交语种标签对所述样本用户进行筛选，得到多个目标用户；对各个所述目标用户进行语音数据收集得到训练语音样本。3.根据权利要求2所述的语种识别方法，其特征在于，所述基于所述识别语种标签和所述社交语种标签对所述样本用户进行筛选，得到多个目标用户，包括：将所述识别语种标签和所述社交语种标签一致的所述样本用户筛选为目标用户。4.根据权利要求2所述的语种识别方法，其特征在于，所述基于所述初始语音样本确定各个所述样本用户的识别语种标签，包括：基于所述初始语音样本确定各个所述样本用户的设备语种标签、用户语种标签和地区语种标签中的一种或多种的组合，其中，所述用户语种标签基于待训练的语种识别模型对所述初始语音样本进行语种识别得到；基于所述设备语种标签、所述用户语种标签和所述地区语种标签中的一种或多种的组合，确定各个所述样本用户的识别语种标签。5.根据权利要求4所述的语种识别方法，其特征在于，所述基于所述设备语种标签、所述用户语种标签和所述地区语种标签中的一种或多种的组合，确定各个所述样本用户的识别语种标签，包括：按照设定的标签类型优先级，从所述设备语种标签、所述用户语种标签和所述地区语...

【专利技术属性】
技术研发人员：王俊东，
申请(专利权)人：百果园技术新加坡有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人