说话人数目的判断方法技术

技术编号：16646679 阅读：68 留言：0更新日期：2017-11-26 21:59

本发明专利技术公开了一种说话人数目的判断方法，包括如下步骤：接收语音数字信号，并对数字信号进行预处理；提取预处理后的语音信号特征；根据所述语音信号特征，将所述语音信号进行初步分割和初步聚类；判断说话人数目是否为多人，若是，所述多人语音特征聚类，判断出说话人的数目，若否，判断出说话人数目是单人或双人；其中，多人为三人或三人以上。本发明专利技术提供解决对于双说话人场景或多说话人场景，判断的说话人数目不准确的问题，提高判断说话人数目的准确度。

Method of judging the number of speakers

The invention discloses a speech number judgment method comprises the following steps: receiving a voice digital signal, and the digital signal processing; feature extraction of speech signal pretreatment; according to the characteristics of the speech signal, the speech signal is preliminary segmentation and preliminary judgment for speaker clustering; whether the number of people if so, the phonetic features, many people judge the number of clustering, the speaker, if not, determine the number of speakers is single or double; among them, more than three or more than three people. The invention provides a solution to the inaccuracy of the number of speakers judged by the double speaker scene or the multi speaker scene, so as to improve the accuracy of judging the number of speakers.

全部详细技术资料下载

【技术实现步骤摘要】
说话人数目的判断方法
本专利技术涉及语音信号处理、模式识别等
，特别涉及一种基于说话人分割和聚类的说话人数目判断方法。
技术介绍
随着语音处理技术的不断发展，说话人数目的准确判断，能够帮助分析语音记录的场景，优化说话人分离的效果，从而制定相应的策略提升识别的效果。例如，电话记录的双说话人场景；或者会议记录的多说话人场景。现有的说话人数目判断方法中数目判断结果的准确性完全依赖于说话人分割和聚类的准确性，而由于说话人分割受到步长的影响，步长多是根据经验确定，所以难免出现不合适的情况，从而影响分割及后面的聚类准确性，最终使得说话人数目判断出现误差。
技术实现思路
本专利技术提供一种说话人数目的判断方法，解决对于双说话人场景或多说话人场景，判断的说话人数目不准确的问题，提高判断说话人数目的准确度。本专利技术采用如下技术方案：一种说话人数目的判断方法，包括如下步骤：接收语音数字信号，并对数字信号进行预处理；提取预处理后的语音信号特征；根据所述语音信号特征，将所述语音信号进行初步分割和初步聚类；判断说话人数目是否为多人，若是，所述多人语音特征聚类，判断出说话人的数目，若否，...
说话人数目的判断方法

【技术保护点】
说话人数目的判断方法，其特征在于，包括如下步骤：接收语音数字信号，并对数字信号进行预处理；提取预处理后的语音信号特征；根据所述语音信号特征，将所述语音信号进行初步分割和初步聚类；判断说话人数目是否为多人，若是，所述多人语音特征聚类，判断出说话人的数目，若否，判断出说话人数目是单人或双人；其中，多人为三人或三人以上。

【技术特征摘要】
1.说话人数目的判断方法，其特征在于，包括如下步骤：接收语音数字信号，并对数字信号进行预处理；提取预处理后的语音信号特征；根据所述语音信号特征，将所述语音信号进行初步分割和初步聚类；判断说话人数目是否为多人，若是，所述多人语音特征聚类，判断出说话人的数目，若否，判断出说话人数目是单人或双人；其中，多人为三人或三人以上。2.如权利要求1所述的说话人数目的判断方法，其特征在于，所述判断说话人数目是否为多人的步骤包括：对语音信号的特征重新聚类；利用总体变化因子模型提取当前各语音信号类的说话人因子向量；根据所述说话人因子向量之间的距离计算不同语音信号类之间的相似度；如果得到的最大相似度大于设定的第一阈值，则将最大相似度对应的两个语音信号类进行合并；然后重复计算过程；否则，计算过程结束。3.如权利要求1所述的说话人数目的判断方法，其特征在于，所述多人语音特征聚类，判断出说话人的数目的步骤为：利用总体变...

【专利技术属性】
技术研发人员：李权，杨有科，余亮，谢泽鑫，陈杰永，冯国梁，邹月荣，郭清霞，陈元林，
申请(专利权)人：广东讯飞启明科技发展有限公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人