本发明专利技术提供了一种融合情感识别的多方会话可视化方法和系统,包括:把多方会话的录音分割为说话人交替的录音片段;将所述录音片段与预存的说话人的声纹进行比对,识别出所述录音片段中的不同说话人的语音;以6秒作为处理单位,把所述语音片段继续进行切分,得到各个语音处理单位;定义各个情感类别和对应的颜色,通过语音情感识别技术识别出各个语音处理单位中的情感类别;通过语音识别技术把所述语音处理单位转换成文字;根据语音处理单位所述对应的情感类别对所转换成的文字标注对应的颜色,并将同一说话人的标注颜色后的文字合并为同一段话,可实现高效、准确地将说话录音文件转换成文本的同时,记录相应的情感信息。
【技术实现步骤摘要】
融合情感识别的多方会话可视化方法和系统
本专利技术涉及一种融合情感识别的多方会话可视化方法和系统。
技术介绍
在企业的呼叫中心,通话过程全程录音后形成录音文件,但这种录音文件转换成的文本无法记录说话人的情感信息。
技术实现思路
本专利技术的目的在于提供一种融合情感识别的多方会话可视化方法和系统。为解决上述问题,本专利技术提供一种融合情感识别的多方会话可视化方法,包括:基于说话人的语音识别技术,把多方会话的录音分割为说话人交替的录音片段;将所述录音片段与预存的说话人的声纹进行比对,识别出所述录音片段中的不同说话人的语音;以6秒作为处理单位,把所述语音片段继续进行切分,得到各个语音处理单位;定义各个情感类别和对应的颜色,通过语音情感识别技术识别出各个语音处理单位中的情感类别;通过语音识别技术把所述语音处理单位转换成文字;根据语音处理单位所述对应的情感类别对所转换成的文字标注对应的颜色,并根据识别出所述录音片段中的不同说话人的语音,将同一说话人的标注颜色后的文字合并为同一段话。进一步的,在上述方法中,基于说话人的语音识别技术,把多方会话的录音分割为说话人交替的录音片段,包括:基于BIC技术,把多方会话的录音分割为说话人交替的录音片段。进一步的,在上述方法中,以6秒作为处理单位,把所述语音片段继续进行切分,得到各个语音处理单位,包括:根据沉默相对于人声的分贝差;找出语音片段中讲话的停顿位置;删除语音片段中长时间沉默的片段;进而,把剩余的语音片段分割为不超过6秒的语音处理单位。进一步的,在上述方法中,所述情感类别包括:高兴、平静、生气、害怕和恐惧。进一步的,在上述方法中,将所述录音片段与预存的说话人的声纹进行比对,识别出所述录音片段中的不同说话人的语音,包括:基于微软的说话人识别技术,将所述录音片段与预存的说话人的声纹进行比对,识别出所述录音片段中的不同说话人的语音。根据本专利技术的另一面,提供一种融合情感识别的多方会话可视化系统,包括:第一装置,用于基于说话人的语音识别技术,把多方会话的录音分割为说话人交替的录音片段;第二装置,用于将所述录音片段与预存的说话人的声纹进行比对,识别出所述录音片段中的不同说话人的语音;第三装置,用于以6秒作为处理单位,把所述语音片段继续进行切分,得到各个语音处理单位;第四装置,用于定义各个情感类别和对应的颜色,通过语音情感识别技术识别出各个语音处理单位中的情感类别;第五装置,用于通过语音识别技术把所述语音处理单位转换成文字;第六装置,用于根据语音处理单位所述对应的情感类别对所转换成的文字标注对应的颜色,并根据识别出所述录音片段中的不同说话人的语音,将同一说话人的标注颜色后的文字合并为同一段话。进一步的,在上述系统中,所述第一装置,用于基于BIC技术,把多方会话的录音分割为说话人交替的录音片段。进一步的,在上述系统中,所述第三装置,用于根据沉默相对于人声的分贝差;找出语音片段中讲话的停顿位置;删除语音片段中长时间沉默的片段;进而,把剩余的语音片段分割为不超过6秒的语音处理单位。进一步的,在上述系统中,所述情感类别包括:高兴、平静、生气、害怕和恐惧。进一步的,在上述系统中,所述第二装置,用于基于微软的说话人识别技术,将所述录音片段与预存的说话人的声纹进行比对,识别出所述录音片段中的不同说话人的语音。与现有技术相比,本专利技术通过基于说话人的语音识别技术,把多方会话的录音分割为说话人交替的录音片段;将所述录音片段与预存的说话人的声纹进行比对,识别出所述录音片段中的不同说话人的语音;以6秒作为处理单位,把所述语音片段继续进行切分,得到各个语音处理单位;定义各个情感类别和对应的颜色,通过语音情感识别技术识别出各个语音处理单位中的情感类别;通过语音识别技术把所述语音处理单位转换成文字;根据语音处理单位所述对应的情感类别对所转换成的文字标注对应的颜色,并根据识别出所述录音片段中的不同说话人的语音,将同一说话人的标注颜色后的文字合并为同一段话,可实现高效、准确地将说话录音文件转换成文本的同时,记录相应的情感信息。附图说明图1是本专利技术一实施例的融合情感识别的多方会话可视化方法和系统的可视化结果图;图2是本专利技术一实施例的跳变点的示意图;图3是本专利技术一实施例的识别出所述录音片段中的不同说话人的语音的示意图;图4是本专利技术一实施例的得到各个语音处理单位的示意图;图5是本专利技术一实施例的识别出各个语音处理单位中的情感类别的示意图;图6是本专利技术一实施例的把所述语音处理单位转换成文字的示意图;图7是本专利技术一实施例的通把所述语音处理单位转换成文字的可视化结果图。具体实施方式为使本专利技术的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本专利技术作进一步详细的说明。本专利技术提供一种融合情感识别的多方会话可视化方法,包括:步骤S1,基于说话人的语音识别技术,把多方会话的录音分割为说话人交替的录音片段;在此,所述说话人的语音识别技术可以是BIC技术,见https://blog.csdn.net/wblgers1234/article/details/77103444,以图1的对话为例,录音文件经过分割后,得到如图2所示跳变点t1、t2、t3、t4、t5、t6;步骤S2,将所述录音片段与预存的说话人的声纹进行比对,识别出所述录音片段中的不同说话人的语音;在此,通过说话人识别技术(比如微软的https://azure.microsoft.com/zh-cn/services/cognitive-services/speaker-recognition/?cdn=disable),将所述录音片段与预存的说话人的声纹进行比对,识别录音片段的客服(CS)/客户(CU)身份;对图1的录音识别出各片段的客服(CS)/客户(CU)身份,如图3所示;步骤S3,以6秒作为处理单位,把所述语音片段继续进行切分,得到各个语音处理单位;在此,首先,根据沉默相对于人声的分贝差(比如,-30dB),找出语音片段中讲话的停顿位置;然后,删除语音片段中长时间沉默的片段;进而,把剩余的语音片段分割为不超过6秒的语音处理单位,其中,如图4所示,每个语音处理单位的开始和结束位置为所述讲话的停顿位置;步骤S4,定义各个情感类别和对应的颜色,通过语音情感识别技术识别出各个语音处理单位中的情感类别;在此,可以定义5个情感类别:高兴(h)、平静(n)、生气(a)、害怕(s)、恐惧(f),通过语音情感识别技术(比如GMM算法,https://blog.csdn.net/joyjun_1/article/details/81346352)处理语音处理单位,识别出如图5所示当前情感类别;在企业的呼叫中心,通话过程全程录音后形成录音文件,企业的质检人员除了听取录音外,也希望把语音转写为带有情感信息的富文本(RichText),例如,某客户打电话查询一个号码,通话过程可以转写为下面的富文本,不同颜色代表不同的情感:红色代表生气,灰色代表失落,黑色代表正常情绪;步骤S5,如图6和7所示,通过语音识别技术把所述语音处理单位转换成文字;在此,步骤S5和步骤S4可并行执行;步骤S6,根据语音处理单位所述对应的情感类别对所转换成的文字标注对应的颜色,例如,红色代表生气,灰色代表失落,黑色本文档来自技高网...
【技术保护点】
1.一种融合情感识别的多方会话可视化方法,其特征在于,包括:基于说话人的语音识别技术,把多方会话的录音分割为说话人交替的录音片段;将所述录音片段与预存的说话人的声纹进行比对,识别出所述录音片段中的不同说话人的语音;以6秒作为处理单位,把所述语音片段继续进行切分,得到各个语音处理单位;定义各个情感类别和对应的颜色,通过语音情感识别技术识别出各个语音处理单位中的情感类别;通过语音识别技术把所述语音处理单位转换成文字;根据语音处理单位所述对应的情感类别对所转换成的文字标注对应的颜色,并根据识别出所述录音片段中的不同说话人的语音,将同一说话人的标注颜色后的文字合并为同一段话。
【技术特征摘要】
1.一种融合情感识别的多方会话可视化方法,其特征在于,包括:基于说话人的语音识别技术,把多方会话的录音分割为说话人交替的录音片段;将所述录音片段与预存的说话人的声纹进行比对,识别出所述录音片段中的不同说话人的语音;以6秒作为处理单位,把所述语音片段继续进行切分,得到各个语音处理单位;定义各个情感类别和对应的颜色,通过语音情感识别技术识别出各个语音处理单位中的情感类别;通过语音识别技术把所述语音处理单位转换成文字;根据语音处理单位所述对应的情感类别对所转换成的文字标注对应的颜色,并根据识别出所述录音片段中的不同说话人的语音,将同一说话人的标注颜色后的文字合并为同一段话。2.如权利要求1所述的融合情感识别的多方会话可视化方法,其特征在于,基于说话人的语音识别技术,把多方会话的录音分割为说话人交替的录音片段,包括:基于BIC技术,把多方会话的录音分割为说话人交替的录音片段。3.如权利要求1所述的融合情感识别的多方会话可视化方法,其特征在于,以6秒作为处理单位,把所述语音片段继续进行切分,得到各个语音处理单位,包括:根据沉默相对于人声的分贝差;找出语音片段中讲话的停顿位置;删除语音片段中长时间沉默的片段;进而,把剩余的语音片段分割为不超过6秒的语音处理单位。4.如权利要求1所述的融合情感识别的多方会话可视化方法,其特征在于,所述情感类别包括:高兴、平静、生气、害怕和恐惧。5.如权利要求1所述的融合情感识别的多方会话可视化方法,其特征在于,将所述录音片段与预存的说话人的声纹进行比对,识别出所述录音片段中的不同说话人的语音,包括:基于微软的说话人识别技术,将所述录音片段与预存的说话人的声...
【专利技术属性】
技术研发人员:艾旭升,马兆鹏,凌霞,
申请(专利权)人:苏州工业职业技术学院,
类型:发明
国别省市:江苏,32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。