【技术实现步骤摘要】
对话角色区分方法和系统
本专利技术涉及数据处理
,特别涉及对话角色区分方法和系统。
技术介绍
通常对话内容会涉及两个以上的对话角色,在一些场合需要针对某个对话角色的对白进行分析,因此,需要将对话角色进行区分。传统的对话角色区分方法主要通过识别说话者的声纹特征来区分说话者身份,并在语音转化为文本时根据说话者身份将对话内容的文本进行标签。专利技术人在实施本专利技术的过程中,发现现有的对话角色区分方法具有如下缺点:现有的对话角色区分方法需要对不同人的声纹特征进行采集,其易受不同人的身体状况、年龄、情绪等因素的影响以及环境噪音的干扰,此外,在混合说话人的情形下人的声纹特征不易提取,导致对话角色区分方法实现难度大,准确性低。
技术实现思路
本专利技术提出对话角色区分方法和系统,实现对话角色的区分,提高准确性。本专利技术一方面提供一种对话角色区分方法,所述方法包括:根据待分析对话的对白和区分性词语库获取所述待分析对话的对白的所有区分性词语;其中,所述区分性词语库包括预先获取的数量为第一设定数量的区分性词语;根据所述待分析对话的对白的所有区分性词语和预先根据对话语料库建立的对 ...
【技术保护点】
一种对话角色区分方法,其特征在于,所述方法包括:根据待分析对话的对白和区分性词语库获取所述待分析对话的对白的所有区分性词语;其中,所述区分性词语库包括预先获取的数量为第一设定数量的区分性词语;根据所述待分析对话的对白的所有区分性词语和预先根据对话语料库建立的对话角色判决模型获取与所述待分析对话的对白对应的对话角色的标签;其中,所述对话语料库包括多句标准对白和对应于各句所述标准对白的对话角色的标签;根据识别到的所述待分析对话的所有对白对应的对话角色的标签区分所述待分析对话中的对话角色。
【技术特征摘要】
1.一种对话角色区分方法,其特征在于,所述方法包括:根据待分析对话的对白和区分性词语库获取所述待分析对话的对白的所有区分性词语;其中,所述区分性词语库包括预先获取的数量为第一设定数量的区分性词语;根据所述待分析对话的对白的所有区分性词语和预先根据对话语料库建立的对话角色判决模型获取与所述待分析对话的对白对应的对话角色的标签;其中,所述对话语料库包括多句标准对白和对应于各句所述标准对白的对话角色的标签;根据识别到的所述待分析对话的所有对白对应的对话角色的标签区分所述待分析对话中的对话角色。2.如权利要求1所述的对话角色区分方法,其特征在于,所述根据所述待分析对话的对白的所有区分性词语和预先根据对话语料库建立的对话角色判决模型获取与所述待分析对话的对白对应的对话角色的标签,包括:分别获取所述待分析对话的对白的各个区分性词语在所述待分析对话的对白中的词频,作为第一组参量;对所述待分析对话的对白的各个所述区分性词语,分别获取对话语料库中具有对应的区分性词语的标准对白的数量;对所述待分析对话的对白的各个所述区分性词语,分别根据所述对话语料库的标准对白的总数和所述对话语料库中具有对应的区分性词语的标准对白的数量获取第二组参量;根据所述第一组参量和所述第二组参量生成所述待分析对话的对白的特征向量;将所述待分析对话的对白的特征向量输入至所述对话角色判别模型,以识别出与所述待分析对话的对白对应的对话角色的标签。3.如权利要求2所述的对话角色区分方法,其特征在于,所述方法还包括:响应于训练所述对话角色判别模型的指令,对所述区分性词语库的各个区分性词语,分别获取对应的区分性词语在所述对话语料库的各句所述标准对白中的词频,作为第三组参量;对所述区分性词语库的各个区分性词语,分别获取所述对话语料库中具有对应的区分性词语的标准对白的数量;对所述区分性词语库的各个区分性词语,分别根据所述对话语料库的标准对白的总数和所述对话语料库中具有对应的区分性词语的标准对白的数量获取第四组参量;根据所述第三组参量和所述第四组参量生成各句所述标准对白的特征向量;基于朴素贝叶斯算法,根据所述各句所述标准对白的特征向量和所述对应于各句所述标准对白的对话角色的标签训练所述对话角色判别模型。4.如权利要求3所述的对话角色区分方法,其特征在于,所述方法还包括:响应于获取所述区分性词语库的指令,对所述对话语料库的所有标准对白进行预处理,以得到所述对话语料库的所有词语;对所述对话语料库的各个词语,分别获取对应的词语在所述对话语料库的各句所述标准对白中的词频,作为第五组参量;对所述对话语料库的各个词语,分别获取所述对话语料库中具有对应的词语的标准对白的数量;对所述对话语料库的各个词语,分别根据所述对话语料库的标准对白的总数和所述对话语料库中具有对应的词语的标准对白的数量获取第六组参量;根据所述第五组参量和所述第六组参量生成各句所述标准对白的特征向量;基于信息增益法,根据各句所述标准对白的特征向量和所述对应于各句所述标准对白的对话角色的标签在所述对话语料库的所有词语中选取数量为所述第一设定数量的词语,以得到所述区分性词语库。5.如权利要求1-3任一项所述的对话角色区分方法,其特征在于,所述根据待分析对话的对白和区分性词语库获取所述待分析对话的对白的所有区分性词语,包括:对所述待分析对话的对白进行分词,以得到所述待分析对话的对白的所有词语;将所述待分析对话的对白的所有词语与所述区分性词语库的所有区分性词语进行匹配,以获取所述待分析对话的对白的区分性词语。6.一种对话角色区分系统,其特征在于,所述系统包括:第一获取模块,用于根据待分析对话的对白和区分性词语库获取...
【专利技术属性】
技术研发人员:英高海,
申请(专利权)人:广州杰赛科技股份有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。