针对多段式回复的问答内容标准性检测方法及装置制造方法及图纸

技术编号:35743752 阅读:17 留言:0更新日期:2022-11-26 18:47
本发明专利技术涉及一种针对多段式回复的问答内容标准性检测方法及装置,属于计算机领域。该方法为:1)构建标准问答对语料库,建立标准提问和标准回答的映射关系;2)对语音进行预处理,利用音色识别和语音识别技术,获得问者和答者的待检测提问文本和待检测回答文本;3)计算待检测提问文本和标准问答对语料库中每个标准提问文本的语义相似度,返回待检测提问文本对应的标准回答文本;4)对待检测回答文本和标准回答文本进行局部语义特征提取,利用多头自注意力机制对文本进行全局语义特征提取,再对融合后的语义特征计算语义相似度。本发明专利技术提供了一种服务过程中用户提问所得到的回答内容的标准性检测判断方法,以便提升用户服务的体验感和满意度。体验感和满意度。体验感和满意度。

【技术实现步骤摘要】
针对多段式回复的问答内容标准性检测方法及装置


[0001]本专利技术属于计算机领域,涉及针对多段式回复的问答内容标准性检测方法及装置。

技术介绍

[0002]现有技术中的自动问答系统一般是基于问答对语料库的文本对话系统,即用户输入文本,系统通过关键词检索和规则匹配,找到最优的匹配文本作为回答信息返回给用户。针对某些特定的问答交流过程,需要对问答交流整个流程进行跟踪,形成一个具有多段式回复的问答流程。对于多段式回复的问答内容标准性的检测,首先需要提取每个段落的各个语句间的语义特征。现有的技术方法在进行句子相似度识别时将句子的所有词汇作为相似度计算的基本单元,这种方式有两个缺点:其一,在句子中有许多无意义的助词,如“的”,“吧”等,这类词语会严重的干扰相似度的计算;其二,孤立的、单个词的词汇无法充分的表示句子的含义,这样会造成相似度计算的准确率下降。同时在多段式回复文本内容标准性检测中还需要提取各个段落之间的语义特征,每个段落由于在文本中的位置和顺序不同,导致对整个文本相似度的影响不同。并且,在各段落中,相同或相似的语句、用词及词频在不同的段落其语义权重(即表达文本语义的相对重要性)是不一样的。

技术实现思路

[0003]有鉴于此,本专利技术的目的在于提供一种针对多段式回复的问答内容标准性检测方法及装置,检测待识别语音信息中的多段式回复内容是否符合标准,以便更好的为用户服务,提高用户的服务体验。
[0004]为达到上述目的,本专利技术提供如下技术方案:
[0005]针对多段式回复的问答内容标准性检测方法,该方法包括以下步骤:
[0006]S1:针对应用场景中问答可能出现的各种提问,构建标准问答对语料库,建立标准提问和标准回答的映射关系;
[0007]S2:从设备获取音频信息,并利用音色识别技术对获取的音频进行检测,识别问者和答者,并划分问和答的语音段;然后进行语音识别,得到待检测提问文本和待检测回答文本;
[0008]S3:构建待检测提问识别模型,根据S1建立的提问和答案的映射关系,找到该提问的标准回答文本;
[0009]S4:针对S2返回的待检测回答文本和S3返回的标准回答文本,利用特征提取模型对两个文本分别进行局部特征提取和全局特征提取;
[0010]S5:将S4提取的语义特征输入到相似度计算模型中进行语义相似度计算,判断应用场景下问答内容是否符合标准性规范。
[0011]可选的,所述S1包括以下步骤:
[0012]S11:列举应用场景下问答过程中可能出现的各种提问,形成一个标准提问文本集
合Q={q1,q2,...,q
i
,...,q
n
},其中,n为提问数量,q
i
表示某个提问的文本向量,其中i=1,2,...,n;
[0013]S12:针对标准提问文本集合Q中的每一个提问q
i
,i=1,2,...,n,由专业人员给出标准回答;将这些标准回答的文本组成一个标准回答文本集合A={a1,a2,...,a
i
,...,a
n
},其中,n为回答文本的数量,a
i
表示对应的提问文本向量q
i
所对应的回答文本矩阵;
[0014]S13:通过构造提问和回答的映射关系,建立标准问答对语料库;针对某一特定的服务问题需求,问答对语料库中回答对是包含针对该服务的整个流程,形成一个具有多段式回复的问答流程,回答文本矩阵a
i
表示的是整个服务流程中的回答文本组成的多段式文本;标准问答对语料库中每个问答对表示为<q
i
,a
i
>,q
i
∈Q,a
i
∈A,其含义是第i个服务流程的提问文本q
i
对应的标准回答a
i

[0015]可选的,所述S2包括以下步骤:
[0016]S21:对拾音设备采集的音频进行端点检测,从带有噪声的语音中准确的定位出语音的开始点和结束点,去掉静音的部分和噪声的部分,找出一段语音中真正有效的内容;
[0017]S22:利用不同说话人声纹特征的不同,对语音信号进行说话人转折点检测,将语音信号分割成多个语音片段;
[0018]S23:利用语音识别技术将语音片段转化成文本,根据每个片段中对应说话人的不同,对每一段转化后的文字片段标注对应的说话角色标签;
[0019]S24:根据文本内容确定某项服务开始到结束的整个流程;在每一项服务开始之前,客服需要通过规定的用语来表示该项服务正式启动;同时,在用户服务结束之后,需要通过规定的用语表示该项服务办理完毕;
[0020]S25:当客服说完规定的用语,服务正式启动;一般来说,该句之后的说话角色标签变更为用户所对应的文本即为该项服务的具体内容,通过包含提问语义的关键词提取待检测提问文本q


[0021]S26:根据文本内容确定待检测回答文本a

;当前待检测提问文本q

所对应的下一段说话角色标签变更为工作人员的文本即为工作人员针对该提问文本q

的待检测回答文本a

;在服务结束之前,需要将整个服务流程中针对q

的回答整合成一个具有多段式回复的待检测回答文本a


[0022]可选的,所述S3中,采用BERT模型进行待检测提问识别,找出该提问的标准回答文本,具体包括以下步骤:
[0023]S31:将S25获得的待检测提问文本q

与标准提问文本集合Q中每个提问文本q
i
进行比较;首先将两文本切分成字数组,再将两个切分后的句子拼接得到一个新的样本,拼接后句子中首部的[CLS]是一个表示每个样本的开头标识符,[SEP]是样本中每个句子的结束标记符;假设需要比较的两提问分别为“您需要办理什么服务”和“您方便讲普通话吗”,拼接后的句子为:[CLS]您需要办理什么业务[SEP]您方便讲普通话吗[SEP];
[0024]S32:继续对S31得到的样本进行处理,将文本数据转化为固定长度的数字化的索引数据;[CLS]的索引是101,[SEP]的索引是102,不够固定样本长度的部分用0填补,将其称作Token Embeddings;再对两个需要进行比较的提问进行分割,分割操作是通过一个数组来标记,属于第一个提问标记为0,属于第二个提问标记为1,不足部分也用0进行填补,将其称作Segment Embeddings;同时,为编码输入序列的顺序性,需要将每个句子的每个词进行
编号处理,第一个词编号为1,第二个词编号为2,以此类推,这个操作叫做Position Embeddings;然后将上述三个Embeddings直接进行按元素相加,得到一个编码后的向量序列;
[0025]S33:将编码本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.针对多段式回复的问答内容标准性检测方法,其特征在于:该方法包括以下步骤:S1:针对应用场景中问答可能出现的各种提问,构建标准问答对语料库,建立标准提问和标准回答的映射关系;S2:从设备获取音频信息,并利用音色识别技术对获取的音频进行检测,识别问者和答者,并划分问和答的语音段;然后进行语音识别,得到待检测提问文本和待检测回答文本;S3:构建待检测提问识别模型,根据S1建立的提问和答案的映射关系,找到该提问的标准回答文本;S4:针对S2返回的待检测回答文本和S3返回的标准回答文本,利用特征提取模型对两个文本分别进行局部特征提取和全局特征提取;S5:将S4提取的语义特征输入到相似度计算模型中进行语义相似度计算,判断应用场景下问答内容是否符合标准性规范。2.根据权利要求1所述的针对多段式回复的问答内容标准性检测方法,其特征在于:所述S1包括以下步骤:S11:列举应用场景下问答过程中可能出现的各种提问,形成一个标准提问文本集合Q={q1,q2,...,q
i
,...,q
n
},其中,n为提问数量,q
i
表示某个提问的文本向量,其中i=1,2,...,n;S12:针对标准提问文本集合Q中的每一个提问q
i
,i=1,2,...,n,由专业人员给出标准回答;将这些标准回答的文本组成一个标准回答文本集合A={a1,a2,...,a
i
,...,a
n
},其中,n为回答文本的数量,a
i
表示对应的提问文本向量q
i
所对应的回答文本矩阵;S13:通过构造提问和回答的映射关系,建立标准问答对语料库;针对某一特定的服务问题需求,问答对语料库中回答对是包含针对该服务的整个流程,形成一个具有多段式回复的问答流程,回答文本矩阵a
i
表示的是整个服务流程中的回答文本组成的多段式文本;标准问答对语料库中每个问答对表示为<q
i
,a
i
>,q
i
∈Q,a
i
∈A,其含义是第i个服务流程的提问文本q
i
对应的标准回答a
i
。3.根据权利要求2所述的针对多段式回复的问答内容标准性检测方法,其特征在于:所述S2包括以下步骤:S21:对拾音设备采集的音频进行端点检测,从带有噪声的语音中准确的定位出语音的开始点和结束点,去掉静音的部分和噪声的部分,找出一段语音中真正有效的内容;S22:利用不同说话人声纹特征的不同,对语音信号进行说话人转折点检测,将语音信号分割成多个语音片段;S23:利用语音识别技术将语音片段转化成文本,根据每个片段中对应说话人的不同,对每一段转化后的文字片段标注对应的说话角色标签;S24:根据文本内容确定某项服务开始到结束的整个流程;在每一项服务开始之前,客服需要通过规定的用语来表示该项服务正式启动;同时,在用户服务结束之后,需要通过规定的用语表示该项服务办理完毕;S25:当客服说完规定的用语,服务正式启动;一般来说,该句之后的说话角色标签变更为用户所对应的文本即为该项服务的具体内容,通过包含提问语义的关键词提取待检测提问文本q

;S26:根据文本内容确定待检测回答文本a

;当前待检测提问文本q

所对应的下一段说
话角色标签变更为工作人员的文本即为工作人员针对该提问文本q

的待检测回答文本a

;在服务结束之前,需要将整个服务流程中针对q

的回答整合成一个具有多段式回复的待检测回答文本a

。4.根据权利要求3所述的针对多段式回复的问答内容标准性检测方法,其特征在于:所述S3中,采用BERT模型进行待检测提问识别,找出该提问的标准回答文本,具体包括以下步骤:S31:将S25获得的待检测提问文本q

与标准提问文本集合Q中每个提问文本q
i
进行比较;首先将两文本切分成字数组,再将两个切分后的句子拼接得到一个新的样本,拼接后句子中首部的[CLS]是一个表示每个样本的开头标识符,[SEP]是样本中每个句子的结束标记符;假设需要比较的两提问分别为“您需要办理什么服务”和“您方便讲普通话吗”,拼接后的句子为:[CLS]您需要办理什么业务[SEP]您方便讲普通话吗[SEP];S32:继续对S31得到的样本进行处理,将文本数据转化为固定长度的数字化的索引数据;[CLS]的索引是101,[SEP]的索引是102,不够固定样本长度的部分用0填补,将其称作Token Embeddings;再对两个需要进行比较的提问进行分割,分割操作是通过一个数组来标记,属于第一个提问标记为0,属于第二个提问标记为1,不足部分也用0进行填补,将其称作Segment Embeddings;同时,为编码输入序列的顺序性,需要将每个句子的每个词进行编号处理,第一个词编号为1,第二个词编号为2,以此类推,这个操作叫做Position Embeddings;然后将上述三个Embeddings直接进行按元素相加,得到一个编码后的向量序列;S33:将编码后的向量序列输入到BERT模型中,得到向量序列在每个位置对应的语义向量;S34:将头部特殊标记[CLS]对应的语义向量输入到神经网络的全连接层,得到维度为2的语义向量;然后输入到神经网络的Softmax层进行归一化操作,得到两个句子的相似的概率Similarity(q

,q
i
);S35:遍历提问文本集合Q中的每一个提问q
i
,根据公式arg
i
max(Similarity(q

,q
i
)),相似度最高的提问q
i
即为待检测提问文本q

在标准提问文本集合Q中对应的提问,利用标准问答对语料库的映射关系返回该提问q
i
对应的标准回答文本a
i
,该标准回答文本a
i
为待检测提问文本q

在标准问答对语料库所对应的标准回答。5.根据权利要求4所述的针对多段式回复的问答内容标准性检测方法,其特征在于:所述S4具体包括以下步骤:S41:对S2返回的待检测回答文本a

和S3返回的标准回答文本a
i
进行预处理,将多段式长文本切分成不同的段落,对应Tokenization部分;对长文本a
i
和a

中的每个段落进行分词处理,得到对应的文本表示矩阵和T

a


其中,矩阵表示文本a
i
对应的文本处理,矩阵的每一个元素T
lr
表示的是长文本a
i
中每个字或者词对应的文本表示;其中l=1,2,...,G;r=1,2,...,n;该文本共有G个段落,每个段落均被处理为n个分词,其中不足的部分用0补充,表示训练的时候不被关注;矩阵T

a

表示的是文本a
i
对应的文本表示,矩阵T

a

的每一个元素T

bd
表示的是长文本a

中每个字或者词对应的文本表示;其中b=1,2,...,H;d=l,2,...,m;该文本共有H个段落,每个段落均被处理为了m个分词,同理,其中不足的部分用0补充;S42:一个句子中的不同词汇对文本相似度计算的贡献是不同的;为区分词汇的重要程度,需为不同的词汇赋予不同的权重;一个长文本中的主题是根据关键词进行概括与总结的,通过比较不同词汇与长文本关键词的相似度,区分不同词汇对于整个句子以及整个文本的重要程度;利用关键词提取模型分别计算两文本a
i
和a

【专利技术属性】
技术研发人员:钱鹰温道洲姜美兰刘歆王毅峰伍曾伟陈雪熊炜
申请(专利权)人:重庆邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1