会话分割模型的测试方法、装置、设备及介质制造方法及图纸

技术编号：38467740 阅读：20 留言：0更新日期：2023-08-11 14:44

本发明专利技术提供一种会话分割模型的测试方法、装置、设备及介质，涉及自然语言处理技术领域。该方法包括：针对第一数据集中参与对话的每个角色，利用角色的第一文本数据的目标词语，对角色的第二文本数据进行加噪处理，得到第一测试集；其中，第一文本数据为第二文本数据的前一条文本数据，目标词语为第一文本数据中与第二文本数据存在差异的词语；根据第二数据集和预设文本生成模型，获得第二测试集；基于第一测试集和第二测试集，对会话分割模型进行测试，获得测试结果。本发明专利技术的方法可以保证测试数据的相关性和客观性，同时避免人工测试造成的主观评价，提高测试效率，降低测试成本。降低测试成本。降低测试成本。

全部详细技术资料下载

【技术实现步骤摘要】
会话分割模型的测试方法、装置、设备及介质

[0001]本专利技术涉及自然语言处理
，尤其是涉及一种会话分割模型的测试方法、装置、设备及介质。

技术介绍

[0002]客服会话质检是对客服人员与用户的会话（语音或文字）进行质量检查。在此任务中，其重要一环是利用算法模型对客服录音经自动语音识别（Automatic Speech Recognition，ASR）后的文本进行会话分割。会话分割的效果直接影响到质检效果，因此需要对会话分割模型的质量进行测试。
[0003]现有会话分割模型的测试方法，测试过程中的数据抽样、测试语料的生等的由测试者基于自身经验进行处理，人工主观性较强，不能客观反映模型效果。

技术实现思路

[0004]本专利技术的目的在于提供一种会话分割模型的测试方法、装置、设备及介质，用以解决现有会话分割模型的测试方法存在的无法客观反映模型效果的问题。
[0005]为了达到上述目的，第一方面，本专利技术提供一种会话分割模型的测试方法，包括：针对第一数据集中参与对话的每个角色，利用所述角...

【技术保护点】

【技术特征摘要】
1.一种会话分割模型的测试方法，其特征在于，包括：针对第一数据集中参与对话的每个角色，利用所述角色的第一文本数据的目标词语，对所述角色的第二文本数据进行加噪处理，得到第一测试集；其中，所述第一文本数据为所述第二文本数据的前一条文本数据，所述目标词语为所述第一文本数据中与所述第二文本数据存在差异的词语；根据第二数据集和预设文本生成模型，获得第二测试集；其中，所述第一数据集包括的文本数据和所述第二数据集包括的文本数据均为第一对话语料中的文本数据；基于所述第一测试集和所述第二测试集，对会话分割模型进行测试，获得测试结果。2.根据权利要求1所述的方法，其特征在于，所述针对第一数据集中参与对话的每个角色，利用所述角色的第一文本数据的目标词语，对所述角色的第二文本数据进行加噪处理，得到第一测试集，包括：针对第一数据集中参与对话的每个角色，计算所述第一文本数据与所述第二文本数据的相似度；根据所述第一文本数据与所述第二文本数据的相似度，抽取所述第一文本数据的目标词语；将所述目标词语加入至所述第二文本数据，得到第一测试集。3.根据权利要求2所述的方法，其特征在于，所述根据所述第一文本数据与所述第二文本数据的相似度，抽取所述第一文本数据的目标词语，包括：在所述第一文本数据与所述第二文本数据的相似度大于或者等于预设阈值的情况下，根据所述第一文本数据的文本长度和所述第二文本数据的文本长度，确定所述第一文本数据与所述第二文本数据存在差异的位置，并抽取所述差异的位置处的词语作为目标词语；在所述第一文本数据与所述第二文本数据的相似度小于所述预设阈值的情况下，抽取所述第一文本数据的句尾词语作为目标词语。4.根据权利要求1所述的方法，其特征在于，所述根据第二数据集和预设文本生成模型，获得第二测试集，包括：利用所述预设文本生成模型，将所述第二数据集生成具有系统语义的文本数据集；将所述具有系统语义的文本数据集确定为所述第二测试集。5.根据权利要求4所述的方法，其特征在于，所述利用所述预设文本生成模型，将所述第二数据集生成具有系统语义的文本数据集，包括：针对所述第二数据集中的每条文本数据，将所述文本数据合成携带文本生成指示信息的文本数据；将所述携带文本生成指示信息的文本数据输入至所述预设文本生成模型，生成具有系统语义的文本数据，获得的具有系统语义的...

【专利技术属性】
技术研发人员：贾敬伍，张杰，于皓，
申请(专利权)人：北京中关村科金技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人