语义截断检测方法、装置、设备和计算机可读存储介质制造方法及图纸

技术编号：33156962 阅读：20 留言：0更新日期：2022-04-22 14:13

本发明专利技术提供了一种语义截断检测方法、装置、设备和计算机可读存储介质，语义截断检测方法包括获取待检测文本数据；获取第一语料数据并得到多个语义截断类型；判断待检测文本数据的语义截断类型；根据语义截断类型，通过预设规则和/或BERT分类模型对待检测文本数据进行检测，得到检测结果；BERT分类模型通过以下步骤得到：获取业务语料数据；对每条业务文本数据选取一个随机位置进行切分，构造得到正例句子对；选取任意两条业务文本数据，构造得到负例句子对；根据正例句子对和负例句子对构建训练集，将训练集输入至初始BERT模型中进行训练，得到BERT分类模型；能够更加准确地识别出用户的意图，减少因识别失败而增加的交互次数，提高用户的良好体验感。提高用户的良好体验感。提高用户的良好体验感。

全部详细技术资料下载

【技术实现步骤摘要】
语义截断检测方法、装置、设备和计算机可读存储介质

[0001]本专利技术涉及人工智能
，尤其涉及一种语义截断检测方法、装置、设备和计算机可读存储介质。

技术介绍

[0002]随着互联网时代的到来，人工智能逐渐应用于各行各业中，人们使用的终端设备从传统的个人计算机(Personal Computer，PC)、电视、电话转到了智能手机、智能穿戴等设备上来，网络信息也呈现出共享化、个性化、实时化、大数据化等特点。人们追求更高质量的生活，对服务也提出了更高的要求，能不能及时、准确地解决生活中遇到的问题是人们评价提供的服务好坏的重要指标。由于智能客服能够24小时在线为不同用户同时解决问题，能够高效地满足用户的需求，同时可以大大节省大量的人工客服成本。
[0003]而在目前的智能客服系统中，一般的交互流程是用户说完需求，然后智能客服机器人接收到用户语音信息后进行识别并提供对应的服务，但是由于用户说话特点的多样性以及实际应用场景的复杂性等多种因素，在实际交互过程中，经常会出现用户说了几个字后停顿了一下，正准备继续说时，客服机...

【技术保护点】

【技术特征摘要】
1.一种语义截断检测方法，其特征在于，包括：获取待检测文本数据；获取第一语料数据，根据所述第一语料数据得到多个语义截断类型，其中，所述第一语料数据为出现语义截断的历史文本数据；判断所述待检测文本数据所属的语义截断类型；根据所述语义截断类型，通过预设规则和/或预先训练好的BERT分类模型对所述待检测文本数据进行检测，得到所述待检测文本数据是否出现语义截断的检测结果；其中，所述BERT分类模型通过以下训练步骤得到：获取业务语料数据，其中，所述业务语料数据包括多条业务文本数据；对每条所述业务文本数据选取一个随机位置进行切分，构造得到正例句子对，其中，所述正例句子对为存在截断关系的上下句；选取任意两条所述业务文本数据，构造得到负例句子对，其中，所述负例句子对为非截断关系的上下句；根据所述正例句子对和所述负例句子对构建训练集，将所述训练集输入至初始BERT模型中进行训练，得到所述BERT分类模型。2.根据权利要求1所述的语义截断检测方法，其特征在于，所述多个语义截断类型包括第一截断类型、第二截断类型和第三截断类型，所述预设规则包括第一匹配字典、第二匹配字典和第三匹配字典，所述根据所述语义截断类型，通过预设规则和/或预先训练好的BERT分类模型对所述待检测文本数据进行检测，包括以下至少之一：若所述待检测文本数据属于第一截断类型，根据所述第一匹配字典对所述待检测文本数据进行匹配，其中，所述第一截断类型表示出现语气词；若所述待检测文本数据属于第二截断类型，根据所述第二匹配字典和所述BERT分类模型对所述待检测文本数据进行检测，其中，所述第二截断类型表示出现停顿或中断词汇；若所述待检测文本数据属于第三截断类型，根据所述第三匹配字典和所述BERT分类模型对所述待检测文本数据进行检测，其中，所述第三截断类型表示出现口语习惯词汇。3.根据权利要求2所述的语义截断检测方法，其特征在于，所述第一匹配字典预存有多个语气词；所述得到所述待检测文本数据是否出现语义截断的检测结果，包括：若所述待检测文本数据匹配到所述第一匹配字典中的语气词，则得到所述待检测文本数据出现语义截断的检测结果。4.根据权利要求2所述的语义截断检测方法，其特征在于，所述第二匹配字典预存有多个停顿词汇和中断词汇；所述根据所述第二匹配字典和所述BERT分类模型对所述待检测文本数据进行检测，包括：根据所述第二匹配字典对所述待检测文本数据的开头及结尾进行匹配；若所述待检测文本数据不能匹配到所述第二匹配字典中的词汇，通过所述BERT分类模型进行检测并输出概率预测得分，其中，所述概率预测得分包括截断预测得分和非截断预测得分；所述得到所述待检测文本数据是否出现语义截断的检测结果，包括：若所述截断预测得分高于或等于预设截断阈值，则得到所述待检测文本数据出现语义截断的检测结果。
5.根据权利要求2所述的语义截断检测方法，其特征在于，所述第三匹配字典预存有多个口语习惯词汇；所述根据所述第三匹配字典和所述BERT分类模型对所述待检测文本...

【专利技术属性】
技术研发人员：赵仕豪，马骏，王少军，
申请(专利权)人：平安科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人