语义截断检测方法、装置、设备和计算机可读存储介质制造方法及图纸

技术编号:33156962 阅读:10 留言:0更新日期:2022-04-22 14:13
本发明专利技术提供了一种语义截断检测方法、装置、设备和计算机可读存储介质,语义截断检测方法包括获取待检测文本数据;获取第一语料数据并得到多个语义截断类型;判断待检测文本数据的语义截断类型;根据语义截断类型,通过预设规则和/或BERT分类模型对待检测文本数据进行检测,得到检测结果;BERT分类模型通过以下步骤得到:获取业务语料数据;对每条业务文本数据选取一个随机位置进行切分,构造得到正例句子对;选取任意两条业务文本数据,构造得到负例句子对;根据正例句子对和负例句子对构建训练集,将训练集输入至初始BERT模型中进行训练,得到BERT分类模型;能够更加准确地识别出用户的意图,减少因识别失败而增加的交互次数,提高用户的良好体验感。提高用户的良好体验感。提高用户的良好体验感。

【技术实现步骤摘要】
语义截断检测方法、装置、设备和计算机可读存储介质


[0001]本专利技术涉及人工智能
,尤其涉及一种语义截断检测方法、装置、设备和计算机可读存储介质。

技术介绍

[0002]随着互联网时代的到来,人工智能逐渐应用于各行各业中,人们使用的终端设备从传统的个人计算机(Personal Computer,PC)、电视、电话转到了智能手机、智能穿戴等设备上来,网络信息也呈现出共享化、个性化、实时化、大数据化等特点。人们追求更高质量的生活,对服务也提出了更高的要求,能不能及时、准确地解决生活中遇到的问题是人们评价提供的服务好坏的重要指标。由于智能客服能够24小时在线为不同用户同时解决问题,能够高效地满足用户的需求,同时可以大大节省大量的人工客服成本。
[0003]而在目前的智能客服系统中,一般的交互流程是用户说完需求,然后智能客服机器人接收到用户语音信息后进行识别并提供对应的服务,但是由于用户说话特点的多样性以及实际应用场景的复杂性等多种因素,在实际交互过程中,经常会出现用户说了几个字后停顿了一下,正准备继续说时,客服机器人却已经开始进行回复,此时用户的意图无法被正确识别,导致用户与客服机器人的交互次数增多,这容易给用户带来较差的体验感。但如果将客服机器人等待时间设置延长,用户说完需要等待客服机器人反馈的时间也相应增多,这同样会给用户带来较差的体验,降低用户的满意度。

技术实现思路

[0004]本专利技术旨在至少解决现有技术中存在的技术问题之一。为此,本专利技术提出一种语义截断检测方法、装置、设备和计算机可读存储介质,能够更加准确地识别出用户的意图,减少因识别失败而增加的交互次数,提高用户的良好体验感。
[0005]第一方面,本专利技术实施例提供了一种语义截断检测方法,包括:
[0006]获取待检测文本数据;
[0007]获取第一语料数据,根据所述第一语料数据得到多个语义截断类型,其中,所述第一语料数据为出现语义截断的历史文本数据;
[0008]判断所述待检测文本数据所属的语义截断类型;
[0009]根据所述语义截断类型,通过预设规则和/或预先训练好的BERT分类模型对所述待检测文本数据进行检测,得到所述待检测文本数据是否出现语义截断的检测结果;
[0010]其中,所述BERT分类模型通过以下训练步骤得到:
[0011]获取业务语料数据,其中,所述业务语料数据包括多条业务文本数据;
[0012]对每条所述业务文本数据选取一个随机位置进行切分,构造得到正例句子对,其中,所述正例句子对为存在截断关系的上下句;
[0013]选取任意两条所述业务文本数据,构造得到负例句子对,其中,所述负例句子对为非截断关系的上下句;
[0014]根据所述正例句子对和所述负例句子对构建训练集,将所述训练集输入至初始BERT模型中进行训练,得到所述BERT分类模型。
[0015]在一些实施例中,所述多个语义截断类型包括第一截断类型、第二截断类型和第三截断类型,所述预设规则包括第一匹配字典、第二匹配字典和第三匹配字典,所述根据所述语义截断类型,通过预设规则和/或预先训练好的BERT分类模型对所述待检测文本数据进行检测,包括以下至少之一:
[0016]若所述待检测文本数据属于第一截断类型,根据所述第一匹配字典对所述待检测文本数据进行匹配,其中,所述第一截断类型表示出现语气词;
[0017]若所述待检测文本数据属于第二截断类型,根据所述第二匹配字典和所述BERT分类模型对所述待检测文本数据进行检测,其中,所述第二截断类型表示出现停顿或中断词汇;
[0018]若所述待检测文本数据属于第三截断类型,根据所述第三匹配字典和所述BERT分类模型对所述待检测文本数据进行检测,其中,所述第三截断类型表示出现口语习惯词汇。
[0019]在一些实施例中,所述第一匹配字典预存有多个语气词;所述得到所述待检测文本数据是否出现语义截断的检测结果,包括:
[0020]若所述待检测文本数据匹配到所述第一匹配字典中的语气词,则得到所述待检测文本数据出现语义截断的检测结果。
[0021]在一些实施例中,所述第二匹配字典预存有多个停顿词汇和中断词汇;所述根据所述第二匹配字典和所述BERT分类模型对所述待检测文本数据进行检测,包括:
[0022]根据所述第二匹配字典对所述待检测文本数据的开头及结尾进行匹配;
[0023]若所述待检测文本数据不能匹配到所述第二匹配字典中的词汇,通过所述BERT分类模型进行检测并输出概率预测得分,其中,所述概率预测得分包括截断预测得分和非截断预测得分;
[0024]所述得到所述待检测文本数据是否出现语义截断的检测结果,包括:
[0025]若所述截断预测得分高于或等于预设截断阈值,则得到所述待检测文本数据出现语义截断的检测结果。
[0026]在一些实施例中,所述第三匹配字典预存有多个口语习惯词汇;所述根据所述第三匹配字典和所述BERT分类模型对所述待检测文本数据进行检测,包括:
[0027]根据所述第三匹配字典对所述待检测文本数据的结尾进行匹配;
[0028]若所述待检测文本数据不能匹配到所述第三匹配字典中的词汇,通过所述BERT分类模型进行检测并输出概率预测得分,其中,所述概率预测得分包括截断预测得分和非截断预测得分;
[0029]所述得到所述待检测文本数据是否出现语义截断的检测结果,包括:
[0030]若所述截断预测得分高于或等于预设截断阈值,则得到所述待检测文本数据出现语气截断的检测结果。
[0031]在一些实施例中,所述获取第一语料数据,根据所述第一语料数据得到多个语义截断类型,包括:
[0032]获取预标注的第一语料数据;
[0033]对所述第一语料数据进行预处理和分词处理,得到第二语料数据;
[0034]根据预设语义维度和所述第二语料数据,得到多个语义截断类型,其中,所述预设语义维度包括句长、首尾字、句式结构、词性顺序、频率分布至少之一。
[0035]在一些实施例中,所述BERT分类模型包括全连接层和两个Transformer层,所述将所述训练集输入至初始BERT模型中进行训练,包括:
[0036]将所述训练集中的数据输入至初始BERT模型中的Transformer层;
[0037]将最后一个所述Transformer层的输出向量输入至所述全连接层,输出两个类别的概率预测得分,其中,所述概率预测得分包括截断预测得分和非截断预测得分;
[0038]若所述截断预测得分高于或等于预设截断阈值,则输出表示出现语义截断的预测结果;
[0039]根据所述训练集和所述预测结果训练所述初始BERT模型。
[0040]在一些实施例中,所述语义截断检测方法还包括:
[0041]若所述检测结果表示所述待检测文本数据出现语义截断,则等待第一预设时间执行响应操作;
[0042]若所述检测结果表示所述本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语义截断检测方法,其特征在于,包括:获取待检测文本数据;获取第一语料数据,根据所述第一语料数据得到多个语义截断类型,其中,所述第一语料数据为出现语义截断的历史文本数据;判断所述待检测文本数据所属的语义截断类型;根据所述语义截断类型,通过预设规则和/或预先训练好的BERT分类模型对所述待检测文本数据进行检测,得到所述待检测文本数据是否出现语义截断的检测结果;其中,所述BERT分类模型通过以下训练步骤得到:获取业务语料数据,其中,所述业务语料数据包括多条业务文本数据;对每条所述业务文本数据选取一个随机位置进行切分,构造得到正例句子对,其中,所述正例句子对为存在截断关系的上下句;选取任意两条所述业务文本数据,构造得到负例句子对,其中,所述负例句子对为非截断关系的上下句;根据所述正例句子对和所述负例句子对构建训练集,将所述训练集输入至初始BERT模型中进行训练,得到所述BERT分类模型。2.根据权利要求1所述的语义截断检测方法,其特征在于,所述多个语义截断类型包括第一截断类型、第二截断类型和第三截断类型,所述预设规则包括第一匹配字典、第二匹配字典和第三匹配字典,所述根据所述语义截断类型,通过预设规则和/或预先训练好的BERT分类模型对所述待检测文本数据进行检测,包括以下至少之一:若所述待检测文本数据属于第一截断类型,根据所述第一匹配字典对所述待检测文本数据进行匹配,其中,所述第一截断类型表示出现语气词;若所述待检测文本数据属于第二截断类型,根据所述第二匹配字典和所述BERT分类模型对所述待检测文本数据进行检测,其中,所述第二截断类型表示出现停顿或中断词汇;若所述待检测文本数据属于第三截断类型,根据所述第三匹配字典和所述BERT分类模型对所述待检测文本数据进行检测,其中,所述第三截断类型表示出现口语习惯词汇。3.根据权利要求2所述的语义截断检测方法,其特征在于,所述第一匹配字典预存有多个语气词;所述得到所述待检测文本数据是否出现语义截断的检测结果,包括:若所述待检测文本数据匹配到所述第一匹配字典中的语气词,则得到所述待检测文本数据出现语义截断的检测结果。4.根据权利要求2所述的语义截断检测方法,其特征在于,所述第二匹配字典预存有多个停顿词汇和中断词汇;所述根据所述第二匹配字典和所述BERT分类模型对所述待检测文本数据进行检测,包括:根据所述第二匹配字典对所述待检测文本数据的开头及结尾进行匹配;若所述待检测文本数据不能匹配到所述第二匹配字典中的词汇,通过所述BERT分类模型进行检测并输出概率预测得分,其中,所述概率预测得分包括截断预测得分和非截断预测得分;所述得到所述待检测文本数据是否出现语义截断的检测结果,包括:若所述截断预测得分高于或等于预设截断阈值,则得到所述待检测文本数据出现语义截断的检测结果。
5.根据权利要求2所述的语义截断检测方法,其特征在于,所述第三匹配字典预存有多个口语习惯词汇;所述根据所述第三匹配字典和所述BERT分类模型对所述待检测文本...

【专利技术属性】
技术研发人员:赵仕豪马骏王少军
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1