一种语句意图识别方法和电子设备技术

技术编号:34458416 阅读:52 留言:0更新日期:2022-08-06 17:10
本发明专利技术公开一种语句意图识别方法和电子设备,属于自然语言处理技术领域。针对现有技术中存在的语句意图识别计算量大,且准确率不高的问题,本发明专利技术根据拆句模型数据集训练得到拆句模型;根据多标签分类模型数据集训练得到多标签分类模型;所述拆句模型获取第一数据,并对所述第一数据中的多个语句表示多个意图的多意图语句进行拆分,获得第二数据;所述多标签分类模型获取所述第二数据,并对所述第二数据中的单意图语句、单个语句表示多个意图的多意图语句中的一种或两种进行识别,获得所述第一数据的意图。本发明专利技术避免了语句识别中,单一模型无法处理所有语句类型的情况,解决了语句意图识别准确率不高的问题,客观上提升了用户体验。户体验。户体验。

【技术实现步骤摘要】
一种语句意图识别方法和电子设备


[0001]本专利技术涉及自然语言处理
,更具体地说,涉及一种语句意图识别方法和电子设备。

技术介绍

[0002]对话系统在实际应用时,经常会面临用户想同时表达多个意图的情形,即一句话中想表达多个意思。比如在智能音箱控制
,用户想要同时控制两个家电,或者控制同一家电执行不同的操作。又比如在智能客服
,用户想同时询问两件事情。
[0003]苹果的Siri、亚马逊的Alexa等语音交互助手的广泛应用宣告着语音交互时代已经到来。语音交互的总体流程大致可分为语音识别(Automatic Speech Recognition,ASR)、语义理解(Natural Language Understanding,NLU)、对话管理(Dialogue Management,DM)和语音合成(Text

To

Speech,TTS)四个步骤。其中,ASR是将用户说出的话语转化为文本,NLU是理解用户的意图并抽取语音转化文本中的关键信息,DM是对机器和用户的对话进行管理,本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种语句意图识别方法,其特征在于,包括以下步骤:获取拆句模型数据集,根据拆句模型数据集训练得到拆句模型;获取多标签分类模型数据集,根据多标签分类模型数据集训练得到多标签分类模型;所述拆句模型获取第一数据,并对所述第一数据中的多个语句表示多个意图的多意图语句进行拆分,获得第二数据;所述多标签分类模型获取所述第二数据,并对所述第二数据中的单意图语句、单个语句表示多个意图的多意图语句中的一种或两种进行识别,获得所述第一数据的意图。2.根据权利要求1所述的一种语句意图识别方法,其特征在于,所述获取拆句模型数据集,包括:对所述单意图语句、所述单个语句表示多个意图的多意图语句和所述多个语句表示多个意图的多意图语句进行标注,所有标注后的语句形成所述拆句模型数据集。3.根据权利要求2所述的一种语句意图识别方法,其特征在于,所述对述单意图语句、所述单个语句表示多个意图的多意图语句和所述多个语句表示多个意图的多意图语句进行标注,包括:根据语句中字符的位置,在语句的句首标注B标签,语句的句中标注I标签,语句的句尾标注E标签。4.根据权利要求3所述的一种语句意图识别方法,其特征在于,所述根据语句中字符的位置,在语句的句首标注B标签,语句的句中标注I标签,语句的句尾标注E标签,通过相似样本训练实现。5.根据权利要求1所述的一种语句意图识别方法,其特征在于,所述拆句模型数据集包括训练集和验证集,拆句模型训练集用于训练所述拆句模型,拆句模型验证集用于对所述拆句模型进行迭代训练;所述对所述拆句模型进行迭代训练,包括:通过训练得到的拆句模型对所述拆句模型验证集进行意图识别,统计所有识别错误语句的数量,计算所有识别错误语句在所述拆句模型验证集中的占比,若占比小于预设阈值,则不迭代训练;否则,在所述拆句模型数据集中加入一定数量的拆句样本,更新所述拆句模型训练集和所述拆句模型验证集,通过更新后的所述拆句模型训练集重新进行拆句模型训练,通过再次训练后的拆句模型对更新后的所述拆句模型验证集进行意图识别,通过不断迭代训练,直到在所述拆句模型对所述拆句模型验证集中的识别错误语句比例小...

【专利技术属性】
技术研发人员:孟禹光马雪超
申请(专利权)人:上海弘玑信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1