一种基于文本相似度的意图识别方法技术

技术编号:21895656 阅读:21 留言:0更新日期:2019-08-17 16:00
本发明专利技术公开了一种基于文本相似度的意图识别方法,解决了ASR转为文本出现错误时产生的意图识别的错误问题,其技术方案要点是通过文本相似度算法来对用户语音进行识别,避免ASR在语音转为文本的过程中出现错误转换的问题。采用相似度算法来进行意图识别,从而提高意图识别的准确率。同时,若通过相似度算法识别失败,则将用户语音输入到深度学习网络训练的意图识别模型进行识别,进一步提高意图识别的准确率。

An Intention Recognition Method Based on Text Similarity

【技术实现步骤摘要】
一种基于文本相似度的意图识别方法
本公开涉及智能识别领域,尤其涉及一种基于文本相似度的意图识别方法。
技术介绍
目前,在智能对话领域,意图识别一般是单一的将语音信号通过ASR技术转成文本,而ASR转为文本存在一定的错误率,再对错误的文本进行单纯的文本识别会使意图识别的错误率大大提高。现有技术中,使用深度学习网络训练的模型来识别意图的方法非常之多,但这种意图识别方法略为单一,识别的准确率有待进一步提高。
技术实现思路
本公开的目的是提供一种基于文本相似度的意图识别方法,解决通过ASR转为文本存在错误而导致的意图识别错误的问题。本公开的上述技术目的是通过以下技术方案得以实现的:一种基于文本相似度的意图识别方法,包括:预定义意图类别,获取话术文本数据,将所述话术文本数据与所述意图类别进行相似度计算得到意图识别知识库;将用户语音转成用户问题文本,将所述用户问题文本与所述意图识别知识库进行相似度计算,得到意图识别结果;其中,所述相似度计算方法包括基于字符的相似度算法和基于词向量的相似度算法。进一步地,所述基于字符的相似度算法为基于编辑距离的相似度算法,包括:,其中q为所述用户问题文本,S为所述意图识别知识库中的句子,为q与S之间的最小编辑距离,len(q)为所述用户问题文本的文本长度,len(S)为所述意图识别知识库中句子的字符长度。进一步地,所述基于字符的相似度算法为基于相同词典的相似度算法,包括:,其中,为所述用户问题文本q分词之后的序列,为所述意图识别知识库中的句子S分词之后的序列,为序列qw中词的个数,len(Su)为序列Su中词的个数,为序列qw中与序列Su中词义相同的词的个数。进一步地,所述相似度计算结果为:;当时,得到所述意图识别结果,其中。进一步地,当且时,转到所述基于词向量的相似度算法进行意图识别,否则转到意图识别模型进行意图识别。进一步地,所述基于词向量的相似度算法为:为所述用户问题文本q分词之后的序列,为所述意图识别知识库中的句子S分词之后的序列,;所述q的向量Vq为:;其中,lq为所述q中词的个数,Wi为所述q中的词,Vqwi为所述Wi的向量值,W为权重,所述qwi的词性为动词或名词时,;所述qwi的词性为时间或方位时,;所述S的向量Vs为:;其中,ls为所述S中词的个数,ui为所述S中的词,Vsui为所述ui的向量值,u为权重,所述Sui的词性为动词或名词时,;所述Sui的词性为时间或方位时,;则所述q与所述S的相似度为:,当所述时,得到所述意图识别结果,其中,。进一步地,所述。进一步地,当所述意图识别失败时,将所述用户问题文本q投入到意图识别模型中进行识别,获取意图识别结果,所述意图识别模型由深度学习网络训练而成。综上所述,本公开的有益效果在于:通过文本相似度算法来对用户语音进行识别,避免ASR在语音转为文本的过程中出现错误转换的问题。采用相似度算法来进行意图识别,从而提高意图识别的准确率。同时,若通过相似度算法识别失败,则将用户语音输入到深度学习网络训练的意图识别模型进行识别,进一步提高意图识别的准确率。附图说明图1为基于文本相似度的意图识别流程图;图2为相似度算法与深度学习网络结合的意图识别流程图。具体实施方式以下结合附图对本公开作进一步详细说明。本公开的工作原理为:预定义意图类别,比如定义有“同行”、“在忙”、“问姓名”等意图类别,然后获取话术文本数据,然后将话术文本数据与预表1定义的意图类别进行相似度计算,得到意图识别知识库,表1即为意图类别与意图识别知识库文本对应的列表。最后采用意图识别知识库对用户语音进行相似度识别。本公开用到的相似度算法包括基于字符的相似度算法和基于词向量的相似度算法,其中基于字符的相似度算法包括基于编辑距离的相似度算法和基于相同词典的相似度算法,使用相似度算法的意图识别过程如图1所示。基于编辑距离的相似度算法主要为:,其中q为用户问题文本,S为意图识别知识库中的句子,为q与s之间的最小编辑距离,len(q)为用户问题文本的文本长度,len(s)为意图识别知识库中句子的字符长度。基于相同词典的相似度算法为:,其中,为用户问题文本q分词之后的序列,为意图识别知识库中的句子S分词之后的序列,为序列qw中词的个数,len(su)为序列Su中词的个数,为序列qw中与序列Su中词义相同的词的个数。则融合上述两种基于字符的相似度算法可以得到意图识别的结果为:。当且时,意图识别成功;当且时,转到基于词向量的相似度算法进行意图识别,否则转到意图识别模型进行意图识别。和为根据相似度算法预设的阈值。使用基于字符的相似度算法意图识别失败后,则转为使用基于词向量的相似度算法,主要为:为用户问题文本q分词之后的序列,为意图识别知识库中的句子S分词之后的序列,;则q的向量Vq为:;其中,lq为q中词的个数,Wi为所述q中的词,Vqwi为Wi的向量值,W为权重,qwi的词性为动词或名词时,;所述qwi的词性为时间或方位时,;同样S的向量VS为:;其中,lS为S中词的个数,ui为S中的词,Vsui为ui的向量值,u为权重,Sui的词性为动词或名词时,;Sui的词性为时间或方位时,;则q与S的相似度为:,当时,得到意图识别结果,其中,。作为具体实施例之一地,。若使用基于词向量的相似度算法的意图识别失败,则将用户问题文本q投入到意图识别模型中进行识别,获取意图识别结果,本公开使用的意图识别模型由深度学习网络训练而成,如图2所示。本公开在信用卡行业利用已经标注的数据集,包含训练集数据137737条,测试集数据11392条,意图类别数为55,训练的深度学习网络意图识别模型的准确率为79.97%,加上相似度计算后准确率提升到81.56%。在贷款行业,利用已经标注的数据集,包含训练集数据310556条,测试集数据22967条,意图类别数为51,训练的深度学习网络意图识别模型的准确率为92.10%,加上相似度计算后准确率提升到93.24%,如表2所示。领域训练集个数测试集个数意图类别个数深度学习网络意图识别模型准确率深度学习网络意图识别模型加上相似度计算准确率信用卡137737113925579.97%81.56%贷款310556229675192.10%93.24%表2以上为本公开示范性实施例,本公开的保护范围由权利要求书及其等效物限定。本文档来自技高网...

【技术保护点】
1.一种基于文本相似度的意图识别方法,其特征在于,包括:预定义意图类别,获取话术文本数据,将所述话术文本数据与所述意图类别进行相似度计算得到意图识别知识库;将用户语音转成用户问题文本,将所述用户问题文本与所述意图识别知识库进行相似度计算,得到意图识别结果;其中,所述相似度计算方法包括基于字符的相似度算法和基于词向量的相似度算法。

【技术特征摘要】
1.一种基于文本相似度的意图识别方法,其特征在于,包括:预定义意图类别,获取话术文本数据,将所述话术文本数据与所述意图类别进行相似度计算得到意图识别知识库;将用户语音转成用户问题文本,将所述用户问题文本与所述意图识别知识库进行相似度计算,得到意图识别结果;其中,所述相似度计算方法包括基于字符的相似度算法和基于词向量的相似度算法。2.如权利要求1所述的基于文本相似度的意图识别方法,其特征在于,所述基于字符的相似度算法为基于编辑距离的相似度算法,包括:,其中q为所述用户问题文本,S为所述意图识别知识库中的句子,为q与S之间的最小编辑距离,len(q)为所述用户问题文本的文本长度,len(q)为所述意图识别知识库中句子的字符长度。3.如权利要求2所述的基于文本相似度的意图识别方法,其特征在于,所述基于字符的相似度算法为基于相同词典的相似度算法,包括:,其中,为所述用户问题文本q分词之后的序列,为所述意图识别知识库中的句子S分词之后的序列,为序列qW中词的个数,len(Su)为序列Su中词的个数,为序列qW中与序列Su中词义相同的词的个数。4.如权利要求3所述的基于文本相似度的意图识别方法,其特征在于,所述相似度计算结果为:;当时,得...

【专利技术属性】
技术研发人员:司马华鹏姚奥
申请(专利权)人:南京硅基智能科技有限公司
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1