【技术实现步骤摘要】
一种用于智能语音助手的对话短文本语句匹配方法
[0001]本专利技术属于人工智能
,涉及深度学习,自然语言处理,语句匹配
,具体涉及一种用于智能语音助手的对话短文本语句匹配方法。
技术介绍
[0002]智能语音助手可以为用户提供有趣、贴心、便捷的对话式服务,而对话短文本语句匹配是对话系统中的一个核心任务。语音助手在接收了用户的自然语言表达的Query,解析用户意图和进行问题处理后,会获取相关知识,应用语句匹配技术通过相关检索、知识库匹配和推理,最终形成自然语言表达的答案。基于对话短文本的语句匹配是一个有挑战性的任务,因为用户的Query通常非常短,而且缺少足够的信息,需要系统准确理解上下文,再做出最终的判断。
[0003]传统的语句匹配技术精度低,处理时间较长的问题,因此亟需一种匹配精度高且处理速度快的对话短文本语句匹配方法。
技术实现思路
[0004]有鉴于此,本专利技术的目的在于提供一种用于智能语音助手的对话短文本语句匹配方法,使得对话短文本语句匹配能有更高的准确率,从而解决传统语句匹 ...
【技术保护点】
【技术特征摘要】
1.一种用于智能语音助手的对话短文本语句匹配方法,其特征在于,该方法具体包括以下步骤:S1:对智能语音助手对话系统中的文本数据进行向量化,使用堆叠CNN和并行CNN提取文本的短语特征;S2:使用堆叠的BiLSTM提取上下文特征,再经过新的句内自注意力机制,提取文本内部的关键特征;S3:使用句间注意力机制提取交互特征,并通过压缩函数将多个交互特效进行聚合压缩,得到文本的匹配特征;S4:将匹配特征输入MLP中,预测出文本的标签并进行后处理。2.根据权利要求1所述的对话短文本语句匹配方法,其特征在于,步骤S1中,使用堆叠CNN和并行CNN提取文本的短语特征,具体包括以下步骤:S111:获取文本的词向量和句法特征向量,句法特征向量由词性标注的one
‑
hot向量和二进制精确匹配特征向量组成;最终的文本向量w表示为:w=[d
word
;d
pos
;d
em
]其中,d
word
为词向量,d
pos
为词性标注向量,d
em
为精确匹配特征向量;S112:使用堆叠的CNN来捕获长度为k的短语级表示,每层的卷积核大小都为k,假设共有n个卷积层,每层的输出表示为:其中,每层的输入为上一层的输出,为w,最终提取到的是长度为k的短语特征为p
d
;S113:使用并行的CNN来提取不同长度的短语级表示,每个卷积层具有不同的卷积核大小,假设有n个卷积层,则卷积核大小分别为k、k+1、
…
、k+n
‑
1,最终提取到的不同长度的短语特征为其中,为卷积核大小为k的卷积层的输出,依此类推;S114:将所有的短语特征拼接起来,最终短语特征p表示为:S115:通过两层全连接层对短语特征向量进行降维,降维公式为:p
l
=max(0,p
l
‑1W1+b1)W2+b2,l=1,2其中,W1、W2为连接权重矩阵,b1、b2为偏置项;p
l
为第l层的输出,p0=p,最终得到尺寸为[batch_size,seq_len,hidden_size]的向量,其中batch_size为样本数量,seq_len为样本长度,hidden_size为BiLSTM隐藏层大小。3.根据权利要求1所述的对话短文本语句匹配方法,其特征在于,步骤S2中,提取上下文特征和关键特征,具体包括以下步骤:S21:使用n层BiLSTM提取上下文特征,每层的输出表示为:t
h
=BiLSTM
h
(t
h
‑1),h=1,
…
,n其中,每一层的输入为上一层的输出,第一层的输入t0=p2,p表示短语特征;S22:采用BiLSTM+attention的模型来计算句内自注意力匹配权重,匹配计算采用双线性函数方法,公式如下:
其中,c为第l层BiLSTM编码的最后一个时刻单元的状态值,与中间每一个时刻的输出h进行匹配计算,M为权重参数,b为偏执项,匹配结果进行softma...
【专利技术属性】
技术研发人员:王进,刘麒麟,孙开伟,邓欣,杜雨露,
申请(专利权)人:重庆邮电大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。