【技术实现步骤摘要】
一种改写模型的构建方法及装置
本专利技术涉及深度学习
,特别是涉及一种改写模型的构建方法及装置。
技术介绍
随着搜索引擎的不断发展和智能手机的普及,用户通常会通过安装于智能手机中的搜索软件实现各种信息的搜索。但是,用户提交至搜索引擎的查询可能是口语化描述的自然语言查询,这会给搜索引擎带来不小的挑战。因为通常的搜索引擎更适用于输入由精准关键词组成的查询,由自然语言描述的查询会导致较差的返回结果,降低查询准确性。因此,现急需提供一种改写模型以对用户输入的较口语化的查询语句进行改写。
技术实现思路
本专利技术提供了一种改写模型的构建方法及装置以克服上述问题或者至少部分地解决上述问题。根据本专利技术的一个方面,提供了一种改写模型的构建方法,包括:构建编码器,在接收到初始查询语句中各词语对应的词向量后,由所述编码器对所述各词语对应的词向量进行编码并将所述各词向量分别表示为输入隐向量;构建对所述输入隐向量进行解码的解码器,通过所述解码器分别基于生成式改写模式和抽取式改写模式获得多个关键词 ...
【技术保护点】
1.一种改写模型的构建方法,包括:/n构建编码器,在接收到初始查询语句中各词语对应的词向量后,由所述编码器对所述各词语对应的词向量进行编码并将所述各词向量分别表示为输入隐向量;/n构建对所述输入隐向量进行解码的解码器,通过所述解码器分别基于生成式改写模式和抽取式改写模式获得多个关键词;/n计算调节各关键词在所述生成式改写模式和抽取式改写模式下的权重比例的第一调节因子,以基于所述第一调节因子计算所述各关键词的综合权重;/n结合所述编码器和解码器,并在所述解码器中设置所述第一调节因子,完成基于编码器-解码器结构的改写模型的构建,由所述改写模型依据所述各关键词的综合权重在所述多个 ...
【技术特征摘要】
1.一种改写模型的构建方法,包括:
构建编码器,在接收到初始查询语句中各词语对应的词向量后,由所述编码器对所述各词语对应的词向量进行编码并将所述各词向量分别表示为输入隐向量;
构建对所述输入隐向量进行解码的解码器,通过所述解码器分别基于生成式改写模式和抽取式改写模式获得多个关键词;
计算调节各关键词在所述生成式改写模式和抽取式改写模式下的权重比例的第一调节因子,以基于所述第一调节因子计算所述各关键词的综合权重;
结合所述编码器和解码器,并在所述解码器中设置所述第一调节因子,完成基于编码器-解码器结构的改写模型的构建,由所述改写模型依据所述各关键词的综合权重在所述多个关键词中选取至少一个关键词作为与所述初始语句的语义相似的查询关键词后输出。
2.根据权利要求1所述的方法,其中,所述构建对所述输入隐向量进行解码的解码器,通过所述解码器分别基于生成式改写模式和抽取式改写模式获得多个关键词,包括:
依据单向LSTM长短期记忆网络构建解码器,并通过所述解码器对所述输入隐向量进行解码;
基于预设的词汇表采用生成式改写模式生成至少一个生成式关键词;
基于所述初始查询语句采用抽取式改写模式抽取至少一个抽取式关键词。
3.根据权利要求1或2所述的方法,其中,所述基于预设的词汇表采用生成式改写模式生成至少一个生成式关键词,包括:
通过注意力机制计算所述词汇表中各词语的分布概率,并依据所述各词语分布概率选取至少一个生成式关键词。
4.根据权利要求1-3任一项所述的方法,其中,所述通过注意力机制计算词汇表中各词语的分布概率,并依据所述各词语分布概率选取至少一个生成式关键词,包括:
通过score方法衡量所述初始查询语句中各词语的权重并计算其加权和计算得到上下文向量;
将所述上下文向量与当前时刻目标隐向量结合通过两层全连接层得到所述词汇表中各词语的分布概率;其中,所述目标隐向量为解码器在t时刻的隐含层变量;
在所述词汇表中预测并生成至少一个生成式关键词;
利用coverage机制辅助所述解码器生成不重复的生成式关键词。
5.根据权利要求1-4任一项所述的方法,其中,所述基于所述初始查询语句采用抽取式改写模式抽取至少一个抽取式关键词,包括:
通过注意力矩阵计算所述初始查询语句中各词语的权重,并依据所述各词...
【专利技术属性】
技术研发人员:王浩,庞旭林,张晨,
申请(专利权)人:北京奇虎科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。