文本匹配方法、装置、服务器和存储介质制造方法及图纸

技术编号:25223988 阅读:18 留言:0更新日期:2020-08-11 23:13
本发明专利技术公开了一种文本匹配方法、装置、服务器和存储介质;本发明专利技术获取第一文本、第二文本;分别对第一文本和第二文本进行多粒度分词处理,得到第一文本的细粒度子文本和粗粒度子文本,以及第二文本的细粒度子文本和粗粒度子文本;对第一文本和第二文本的细粒度子文本进行语义特征提取,得到第一文本和第二文本的细粒度特征;对第一文本和第二文本的粗粒度子文本进行语义特征提取,得到第一文本和第二文本的粗粒度特征;根据第一文本和第二文本的细粒度特征和粗粒度特征进行特征融合,得到多粒度语义特征;基于多粒度语义特征预测第一文本和第二文本之间的文本相似度,以判断第一文本和第二文本的匹配情况。本发明专利技术可提升文本匹配方法的准确度。

【技术实现步骤摘要】
文本匹配方法、装置、服务器和存储介质
本专利技术涉及计算机领域,具体涉及一种文本匹配方法、装置、服务器和存储介质。
技术介绍
文本匹配技术通常以文本相似度计算、文本相关性计算的形式,在搜索搜索引擎、智能问答、知识检索、信息流推荐等领域广泛应用。然而,目前的文本匹配方法准确度较低。
技术实现思路
本专利技术实施例提供一种文本匹配方法、装置、服务器和存储介质,可以提升文本匹配方法的准确度。本专利技术实施例提供一种文本匹配方法,包括:获取第一文本、第二文本;分别对所述第一文本和第二文本进行多粒度分词处理,得到第一文本的细粒度子文本和粗粒度子文本,以及第二文本的细粒度子文本和粗粒度子文本;对所述第一文本和第二文本的细粒度子文本进行语义特征提取,得到所述第一文本和第二文本的细粒度特征;对所述第一文本和第二文本的粗粒度子文本进行语义特征提取,得到所述第一文本和第二文本的粗粒度特征;根据所述第一文本和第二文本的细粒度特征和粗粒度特征进行特征融合,得到多粒度语义特征;基于所述多粒度语义特征预测所述第一文本和第二文本之间的文本相似度,以判断所述第一文本和第二文本的匹配情况。本专利技术实施例还提供一种文本匹配装置,包括:获取单元,用于获取第一文本、第二文本;分词单元,用于分别对所述第一文本和第二文本进行多粒度分词处理,得到第一文本的细粒度子文本和粗粒度子文本,以及第二文本的细粒度子文本和粗粒度子文本;细粒度单元,用于对所述第一文本和第二文本的细粒度子文本进行语义特征提取,得到所述第一文本和第二文本的细粒度特征;粗粒度单元,用于对所述第一文本和第二文本的粗粒度子文本进行语义特征提取,得到所述第一文本和第二文本的粗粒度特征;融合单元,用于根据所述第一文本和第二文本的细粒度特征和粗粒度特征进行特征融合,得到多粒度语义特征;预测单元,用于基于所述多粒度语义特征预测所述第一文本和第二文本之间的文本相似度,以判断所述第一文本和第二文本的匹配情况。在一些实施例中,所述细粒度单元,包括:细粒度网络子单元,用于获取细粒度孪生网络;第一细粒度嵌入子单元,用于对所述第一文本的细粒度子文本进行细粒度文本嵌入处理,得到第一细粒度向量;第二细粒度嵌入子单元,用于对所述第二文本的细粒度子文本进行细粒度文本嵌入处理,得到第二细粒度向量;细粒度子单元,用于采用所述细粒度孪生网络对所述第一细粒度向量和第二细粒度向量进行语义特征提取,得到所述第一文本和第二文本的细粒度特征。在一些实施例中,所述细粒度孪生网络包括共享网络参数的第一细粒度子网络和第二细粒度子网络,所述细粒度子单元,包括:第一细粒度子模块,用于采用所述第一细粒度子网络对所述第一细粒度向量进行语义特征提取,得到所述第一文本的细粒度特征;第二细粒度子模块,用于采用所述第二细粒度子网络对所述第二细粒度向量进行语义特征提取,得到所述第二文本的细粒度特征。在一些实施例中,所述第一细粒度子网络包括第一细粒度正向时序记忆网络、第一细粒度逆向时序记忆网络和自注意力网络,所述第一细粒度子模块,用于:采用所述第一细粒度正向时序记忆网络对所述第一细粒度向量进行正向时序特征提取,得到所述第一文本的细粒度正向时序特征;采用所述第一细粒度逆向时序记忆网络对所述第一细粒度向量进行逆向时序特征提取,得到所述第一文本的细粒度逆向时序特征;对所述第一文本的细粒度正向时序特征和细粒度逆向时序特征进行特征拼接,得到第一文本的细粒度全局时序特征;采用所述自注意力网络对所述第一文本的细粒度全局时序特征进行注意力权值分配,得到所述第一文本的细粒度特征。在一些实施例中,所述第二细粒度子网络包括第二细粒度正向时序记忆网络、第二细粒度逆向时序记忆网络和自注意力网络,所述第二细粒度子模块,用于:采用所述第二细粒度正向时序记忆网络对所述第二细粒度向量进行正向时序特征提取,得到所述第二文本的细粒度正向时序特征;采用所述第二细粒度逆向时序记忆网络对所述第二细粒度向量进行逆向时序特征提取,得到所述第二文本的细粒度逆向时序特征;对所述第二文本的细粒度正向时序特征和细粒度逆向时序特征进行特征拼接,得到第二文本的细粒度全局时序特征;采用所述自注意力网络对所述第二文本的细粒度全局时序特征进行注意力权值分配,得到所述第二文本的细粒度特征。在一些实施例中,所述粗粒度单元,包括:粗粒度网络子单元,用于获取粗粒度孪生网络;第一粗粒度嵌入子单元,用于对所述第一文本的粗粒度子文本进行粗粒度文本嵌入处理,得到第一粗粒度向量;第二粗粒度嵌入子单元,用于对所述第二文本的粗粒度子文本进行粗粒度文本嵌入处理,得到第二粗粒度向量;粗粒度子单元,用于采用所述粗粒度孪生网络对所述第一粗粒度向量和第二粗粒度向量进行语义特征提取,得到所述第一文本和第二文本的粗粒度特征。在一些实施例中,所述粗粒度孪生网络包括共享网络参数的第一粗粒度子网络和第二粗粒度子网络,所述粗粒度子单元,包括:第一粗粒度子模块,用于采用所述第一粗粒度子网络对所述第一粗粒度向量进行语义特征提取,得到所述第一文本的粗粒度特征;第二粗粒度子模块,用于采用所述第二粗粒度子网络对所述第二粗粒度向量进行语义特征提取,得到所述第二文本的粗粒度特征。在一些实施例中,所述第一粗粒度子网络包括第一粗粒度正向时序记忆网络、第一粗粒度逆向时序记忆网络和自注意力网络,所述第一粗粒度子模块,用于:采用所述第一粗粒度正向时序记忆网络对所述第一粗粒度向量进行正向时序特征提取,得到所述第一文本的粗粒度正向时序特征;采用所述第一粗粒度逆向时序记忆网络对所述第一粗粒度向量进行逆向时序特征提取,得到所述第一文本的粗粒度逆向时序特征;对所述第一文本的粗粒度正向时序特征和粗粒度逆向时序特征进行特征拼接,得到第一文本的粗粒度全局时序特征;采用所述自注意力网络对所述第一文本的粗粒度全局时序特征进行注意力权值分配,得到所述第一文本的粗粒度特征。在一些实施例中,所述第二粗粒度子网络包括第二粗粒度正向时序记忆网络、第二粗粒度逆向时序记忆网络和自注意力网络,所述第二粗粒度子模块,用于:采用所述第二粗粒度正向时序记忆网络对所述第二粗粒度向量进行正向时序特征提取,得到所述第二文本的粗粒度正向时序特征;采用所述第二粗粒度逆向时序记忆网络对所述第二粗粒度向量进行逆向时序特征提取,得到所述第二文本的粗粒度逆向时序特征;对所述第二文本的粗粒度正向时序特征和粗粒度逆向时序特征进行特征拼接,得到第二文本的粗粒度全局时序特征;采用所述自注意力网络对所述第二文本的粗粒度全局时序特征进行注意力权值分配,得到所述第二文本的粗粒度特征。在一些实施例中,所述融合单元,用于:根据所述第一文本的细粒度特征和粗粒度特征进行特征拼接,得到第一文本本文档来自技高网...

【技术保护点】
1.一种文本匹配方法,其特征在于,包括:/n获取第一文本、第二文本;/n分别对所述第一文本和第二文本进行多粒度分词处理,得到第一文本的细粒度子文本和粗粒度子文本,以及第二文本的细粒度子文本和粗粒度子文本;/n对所述第一文本和第二文本的细粒度子文本进行语义特征提取,得到所述第一文本和第二文本的细粒度特征;/n对所述第一文本和第二文本的粗粒度子文本进行语义特征提取,得到所述第一文本和第二文本的粗粒度特征;/n根据所述第一文本和第二文本的细粒度特征和粗粒度特征进行特征融合,得到多粒度语义特征;/n基于所述多粒度语义特征预测所述第一文本和第二文本之间的文本相似度,以判断所述第一文本和第二文本的匹配情况。/n

【技术特征摘要】
1.一种文本匹配方法,其特征在于,包括:
获取第一文本、第二文本;
分别对所述第一文本和第二文本进行多粒度分词处理,得到第一文本的细粒度子文本和粗粒度子文本,以及第二文本的细粒度子文本和粗粒度子文本;
对所述第一文本和第二文本的细粒度子文本进行语义特征提取,得到所述第一文本和第二文本的细粒度特征;
对所述第一文本和第二文本的粗粒度子文本进行语义特征提取,得到所述第一文本和第二文本的粗粒度特征;
根据所述第一文本和第二文本的细粒度特征和粗粒度特征进行特征融合,得到多粒度语义特征;
基于所述多粒度语义特征预测所述第一文本和第二文本之间的文本相似度,以判断所述第一文本和第二文本的匹配情况。


2.如权利要求1所述的文本匹配方法,其特征在于,所述对所述第一文本和第二文本的细粒度子文本进行语义特征提取,得到所述第一文本和第二文本的细粒度特征,包括:
获取细粒度孪生网络;
对所述第一文本的细粒度子文本进行细粒度文本嵌入处理,得到第一细粒度向量;
对所述第二文本的细粒度子文本进行细粒度文本嵌入处理,得到第二细粒度向量;
采用所述细粒度孪生网络对所述第一细粒度向量和第二细粒度向量进行语义特征提取,得到所述第一文本和第二文本的细粒度特征。


3.如权利要求2所述的文本匹配方法,其特征在于,所述细粒度孪生网络包括共享网络参数的第一细粒度子网络和第二细粒度子网络;
所述采用所述细粒度孪生网络对所述第一细粒度向量和第二细粒度向量进行语义特征提取,得到所述第一文本和第二文本的细粒度特征,包括:
采用所述第一细粒度子网络对所述第一细粒度向量进行语义特征提取,得到所述第一文本的细粒度特征;
采用所述第二细粒度子网络对所述第二细粒度向量进行语义特征提取,得到所述第二文本的细粒度特征。


4.如权利要求3所述的文本匹配方法,其特征在于,所述第一细粒度子网络包括第一细粒度正向时序记忆网络、第一细粒度逆向时序记忆网络和自注意力网络;
所述采用所述第一细粒度子网络对所述第一细粒度向量进行语义特征提取,得到所述第一文本的细粒度特征,包括:
采用所述第一细粒度正向时序记忆网络对所述第一细粒度向量进行正向时序特征提取,得到所述第一文本的细粒度正向时序特征;
采用所述第一细粒度逆向时序记忆网络对所述第一细粒度向量进行逆向时序特征提取,得到所述第一文本的细粒度逆向时序特征;
对所述第一文本的细粒度正向时序特征和细粒度逆向时序特征进行特征拼接,得到第一文本的细粒度全局时序特征;
采用所述自注意力网络对所述第一文本的细粒度全局时序特征进行注意力权值分配,得到所述第一文本的细粒度特征。


5.如权利要求3所述的文本匹配方法,其特征在于,所述第二细粒度子网络包括第二细粒度正向时序记忆网络、第二细粒度逆向时序记忆网络和自注意力网络;
所述采用所述第二细粒度子网络对所述第二细粒度向量进行语义特征提取,得到所述第二文本的细粒度特征,包括:
采用所述第二细粒度正向时序记忆网络对所述第二细粒度向量进行正向时序特征提取,得到所述第二文本的细粒度正向时序特征;
采用所述第二细粒度逆向时序记忆网络对所述第二细粒度向量进行逆向时序特征提取,得到所述第二文本的细粒度逆向时序特征;
对所述第二文本的细粒度正向时序特征和细粒度逆向时序特征进行特征拼接,得到第二文本的细粒度全局时序特征;
采用所述自注意力网络对所述第二文本的细粒度全局时序特征进行注意力权值分配,得到所述第二文本的细粒度特征。


6.如权利要求1所述的文本匹配方法,其特征在于,所述对所述第一文本和第二文本的粗粒度子文本进行语义特征提取,得到所述第一文本和第二文本的粗粒度特征,包括:
获取粗粒度孪生网络;
对所述第一文本的粗粒度子文本进行粗粒度文本嵌入处理,得到第一粗粒度向量;
对所述第二文本的粗粒度子文本进行粗粒度文本嵌入处理,得到第二粗粒度向量;
采用所述粗粒度孪生网络对所述第一粗粒度向量和第二粗粒度向量进行语义特征提取,得到所述第一文本和第二文本的粗粒度特征。


7.如权利要求6所述的文本匹配方法,其特征在于,所述粗粒度孪生网络包括共享网络参数的第一粗粒度子网络和第二粗粒度子网络;
所述采用所述粗粒度孪生网络对所述第一粗粒度向量和第二粗粒度向量进行语义特征提取,得到所述第一文本和第二文本的粗粒度特征,包括:
采用所述第一粗粒度子网络对所述第一粗粒度向量进行语义特征提取,得到所述第一文本的粗粒度特征;
采用所述第二粗粒度子网络对所述第二粗粒度向量进行语义特征提取,得到所述第二文本的粗...

【专利技术属性】
技术研发人员:刘艾婷
申请(专利权)人:腾讯科技武汉有限公司
类型:发明
国别省市:湖北;42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1