【技术实现步骤摘要】
文本匹配方法、装置、服务器和存储介质
本专利技术涉及计算机领域,具体涉及一种文本匹配方法、装置、服务器和存储介质。
技术介绍
文本匹配技术通常以文本相似度计算、文本相关性计算的形式,在搜索搜索引擎、智能问答、知识检索、信息流推荐等领域广泛应用。然而,目前的文本匹配方法准确度较低。
技术实现思路
本专利技术实施例提供一种文本匹配方法、装置、服务器和存储介质,可以提升文本匹配方法的准确度。本专利技术实施例提供一种文本匹配方法,包括:获取第一文本、第二文本;分别对所述第一文本和第二文本进行多粒度分词处理,得到第一文本的细粒度子文本和粗粒度子文本,以及第二文本的细粒度子文本和粗粒度子文本;对所述第一文本和第二文本的细粒度子文本进行语义特征提取,得到所述第一文本和第二文本的细粒度特征;对所述第一文本和第二文本的粗粒度子文本进行语义特征提取,得到所述第一文本和第二文本的粗粒度特征;根据所述第一文本和第二文本的细粒度特征和粗粒度特征进行特征融合,得到多粒度语义特征;基于所述多粒度语义特征预测所述第一文本和第二文本之间的文本相似度,以判断所述第一文本和第二文本的匹配情况。本专利技术实施例还提供一种文本匹配装置,包括:获取单元,用于获取第一文本、第二文本;分词单元,用于分别对所述第一文本和第二文本进行多粒度分词处理,得到第一文本的细粒度子文本和粗粒度子文本,以及第二文本的细粒度子文本和粗粒度子文本;细粒度单元,用于对所述 ...
【技术保护点】
1.一种文本匹配方法,其特征在于,包括:/n获取第一文本、第二文本;/n分别对所述第一文本和第二文本进行多粒度分词处理,得到第一文本的细粒度子文本和粗粒度子文本,以及第二文本的细粒度子文本和粗粒度子文本;/n对所述第一文本和第二文本的细粒度子文本进行语义特征提取,得到所述第一文本和第二文本的细粒度特征;/n对所述第一文本和第二文本的粗粒度子文本进行语义特征提取,得到所述第一文本和第二文本的粗粒度特征;/n根据所述第一文本和第二文本的细粒度特征和粗粒度特征进行特征融合,得到多粒度语义特征;/n基于所述多粒度语义特征预测所述第一文本和第二文本之间的文本相似度,以判断所述第一文本和第二文本的匹配情况。/n
【技术特征摘要】
1.一种文本匹配方法,其特征在于,包括:
获取第一文本、第二文本;
分别对所述第一文本和第二文本进行多粒度分词处理,得到第一文本的细粒度子文本和粗粒度子文本,以及第二文本的细粒度子文本和粗粒度子文本;
对所述第一文本和第二文本的细粒度子文本进行语义特征提取,得到所述第一文本和第二文本的细粒度特征;
对所述第一文本和第二文本的粗粒度子文本进行语义特征提取,得到所述第一文本和第二文本的粗粒度特征;
根据所述第一文本和第二文本的细粒度特征和粗粒度特征进行特征融合,得到多粒度语义特征;
基于所述多粒度语义特征预测所述第一文本和第二文本之间的文本相似度,以判断所述第一文本和第二文本的匹配情况。
2.如权利要求1所述的文本匹配方法,其特征在于,所述对所述第一文本和第二文本的细粒度子文本进行语义特征提取,得到所述第一文本和第二文本的细粒度特征,包括:
获取细粒度孪生网络;
对所述第一文本的细粒度子文本进行细粒度文本嵌入处理,得到第一细粒度向量;
对所述第二文本的细粒度子文本进行细粒度文本嵌入处理,得到第二细粒度向量;
采用所述细粒度孪生网络对所述第一细粒度向量和第二细粒度向量进行语义特征提取,得到所述第一文本和第二文本的细粒度特征。
3.如权利要求2所述的文本匹配方法,其特征在于,所述细粒度孪生网络包括共享网络参数的第一细粒度子网络和第二细粒度子网络;
所述采用所述细粒度孪生网络对所述第一细粒度向量和第二细粒度向量进行语义特征提取,得到所述第一文本和第二文本的细粒度特征,包括:
采用所述第一细粒度子网络对所述第一细粒度向量进行语义特征提取,得到所述第一文本的细粒度特征;
采用所述第二细粒度子网络对所述第二细粒度向量进行语义特征提取,得到所述第二文本的细粒度特征。
4.如权利要求3所述的文本匹配方法,其特征在于,所述第一细粒度子网络包括第一细粒度正向时序记忆网络、第一细粒度逆向时序记忆网络和自注意力网络;
所述采用所述第一细粒度子网络对所述第一细粒度向量进行语义特征提取,得到所述第一文本的细粒度特征,包括:
采用所述第一细粒度正向时序记忆网络对所述第一细粒度向量进行正向时序特征提取,得到所述第一文本的细粒度正向时序特征;
采用所述第一细粒度逆向时序记忆网络对所述第一细粒度向量进行逆向时序特征提取,得到所述第一文本的细粒度逆向时序特征;
对所述第一文本的细粒度正向时序特征和细粒度逆向时序特征进行特征拼接,得到第一文本的细粒度全局时序特征;
采用所述自注意力网络对所述第一文本的细粒度全局时序特征进行注意力权值分配,得到所述第一文本的细粒度特征。
5.如权利要求3所述的文本匹配方法,其特征在于,所述第二细粒度子网络包括第二细粒度正向时序记忆网络、第二细粒度逆向时序记忆网络和自注意力网络;
所述采用所述第二细粒度子网络对所述第二细粒度向量进行语义特征提取,得到所述第二文本的细粒度特征,包括:
采用所述第二细粒度正向时序记忆网络对所述第二细粒度向量进行正向时序特征提取,得到所述第二文本的细粒度正向时序特征;
采用所述第二细粒度逆向时序记忆网络对所述第二细粒度向量进行逆向时序特征提取,得到所述第二文本的细粒度逆向时序特征;
对所述第二文本的细粒度正向时序特征和细粒度逆向时序特征进行特征拼接,得到第二文本的细粒度全局时序特征;
采用所述自注意力网络对所述第二文本的细粒度全局时序特征进行注意力权值分配,得到所述第二文本的细粒度特征。
6.如权利要求1所述的文本匹配方法,其特征在于,所述对所述第一文本和第二文本的粗粒度子文本进行语义特征提取,得到所述第一文本和第二文本的粗粒度特征,包括:
获取粗粒度孪生网络;
对所述第一文本的粗粒度子文本进行粗粒度文本嵌入处理,得到第一粗粒度向量;
对所述第二文本的粗粒度子文本进行粗粒度文本嵌入处理,得到第二粗粒度向量;
采用所述粗粒度孪生网络对所述第一粗粒度向量和第二粗粒度向量进行语义特征提取,得到所述第一文本和第二文本的粗粒度特征。
7.如权利要求6所述的文本匹配方法,其特征在于,所述粗粒度孪生网络包括共享网络参数的第一粗粒度子网络和第二粗粒度子网络;
所述采用所述粗粒度孪生网络对所述第一粗粒度向量和第二粗粒度向量进行语义特征提取,得到所述第一文本和第二文本的粗粒度特征,包括:
采用所述第一粗粒度子网络对所述第一粗粒度向量进行语义特征提取,得到所述第一文本的粗粒度特征;
采用所述第二粗粒度子网络对所述第二粗粒度向量进行语义特征提取,得到所述第二文本的粗...
【专利技术属性】
技术研发人员:刘艾婷,
申请(专利权)人:腾讯科技武汉有限公司,
类型:发明
国别省市:湖北;42
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。