一种生成文本匹配模型的方法、计算设备及存储介质技术

技术编号:38378239 阅读:11 留言:0更新日期:2023-08-05 17:38
本申请公开了一种生成文本匹配模型的方法、计算设备及存储介质。其中方法包括:从查询日志中获取查询数据和对应的第一资源数据,生成第一数据集合,查询数据和第一资源数据中均包含资源的属性信息;基于查询数据,获取预定数目个第二资源数据,并利用查询数据和所述第二资源数据,生成第二数据集合;通过关联第一数据集合和第二数据集合,从第二数据集合中选取出第二查询数据及第三资源数据和第四资源数据;将第二查询数据、第三资源数据和第四资源数据作为训练样本,输入初始的文本匹配模型中进行训练,并根据输出的第一预测结果和第二预测结果来调整文本匹配模型的网络参数,直到训练结束,得到训练好的文本匹配模型。得到训练好的文本匹配模型。得到训练好的文本匹配模型。

【技术实现步骤摘要】
一种生成文本匹配模型的方法、计算设备及存储介质


[0001]本申请涉及计算机
,尤其涉及一种生成文本匹配模型的方法、计算设备及存储介质。

技术介绍

[0002]文本匹配一直是自然语言处理(NLP)领域一个基础且重要的方向,一般研究两段文本之间的关系。文本相似度计算、自然语言推理、问答系统、信息检索等,都可以看作针对不同数据和场景的文本匹配应用。比如,信息检索可以归结为搜索词和文档资源的匹配,问答系统可以归结为问题和候选答案的匹配,对话系统可以归结为前一句对话和回复的匹配。
[0003]以非事实问答为例,针对非事实问答一般是通过构建FAQ(Frequently Asked Questions,频繁问答)系统生成的问答库,基于问答库构建倒排索引来进行问题的文本匹配。FAQ系统主要包括:频繁问答对数据集(一般是从领域开源百科中生成频繁问答集,也有用户在某一领域相关的系统上产生的问答内容)、检索召回模块(用于检索相似问句)、相似度排序模块(用于判断最高相似问句以及置信度是否足够)。通过倒排索引的明文问答检索是目前的主要方案。对用户query进行分词处理,根据每个分词term从倒排索引中召回相关结果,对每个term的召回结果求交集得到最终结果。之后,基于两个文本上共现词的TF

IDF、BM25等传统匹配方式,主要依据是词袋模型,将两个文本映射到相同空间计算相似度,来衡量文本相似性高低。
[0004]该方案主要存在以下不足:第一,用户query表达偏口语化并且表达方式多种多样,比如关于价格就有多少钱、怎么卖等方式,一般和频繁问答集的答案文本描述存在差距,单从字面匹配很难达到信息的准确获取;第二,受限于频繁问答集的内容,对相近答案的有效覆盖存在明显不足;第三,没有考虑不同句子间的语义相似度以及句子内的上下文信息,不能解决语言的同义多义、语序结构问题。
[0005]基于此,需要一种新的文本匹配方案,能够应用于特定领域的文本匹配(如,问答系统中)。

技术实现思路

[0006]本申请提供了一种生成文本匹配模型的方法、计算设备及存储介质,以力图解决或者至少缓解上面存在的至少一个问题。
[0007]根据本申请的一个方面,提供了一种生成文本匹配模型的方法,包括:从查询日志中获取查询数据和对应的第一资源数据,生成第一数据集合,所述查询数据和所述第一资源数据中均包含资源的属性信息;基于所述查询数据,获取预定数目个第二资源数据,并利用所述查询数据和所述第二资源数据,生成第二数据集合;通过关联所述第一数据集合和所述第二数据集合,从所述第二数据集合中选取出第二查询数据及第三资源数据和第四资源数据,其中所述第二查询数据中包含的资源的属性信息与所述第三资源数据中所包含的
资源的属性信息一致、且所述第二查询数据中包含的资源的属性信息与所述第四资源数据中所包含的资源的属性信息不一致;将所述第二查询数据、所述第三资源数据和所述第四资源数据作为训练样本,输入初始的文本匹配模型中进行训练,并根据输出的第一预测结果和第二预测结果来调整文本匹配模型的网络参数,直到训练结束,得到训练好的文本匹配模型。
[0008]可选地,在根据本申请的方法中,文本匹配模型至少包括耦接的语言处理组件和相似度计算组件。
[0009]可选地,在根据本申请的方法中,第一预测结果为表征所述第二查询数据与所述第三资源数据、所述第四资源数据中包含的资源的属性信息是否一致的概率值,所述第二预测结果为表征所述第二查询数据与所述第三资源数据、所述第四资源数据的相似度的分值,以及所述根据输出的第一预测结果和第二预测结果来调整文本匹配模型的网络参数,包括:根据所述第一预测结果调整所述语言处理组件的网络参数,以及根据所述第二预测结果调整所述相似度计算组件的网络参数。
[0010]可选地,在根据本申请的方法中,语言处理组件包括主干卷积网络和变换网络,其中所述主干卷积网络包括3个相同的主干网络块,适于分别接收第二查询数据、第三资源数据和第四资源数据并进行处理,对应输出各自的语义向量;变换网络包括2个相同的变换网络块,适于对语义向量进行处理,对应输出第一语义向量和第二语义向量;所述相似度计算组件包括2个相同的相似度计算块,适于分别对所述第一语义向量和所述第二语义向量进行处理,以对应输出第一概率值和第一分值、第二概率值和第二分值。
[0011]可选地,在根据本申请的方法中,文本匹配模型还包括耦接在所述语言处理组件和所述相似度计算组件之间的池化组件,所述池化组件包括2个相同的池化块,适于分别对所述第一语义向量和所述第二语义向量进行降维,对应得到降维的第一语义向量和降维的第二语义向量,并对应输出至所述相似度计算组件。
[0012]可选地,在根据本申请的方法中,基于所述查询数据,获取预定数目个第二资源数据,包括:针对第一数据集合中的每个查询数据,通过搜索引擎获取查询数据对应的资源数据,所获取的资源数据具有位置属性;根据资源数据的位置属性选取预定数目个资源数据,作为第二资源数据。
[0013]可选地,在根据本申请的方法中,通过关联所述第一数据集合和所述第二数据集合,从所述第二数据集合中选取出第二查询数据及第三资源数据和第四资源数据,包括:通过关联第一数据集合和第二数据集合,分别识别第二数据集合中查询数据和第二资源数据中包含的资源的属性信息;从第二数据表中选取与各查询数据的属性信息一致的、与其对应的第二资源数据,作为第二查询数据和第三资源数据;从第二数据表中选取与各第二查询数据的属性信息不一致的、与其对应的第二资源数据,作为第四资源数据。
[0014]可选地,在根据本申请的方法中,属性信息包括厂商、品牌、车系、车型。
[0015]根据本申请的再一方面,提供了一种计算设备,包括:一个或多个处理器存储器;一个或多个程序,其中所述一个或多个程序存储在存储器中并被配置为由一个或多个处理器执行,一个或多个程序包括用于执行如上任一方法的指令。
[0016]根据本申请的再一方面,提供了一种存储一个或多个程序的计算机可读存储介质,一个或多个程序包括指令,指令在被计算设备执行时,使得计算设备执行如上所述的任
一方法。
[0017]综上所述,根据本申请的方案,结合查询日志和搜索引擎,获取查询数据和资源数据的数据集合,作为生成训练样本的基础。由于基于搜索引擎,可以不断适应新出现的词汇,且有效地降低了海量样本的标注成本。之后,根据属性信息,从数据集合中筛选出正样本和负样本,这样,一条训练样本由三部分组成,分别为Query、Title+、Title

,使得训练生成的文本匹配模型在保证句子对间属性信息一致的前提下,再识别语义相似度,有效提升文本匹配的准确度。
[0018]此外,在训练文本匹配模型时,通过设置不同的预测任务来对应调整相应模块的网络参数,能够有效考虑效果和性能结合的问题。
[0019]上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种生成文本匹配模型的方法,包括:从查询日志中获取查询数据和对应的第一资源数据,生成第一数据集合,所述查询数据和所述第一资源数据中均包含资源的属性信息;基于所述查询数据,获取预定数目个第二资源数据,并利用所述查询数据和所述第二资源数据,生成第二数据集合;通过关联所述第一数据集合和所述第二数据集合,从所述第二数据集合中选取出第二查询数据及第三资源数据和第四资源数据,其中所述第二查询数据中包含的资源的属性信息与所述第三资源数据中所包含的资源的属性信息一致、且所述第二查询数据中包含的资源的属性信息与所述第四资源数据中所包含的资源的属性信息不一致;将所述第二查询数据、所述第三资源数据和所述第四资源数据作为训练样本,输入初始的文本匹配模型中进行训练,并根据输出的第一预测结果和第二预测结果来调整文本匹配模型的网络参数,直到训练结束,得到训练好的文本匹配模型。2.如权利要求1所述的方法,其中,所述文本匹配模型至少包括耦接的语言处理组件和相似度计算组件。3.如权利要求2所述的方法,其中,所述第一预测结果为表征所述第二查询数据与所述第三资源数据、所述第四资源数据中包含的资源的属性信息是否一致的概率值,所述第二预测结果为表征所述第二查询数据与所述第三资源数据、所述第四资源数据的相似度的分值,以及所述根据输出的第一预测结果和第二预测结果来调整文本匹配模型的网络参数,包括:根据所述第一预测结果调整所述语言处理组件的网络参数,以及根据所述第二预测结果调整所述相似度计算组件的网络参数。4.如权利要求2或3所述的方法,其中,所述语言处理组件包括主干卷积网络和变换网络,其中所述主干卷积网络包括3个相同的主干网络块,适于分别接收所述第二查询数据、所述第三资源数据和所述第四资源数据并进行处理,对应输出各自的语义向量;所述变换网络包括2个相同的变换网络块,适于对所述语义向量进行处理,对应输出第一语义向量和第二语义向量;所述相似度计算组件包括2个相同的相似度计算块,适于分别对所述第一语义向量和所述第二语义向量进行处理,以对应输出第一概率值和第一分值、第二概...

【专利技术属性】
技术研发人员:王朋恺李辉
申请(专利权)人:车智互联北京科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1