一种生成文本匹配模型的方法、计算设备及存储介质技术

技术编号：38378239 阅读：11 留言：0更新日期：2023-08-05 17:38

本申请公开了一种生成文本匹配模型的方法、计算设备及存储介质。其中方法包括：从查询日志中获取查询数据和对应的第一资源数据，生成第一数据集合，查询数据和第一资源数据中均包含资源的属性信息；基于查询数据，获取预定数目个第二资源数据，并利用查询数据和所述第二资源数据，生成第二数据集合；通过关联第一数据集合和第二数据集合，从第二数据集合中选取出第二查询数据及第三资源数据和第四资源数据；将第二查询数据、第三资源数据和第四资源数据作为训练样本，输入初始的文本匹配模型中进行训练，并根据输出的第一预测结果和第二预测结果来调整文本匹配模型的网络参数，直到训练结束，得到训练好的文本匹配模型。得到训练好的文本匹配模型。得到训练好的文本匹配模型。

全部详细技术资料下载

【技术实现步骤摘要】
一种生成文本匹配模型的方法、计算设备及存储介质

[0001]本申请涉及计算机
，尤其涉及一种生成文本匹配模型的方法、计算设备及存储介质。

技术介绍

[0002]文本匹配一直是自然语言处理(NLP)领域一个基础且重要的方向，一般研究两段文本之间的关系。文本相似度计算、自然语言推理、问答系统、信息检索等，都可以看作针对不同数据和场景的文本匹配应用。比如，信息检索可以归结为搜索词和文档资源的匹配，问答系统可以归结为问题和候选答案的匹配，对话系统可以归结为前一句对话和回复的匹配。
[0003]以非事实问答为例，针对非事实问答一般是通过构建FAQ(Frequently Asked Questions，频繁问答)系统生成的问答库，基于问答库构建倒排索引来进行问题的文本匹配。FAQ系统主要包括：频繁问答对数据集(一般是从领域开源百科中生成频繁问答集，也有用户在某一领域相关的系统上产生的问答内容)、检索召回模块(用于检索相似问句)、相似度排序模块(用于判断最高相似问句以及置信度是否足够)。通过倒排索引的明文问答检索是目前的主要方案。对用户query进行分词处理，根据每个分词term从倒排索引中召回相关结果，对每个term的召回结果求交集得到最终结果。之后，基于两个文本上共现词的TF
‑
IDF、BM25等传统匹配方式，主要依据是词袋模型，将两个文本映射到相同空间计算相似度，来衡量文本相似性高低。
[0004]该方案主要存在以下不足：第一，用户query表达偏口语化并且表达方式多种多样，比如关于价...

【技术保护点】

【技术特征摘要】
1.一种生成文本匹配模型的方法，包括：从查询日志中获取查询数据和对应的第一资源数据，生成第一数据集合，所述查询数据和所述第一资源数据中均包含资源的属性信息；基于所述查询数据，获取预定数目个第二资源数据，并利用所述查询数据和所述第二资源数据，生成第二数据集合；通过关联所述第一数据集合和所述第二数据集合，从所述第二数据集合中选取出第二查询数据及第三资源数据和第四资源数据，其中所述第二查询数据中包含的资源的属性信息与所述第三资源数据中所包含的资源的属性信息一致、且所述第二查询数据中包含的资源的属性信息与所述第四资源数据中所包含的资源的属性信息不一致；将所述第二查询数据、所述第三资源数据和所述第四资源数据作为训练样本，输入初始的文本匹配模型中进行训练，并根据输出的第一预测结果和第二预测结果来调整文本匹配模型的网络参数，直到训练结束，得到训练好的文本匹配模型。2.如权利要求1所述的方法，其中，所述文本匹配模型至少包括耦接的语言处理组件和相似度计算组件。3.如权利要求2所述的方法，其中，所述第一预测结果为表征所述第二查询数据与所述第三资源数据、所述第四资源数据中包含的资源的属性信息是否一致的概率值，所述第二预测结果为表征所述第二查询数据与所述第三资源数据、所述第四资源数据的相似度的分值，以及所述根据输出的第一预测结果和第二预测结果来调整文本匹配模型的网络参数，包括：根据所述第一预测结果调整所述语言处理组件的网络参数，以及根据所述第二预测结果调整所述相似度计算组件的网络参数。4.如权利要求2或3所述的方法，其中，所述语言处理组件包括主干卷积网络和变换网络，其中所述主干卷积网络包括3个相同的主干网络块，适于分别接收所述第二查询数据、所述第三资源数据和所述第四资源数据并进行处理，对应输出各自的语义向量；所述变换网络包括2个相同的变换网络块，适于对所述语义向量进行处理，对应输出第一语义向量和第二语义向量；所述相似度计算组件包括2个相同的相似度计算块，适于分别对所述第一语义向量和所述第二语义向量进行处理，以对应输出第一概率值和第一分值、第二概...

【专利技术属性】
技术研发人员：王朋恺，李辉，
申请(专利权)人：车智互联北京科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人