System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及自然语言处理,尤其涉及一种文本匹配方法、装置、设备、存储介质和程序产品。
技术介绍
1、近年来,随着人工智能技术研究和进步,人工智能技术在多个领域得到广泛应用,其中,人工智能在文本匹配领域的应用,是各大互联网平台提供数据搜索等服务的基础保障。
2、目前,经过预训练的通用深度学习模型在数据集选取和预训练方法上存在与下游文本匹配任务的不一致性,通用深度学习模型的模型精度较低。
技术实现思路
1、本申请提供一种文本匹配方法、装置、设备、存储介质和程序产品,以至少解决相关技术在数据集选取和预训练方法上存在与下游文本匹配任务的不一致性,通用深度学习模型的模型精度较低的问题。本申请的技术方案如下:
2、本申请实施例提供一种文本匹配方法,包括:
3、获取待匹配文本和目标候选文本;
4、对所述待匹配文本和目标候选文本进行词向量化处理,得到待匹配文本词表序号向量和目标候选文本词表序号向量;
5、将所述待匹配文本词表序号向量和所述目标候选文本词表序号向量输入训练完成的文本语义向量模型中,得到待匹配文本语义向量和候选文本语义向量;
6、根据所述待匹配文本语义向量和所述候选文本语义向量,确定待匹配文本和目标候选文本的匹配结果。
7、可选地,在使用所述文本语义向量模型之前,所述方法还包括:
8、获取所述候选数据集和所述当前文本匹配任务数据集;
9、从所述候选数据集中筛选出预训练数据集;
>10、利用所述预训练数据集对初始深度学习模型进行训练,得到第一深度学习模型;
11、利用所述当前文本匹配任务数据集对所述第一深度学习模型进行训练,得到训练完成的文本语义向量模型;
12、其中,所述文本语义向量模型通过候选数据集和当前文本匹配任务数据集训练得到,所述候选训练数据集为包含语义相似度信息的数据集,所述当前匹配任务数据集为当前文本匹配任务所属领域的数据集,所述候选数据集的数据量大于当前文本匹配任务数据集的数据量。
13、可选地,所述从所述候选数据集中筛选出预训练数据集,包括以下至少一种筛选方式:
14、计算所述候选数据集的文本平均长度和所述当前文本匹配任务数据集的文本平均长度的比值;从所述候选数据集中筛选出所述比值属于设定比值范围的预训练数据集;
15、计算所述候选数据集中的文本对长度比例的均值,从所述候选数据集中筛选出所述均值属于设定均值范围的预训练数据集;
16、计算所述候选数据集中的样本数量占所述初始深度学习模型的模型参数量的比例,从所述候选数据集中筛选出所述比例大于等于设定比例阈值的预训练数据集;
17、获取所述候选数据集中的文本类别的数量,从所述候选数据集中筛选出所述文本类别的数量大于等于设定文本类别数量的预训练数据集。
18、可选地,所述利用所述预训练数据集对初始深度学习模型进行训练,得到第一深度学习模型,包括:
19、对所述预训练数据集进行词向量化处理,得到所述预训练数据集中的第一样本文本对的文本词表序号向量;
20、将所述第一样本文本对的文本词表序号向量输入初始深度学习模型,利用相似度损失函数对所述初始深度学习模型进行模型训练,得到第一深度学习模型。
21、可选地,所述利用所述当前文本匹配任务数据集对所述第一深度学习模型进行训练,得到训练完成的文本语义向量模型,包括:
22、对所述当前文本匹配任务数据集进行词向量化处理,得到所述当前文本匹配任务数据集中的第二样本文本对的文本词表序号向量;
23、将所述第二样本文本对的文本词表序号向量输入第一深度学习模型,利用相似度损失函数对所述初始深度学习模型进行模型训练,得到所述文本语义向量模型。
24、可选地,所述根据所述待匹配文本语义向量和所述候选文本语义向量,确定待匹配文本和目标候选文本的匹配结果,包括:
25、计算所述待匹配文本语义向量和所述候选文本语义向量的相似度;
26、若所述相似度大于等于设定相似度阈值,则生成所述待匹配文本和所述目标候选文本匹配成功结果;
27、若所述相似度小于设定相似度阈值,则生成所述待匹配文本和所述目标候选文本匹配失败结果。
28、本申请实施例还提供一种文本匹配装置,包括:
29、获取模块,用于获取待匹配文本和目标候选文本;
30、处理模块,用于对所述待匹配文本和目标候选文本进行词向量化处理,得到待匹配文本词表序号向量和目标候选文本词表序号向量;
31、语义向量模型模块,用于将所述待匹配文本词表序号向量和所述目标候选文本词表序号向量输入训练完成的文本语义向量模型中,得到待匹配文本语义向量和候选文本语义向量,其中,所述文本语义向量模型通过候选数据集和当前文本匹配任务数据集训练得到,所述候选训练数据集为包含语义相似度信息的数据集,所述当前匹配任务数据集为当前文本匹配任务所属领域的数据集,所述候选数据集的数据量大于当前文本匹配任务数据集的数据量;
32、确定模块,用于根据所述待匹配文本语义向量和所述候选文本语义向量,确定待匹配文本和目标候选文本的匹配结果。
33、可选地,所述语义向量模型模块在使用所述文本语义向量模型之前,还可用于:
34、获取所述候选数据集和所述当前文本匹配任务数据集;
35、从所述候选数据集中筛选出预训练数据集;
36、利用所述预训练数据集对初始深度学习模型进行训练,得到第一深度学习模型;
37、利用所述当前文本匹配任务数据集对所述第一深度学习模型进行训练,得到训练完成的文本语义向量模型。
38、可选地,所述语义向量模型模块从所述候选数据集中筛选出预训练数据集,包括以下至少一种筛选方式:
39、计算所述候选数据集的文本平均长度和所述当前文本匹配任务数据集的文本平均长度的比值;从所述候选数据集中筛选出所述比值属于设定比值范围的预训练数据集;
40、计算所述候选数据集中的文本对长度比例的均值,从所述候选数据集中筛选出所述均值属于设定均值范围的预训练数据集;
41、计算所述候选数据集中的样本数量占所述初始深度学习模型的模型参数量的比例,从所述候选数据集中筛选出所述比例大于等于设定比例阈值的预训练数据集;
42、获取所述候选数据集中的文本类别的数量,从所述候选数据集中筛选出所述文本类别的数量大于等于设定文本类别数量的预训练数据集。
43、可选地,所述语义向量模型模块在利用所述预训练数据集对初始深度学习模型进行训练,得到第一深度学习模型时,用于:
44、对所述预训练数据集进行词向量化处理,得到所述预训练数据集中的第一样本文本对的文本词表序号向量;
45、将所述第一样本文本对的文本词表序号向量输入初始深度学习模型,利本文档来自技高网...
【技术保护点】
1.一种文本匹配方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,在使用所述文本语义向量模型之前,所述方法还包括:
3.根据权利要求2所述的方法,其特征在于,所述从所述候选数据集中筛选出预训练数据集,包括以下至少一种筛选方式:
4.根据权利要求2所述的方法,其特征在于,所述利用所述预训练数据集对初始深度学习模型进行训练,得到第一深度学习模型,包括:
5.根据权利要求2所述的方法,其特征在于,所述利用所述当前文本匹配任务数据集对所述第一深度学习模型进行训练,得到训练完成的文本语义向量模型,包括:
6.根据权利要求1所述的方法,其特征在于,所述根据所述待匹配文本语义向量和所述候选文本语义向量,确定待匹配文本和目标候选文本的匹配结果,包括:
7.一种文本匹配装置,其特征在于,包括:
8.一种电子设备,其特征在于,包括:存储器和处理器;
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-6中任一项所述的方法中的各步骤。<
...【技术特征摘要】
1.一种文本匹配方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,在使用所述文本语义向量模型之前,所述方法还包括:
3.根据权利要求2所述的方法,其特征在于,所述从所述候选数据集中筛选出预训练数据集,包括以下至少一种筛选方式:
4.根据权利要求2所述的方法,其特征在于,所述利用所述预训练数据集对初始深度学习模型进行训练,得到第一深度学习模型,包括:
5.根据权利要求2所述的方法,其特征在于,所述利用所述当前文本匹配任务数据集对所述第一深度学习模型进行训练,得到训练完成的文本语义向量模型,包括:
6.根据权利要求1所述的方法,其特征在...
【专利技术属性】
技术研发人员:王孝元,
申请(专利权)人:北京罗克维尔斯科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。