文本匹配方法、装置、终端和存储介质制造方法及图纸

技术编号:28037271 阅读:27 留言:0更新日期:2021-04-09 23:19
本发明专利技术实施例公开了一种文本匹配方法、装置、终端和存储介质,应用于数据处理技术领域,其中,方法包括,获取目标文本、目标文本对应的目标释义信息和在目标领域下与目标文本相匹配的目标匹配文本,获取参考文本、参考文本对应的参考释义信息和在目标领域下与参考文本相匹配的参考匹配文本;确定目标文本与参考文本之间的相似度,目标释义信息与参考释义信息之间的相似度,以及目标匹配文本与参考匹配文本之间的相似度;基于上述得到的三个相似度确定目标文本和参考文本之间的匹配度。通过实施上述方法,可以在文本匹配过程中将文本调整为多种形式的其他文本后,基于其他文本间的相似度,确定文本间的匹配度,提升文本匹配的准确率。

【技术实现步骤摘要】
文本匹配方法、装置、终端和存储介质
本专利技术涉及数据处理
,尤其涉及一种文本匹配方法、装置、终端和存储介质。
技术介绍
随着计算机技术的发展,文本匹配成为研究的热点之一,即通过对文本中字词的匹配,确定不同文本之间的相似度,其在数据检索、数据匹配等领域有着巨大的用途,如用户可以在检索栏中输入一个文本,则可以通过文本间的匹配度计算,从数据库中检索得到与输入文本匹配的其他文本,以供用户进行浏览。当前,对文本进行匹配通常是确定文本中相同字符的数量,并根据相同字符数量确定文本间的匹配度,上述方式可以较好地实现字符层面的文本匹配,然而,实际过程中,不同字符表示的语义可能是相同的,单纯以字符是否相同来判定文本是否匹配,则无法实现语义层面的文本匹配,如针对一篇文言文,其对应的白话文翻译应与其是匹配的,但两者间相同的字符却较少,基于字符进行匹配会导致匹配结果不准确,即匹配准确率较低。
技术实现思路
本专利技术实施例提供了一种文本匹配方法、装置、终端和存储介质,可以在文本匹配过程中将文本调整为多种形式的其他文本后,基于其他文本间本文档来自技高网...

【技术保护点】
1.一种文本匹配方法,其特征在于,包括:/n获取目标文本,并对所述目标文本进行释义处理,得到所述目标文本对应的目标释义信息;/n确定在目标领域下与所述目标文本相匹配的目标匹配文本,所述目标匹配文本由至少一个标准词组组成,所述标准词组为符合所述目标领域下的形式规范的词组;/n获取参考文本,所述参考文本对应的参考释义信息,以及在所述目标领域下与所述参考文本相匹配的参考匹配文本;/n确定所述目标文本与所述参考文本之间的第一相似度,所述目标释义信息与所述参考释义信息之间的第二相似度,以及所述目标匹配文本与所述参考匹配文本之间的第三相似度;/n基于所述第一相似度、所述第二相似度和所述第三相似度确定所述目...

【技术特征摘要】
1.一种文本匹配方法,其特征在于,包括:
获取目标文本,并对所述目标文本进行释义处理,得到所述目标文本对应的目标释义信息;
确定在目标领域下与所述目标文本相匹配的目标匹配文本,所述目标匹配文本由至少一个标准词组组成,所述标准词组为符合所述目标领域下的形式规范的词组;
获取参考文本,所述参考文本对应的参考释义信息,以及在所述目标领域下与所述参考文本相匹配的参考匹配文本;
确定所述目标文本与所述参考文本之间的第一相似度,所述目标释义信息与所述参考释义信息之间的第二相似度,以及所述目标匹配文本与所述参考匹配文本之间的第三相似度;
基于所述第一相似度、所述第二相似度和所述第三相似度确定所述目标文本和所述参考文本之间的匹配度。


2.根据权利要求1所述的方法,其特征在于,所述确定在目标领域下与所述目标文本相匹配的目标匹配文本,包括:
对所述目标文本进行分词处理,得到至少一个目标词组;
获取目标领域下的形式规范,并从符合所述形式规范的标准词组中筛选出各个目标词组对应的目标标准词组,所述目标词组与对应的目标标准词组具有相同的语义;
基于所述各个目标词组对应的目标标准词组,对所述目标文本中的目标词组进行词组替换,得到在所述目标领域下与所述目标文本相匹配的目标匹配文本。


3.根据权利要求1所述的方法,其特征在于,所述确定在目标领域下与所述目标文本相匹配的目标匹配文本,包括:
获取目标领域下的形式规范,并基于所述形式规范从数据库中获取N个待选文本,每个所述待选文本由符合所述形式规范的至少一个标准词组组成,N为正整数;
对所述目标文本和所述N个待选文本进行向量化处理,得到所述目标文本对应的目标文本向量,以及所述N个待选文本对应的N个待选文本向量;
从所述N个待选文本向量中筛选出与所述目标文本向量之间距离最近的第一待选文本向量;
将所述第一待选文本向量对应的待选文本确定为在目标领域下与所述目标文本相匹配的目标匹配文本。


4.根据权利要求1所述的方法,其特征在于,所述确定所述目标文本与所述参考文本之间的第一相似度,包括:
对所述目标文本进行分词处理,得到至少一个目标词组;
对所述至少一个目标词组进行向量化处理,得到至少一个词向量;
基于每个所述目标词组在所述目标文本中的位置,确定每个所述目标词组的权重;
基于所述至少一个词向量和每个所述目标词组的权重构建所述目标文本对应的目标特征矩阵;
通过匹配模型对所述目标特征矩阵和所述参考文本对应的参考特征矩阵进行处理,得到所述目标文本与所述参考文本之间的第一相似度。


5.根据权利要求4所述的方法,其特征在于,所述基于所述至少一个词向量和每个所述目标词组的权重构建所述目标文本对应的目标特征矩阵,包括:
基于每个所述目标词组的权重...

【专利技术属性】
技术研发人员:张桂荣
申请(专利权)人:重庆金融资产交易所有限责任公司
类型:发明
国别省市:重庆;50

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1