文本匹配方法、装置、计算机可读存储介质和计算机设备制造方法及图纸

技术编号:24456180 阅读:13 留言:0更新日期:2020-06-10 15:37
本申请涉及一种文本匹配方法、装置、计算机可读存储介质和计算机设备,所述方法包括:获取第一文本和第二文本,第一文本长度大于第二文本长度;确定第一文本对应的第一文本向量,并确定第二文本对应的第二文本向量;将第一文本向量和第二文本向量匹配,得到第一文本和第二文本的文本匹配结果,其中,基于第一文本中的各个分句的文本向量得到所述第一文本向量,根据第一文本中的各个分句的初始向量与第二文本向量之间的相似度来确定第一文本中的各个分句的文本向量。本申请提供的方案可以实现提高文本匹配的准确性。

Text matching method, device, computer-readable storage medium and computer equipment

【技术实现步骤摘要】
文本匹配方法、装置、计算机可读存储介质和计算机设备
本申请涉及互联网
,特别是涉及一种文本匹配方法、装置、计算机可读存储介质和计算机设备。
技术介绍
随着自然语言处理技术的发展,文本匹配在很多实际应用场景中都被广泛应用。比如,根据用户搜索语查找对应的文章。现有的文本匹配方法主要是基于词汇重合度的匹配算法来确定两个文本之间是否匹配。然而这种方法只是对词汇进行重合度的匹配,并未对文本的语义进行深入理解并匹配,存在文本匹配准确性低的问题
技术实现思路
基于此,有必要针对文本匹配准确性低的技术问题,提供一种文本匹配方法、装置、计算机可读存储介质和计算机设备。一种文本匹配方法,包括:获取第一文本和第二文本,第一文本长度大于第二文本长度;确定第一文本对应的第一文本向量,并确定第二文本对应的第二文本向量;将第一文本向量和第二文本向量匹配,得到第一文本和第二文本的文本匹配结果,其中,基于第一文本中的各个分句的文本向量得到所述第一文本向量,根据第一文本中的各个分句的初始向量与第二文本向量之间的相似度来确定第一文本中的各个分句的文本向量。一种文本匹配装置,包括:文本获取模块,用于获取第一文本和第二文本,第一文本长度大于第二文本长度;向量确定模块,用于确定第一文本对应的第一文本向量,并确定第二文本对应的第二文本向量;向量匹配模块,用于将第一文本向量和第二文本向量匹配,得到第一文本和第二文本的文本匹配结果,其中,基于第一文本中的各个分句的文本向量得到所述第一文本向量,根据第一文本中的各个分句的初始向量与第二文本向量之间的相似度来确定第一文本中的各个分句的文本向量。一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,该处理器执行程序时实现以下步骤:获取第一文本和第二文本,第一文本长度大于第二文本长度;确定第一文本对应的第一文本向量,并确定第二文本对应的第二文本向量;将第一文本向量和第二文本向量匹配,得到第一文本和第二文本的文本匹配结果,其中,基于第一文本中的各个分句的文本向量得到所述第一文本向量,根据第一文本中的各个分句的初始向量与第二文本向量之间的相似度来确定第一文本中的各个分句的文本向量。一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时,使得处理器执行以下步骤:获取第一文本和第二文本,第一文本长度大于第二文本长度;确定第一文本对应的第一文本向量,并确定第二文本对应的第二文本向量;将第一文本向量和第二文本向量匹配,得到第一文本和第二文本的文本匹配结果,其中,基于第一文本中的各个分句的文本向量得到所述第一文本向量,根据第一文本中的各个分句的初始向量与第二文本向量之间的相似度来确定第一文本中的各个分句的文本向量。上述文本匹配方法、装置、计算机可读存储介质和计算机设备,通过计算第一文本中的各个分句的初始向量与第二文本向量之间的相似度,根据相似度确定各个分句的文本向量,从而得到第一文本向量,然后将第一文本向量和第二文本向量进行匹配,得到第一文本和第二文本的文本匹配结果。通过确定第一文本中各个分句与第二文本的相似度来确定各个分句的文本向量,使得到的各个分句的文本向量更加的精准,从而使得到的第一文本向量更加的精准。然后使用第一文本向量与第二文本向量进行匹配,提高了文本匹配结果的准确性。附图说明图1为一个实施例中文本匹配方法的应用环境图;图2为一个实施例中文本匹配方法的流程示意图;图3为一个实施例中得到第二文本向量的流程示意图;图4为一个实施例中计算分句的文本向量的流程示意图;图5为一个实施例中得到分句的文本向量的流程示意图;图6为一个实施例中得到第一文本向量的流程示意图;图7为一个实施例中得到文本匹配结果的流程示意图;图8为一个实施例中得到文本匹配概率的流程示意图;图9为一个实施例中训练文本匹配模型的流程示意图;图10为一个实施例中得到文本匹配模型的流程示意图;图11为一个实施例中得到目标损失函数的流程示意图;图12为一个实施例中得到第一文本识别向量的流程示意图;图13为一个实施例中文本匹配模型的模型结构的示意图;图14为另一个实施例中文本匹配模型的模型结构的示意图;图15为一个实施例中文本匹配装置的结构框图;图16为一个实施例中计算机设备的结构框图。具体实施方式为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。人工智能(ArtificialIntelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。自然语言处理(NatureLanguageprocessing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。机器学习(MachineLearning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。本申请实施例提供的方案涉及人工智能的自然语言处理、机器学习等技术,具体通过如下实施例进行说明:图1为一个实施例中文本匹配方法的应用环境图。参照图1,该文本匹配方法应用于文本匹配系统。该文本匹配系统包括终端102和服务器104。终端102和服务器104通过网络连接。终端102本文档来自技高网...

【技术保护点】
1.一种文本匹配方法,包括:/n获取第一文本和第二文本,所述第一文本长度大于所述第二文本长度;/n确定所述第一文本对应的第一文本向量,并确定所述第二文本对应的第二文本向量;/n将所述第一文本向量和所述第二文本向量匹配,得到所述第一文本和第二文本的文本匹配结果,/n其中,基于所述第一文本中的各个分句的文本向量得到所述第一文本向量,根据所述第一文本中的各个分句的初始向量与所述第二文本向量之间的相似度来确定所述第一文本中的各个分句的文本向量。/n

【技术特征摘要】
1.一种文本匹配方法,包括:
获取第一文本和第二文本,所述第一文本长度大于所述第二文本长度;
确定所述第一文本对应的第一文本向量,并确定所述第二文本对应的第二文本向量;
将所述第一文本向量和所述第二文本向量匹配,得到所述第一文本和第二文本的文本匹配结果,
其中,基于所述第一文本中的各个分句的文本向量得到所述第一文本向量,根据所述第一文本中的各个分句的初始向量与所述第二文本向量之间的相似度来确定所述第一文本中的各个分句的文本向量。


2.根据权利要求1所述的方法,其特征在于,所述文本匹配结果是通过文本匹配模型得到的,所述文本匹配模型包括文本向量化网络、相似度计算网络和文本匹配输出层网络;
所述文本向量化网络用于确定所述第一文本中的各个分句的初始向量和所述第二文本对应的第二文本向量,所述相似度计算网络用于计算所述各个分句的初始向量与所述第二文本向量之间的相似度,根据所述相似度确定所述各个分句的文本向量,基于所述各个分句的文本向量得到所述第一文本向量,所述文本匹配输出层网络用于将所述第一文本向量和所述第二文本向量匹配,得到所述第一文本和第二文本的文本匹配结果。


3.根据权利要求2所述的方法,其特征在于,所述确定所述第一文本中的各个分句的初始向量和所述第二文本对应的第二文本向量,包括:
对所述第一文本进行分句,得到各个分句;
分别对所述各个分句进行分词,得到所述各个分句对应的分句词;
获取所述分句词对应的分句词向量,将所述分句词向量输入到所述文本向量化网络中,得到所述各个分句的初始向量;
对所述第二文本进行分词,得到各个第二文本分词;
获取所述各个第二文本分词对应的第二文本分词向量,将所述各个第二文本分词向量输入到所述文本向量化网络中,得到所述第二文本对应的第二文本向量。


4.根据权利要求2所述的方法,其特征在于,所述计算所述各个分句的初始向量与所述第二文本向量之间的相似度,根据所述相似度确定所述各个分句的文本向量,包括:
通过相似度计算网络计算所述各个分句的初始向量与所述第二文本向量的相似度,根据所述相似度确定所述各个分句的初始向量对应的权重信息;
根据所述各个分句的初始向量与对应的权重信息计算所述各个分句的文本向量。


5.根据权利要求4所述的方法,其特征在于,所述根据所述各个分句的初始向量与对应的权重信息计算所述各个分句的文本向量,包括:
获取第一分句的初始向量中各个向量元素,计算所述各个向量元素与所述第一分句的初始向量对应权重信息的乘积,得到各个修正向量元素;
根据所述各个修正向量元素得到所述第一分句的文本向量。


6.根据权利要求1所述的方法,其特征在于,基于所述第一文本中的各个分句的文本向量得到所述第一文本向量,包括:
计算所述各个分句的文本向量的和,得到所述第一文本向量。


7.根据权利要求6所述的方法,其特征在于,计算所述各个分句的文本向量的和,得到所述第一文本向量,包括:
获取所述各个分句的文本向量中的向量元素和向量元素位置,将相同向量元素位置对应的各个向量元素进行相加,得到所述各个向量元素位置对应的目标向量元素;
根据所述各个目标向量元素得到第一文本向量。


8.根据权利要求2所述的方法,其特征在于,所述将所述第一文本向量和所述第二文本向量匹配,得到所述第一文本和所述第二文本的文本匹配结果,包括:
将所述第一文本向量和所述第二文本向量输入到所述文本匹配输出层网络中,得到输出的文本匹配概率;
根据所述文本匹配概率得到所述第一文本...

【专利技术属性】
技术研发人员:李振阳梁涛李超张晗马连洋衡阵
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1