文本信息匹配度量的方法、装置、服务器及存储介质制造方法及图纸

技术编号:22467644 阅读:28 留言:0更新日期:2019-11-06 11:28
本发明专利技术涉及人工智能领域,公开了一种文本信息匹配度量的方法,所述文本信息匹配度量的方法包括:在接收到目标文本和相似文本时,读取目标文本和相似文本中的字词粒度;根据读取到的目标文本的字词粒度和相似文本的字词粒度,获取目标文本的向量表征信息和相似文本的向量表征信息;当将目标文本的向量表征信息和相似文本的向量表征信息作为预置孪生网络模型的输入值时,获取预置孪生网络模型计算的目标文本与相似文本的相似度;在获取到目标文本与相似文本之间的相似度时,匹配与目标文本相似度最高的相似文本。本发明专利技术还公开了一种装置、服务器及存储介质。实现了基于词语和单字集成的文本相似度匹配算法,进一步提高句子语义分析效果。

Methods, devices, servers and storage media of text information matching measurement

【技术实现步骤摘要】
文本信息匹配度量的方法、装置、服务器及存储介质
本专利技术涉及智能推荐领域,尤其涉及一种文本信息匹配度量的方法、装置、服务器及计算机可读存储介质。
技术介绍
最近几年随着word2vec和GloVe等词语分布表示工具的出现和完善,词语的表示信息越来越丰富,每个词向量不仅包含较为丰富的语义信息,同时每个词向量之间还存在一定的关系,可以通过简单的运算来得到预料中未包含词语的向量信息。自2012年来,卷积神经网络(convolutionalneuralnetworks,CNN)模型在图像识别中大放异彩,更多的研究者们开始将CNN模型移植到自然语言处理的任务上来,以获取不同文本之间的相似度。目前业内的问题相似度算法主要包括:1、在平均词嵌入之间求余弦相似性的基准方法;2、词移距离:使用两文本间的词嵌入,测量其中一文本中的单词在语义空间中移动到另一文本单词所需要的最短距离;3、SmoothInverseFrequency对每个词嵌入赋予不同的权重。但这些方法存在基于句子词语的相似度量仍存在无法比较准确,且语义的剥离往往有较大偏差。
技术实现思路
本专利技术的主要目的在于提供一种文本信息匹配度量的方法,旨在解决在相似度算法中获取文本的语义往往有较大偏差,导致相似度度量不准确的技术问题。为实现上述目的,本专利技术提供一种文本信息匹配度量的方法,所述文本信息匹配度量的方法包括:在接收到目标文本和相似文本时,读取所述目标文本和所述相似文本中的字词粒度,其中所述相似文本至少为一个;根据读取到的所述目标文本的字词粒度和所述相似文本的字词粒度,获取所述目标文本的向量表征信息和所述相似文本的向量表征信息;当将所述目标文本的向量表征信息和所述相似文本的向量表征信息作为预置孪生网络模型的输入值时,获取所述预置孪生网络模型计算的所述目标文本与所述相似文本之间的相似度;在获取到所述目标文本与所述相似文本之间的相似度时,匹配与所述目标文本相似度最高的相似文本。可选的,所述在接收到目标文本和相似文本时,读取所述目标文本和所述相似文本中的字词粒度,包括:在接收到目标文本和相似文本时,获取预置知识库;当获取到所述预置知识库时,分解所述目标文本和所述相似文本;在分解所述目标文本和所述相似文本时,读取所述目标文本和所述相似文本中的字词粒度。可选的,所述根据读取到的所述目标文本的字词粒度和所述相似文本的字词粒度,获取所述目标文本的向量表征信息和所述相似文本的向量表征信息,包括:在读取到所述目标文本的字词粒度和所述相似文本的字词粒度时,调用预置第一神经网络模型和预置第二神经网络模型;根据所述预置第一神经网络模型,获取所述目标文本的字词向量表征信息和所述相似文本的字词向量表征信息;根据所述预置第二神经网络模型,获取所述目标文本的向量表征信息和所述相似文本的向量表征信息。可选的,所述根据所述预置第一神经网络模型,获取所述目标文本的字词向量表征信息和所述相似文本的字词向量表征信息,包括:当调用所述预置第一神经网络模型时,将读取到的所述目标文本的字词粒度和所述相似文本的字词粒度分别作为所述预置第一神经网络模型的输入值;在运行所述预置第一神经网络模型时,检测所述预置第一神经网络的权重矩阵以及隐藏层;在检测到所述预置第一神经网络的权重矩阵以及隐藏层时,分别获取所述预置第一神经网络模型输出的所述目标文本的字词向量表征信息和所述相似文本的字词向量表征信息。可选的,所述根据所述预置第一神经网络模型,获取所述目标文本的字词向量表征信息和所述相似文本的字词向量表征信息之后,所述根据所述预置第二神经网络模型,获取所述目标文本的向量表征信息和所述相似文本的向量表征信息之前,还包括:当获取到所述目标文本的字词向量表征信息的数量和所述相似文本的字词向量表征信息的数量时,判断所述目标文本与所述相似文本的字词向量表征信息的数量是否一致;当所述目标文本的字词向量表征信息的数量与所述相似文本的字词向量表征信息的数量不一致时,根据预置阈值修改所述目标文本或所述相似文本的字词向量表征信息的数量。可选的,所述根据所述预置第二神经网络模型,获取所述目标文本的向量表征信息和所述相似文本的向量表征信息,包括:当调用所述预置第二神经网络模型时,分别将所述目标文本的字词向量表征信息和所述相似文本的字词向量表征信息作为所述预置第二神经网络模型的输入值;在运行所述预置第二神经网络模型时,检测所述预置第二神经网络的权重矩阵以及隐藏层;在检测到所述预置第二神经网络的权重矩阵以及隐藏层时,获取所述预置第二神经网络模型输出的所述目标文本的向量表征信息和所述相似文本的向量表征信息。可选的,所述当将所述目标文本的向量表征信息和所述相似文本的向量表征信息作为预置孪生网络模型的输入值时,获取所述预置孪生网络模型计算的所述目标文本与所述相似文本之间的相似度,包括:在获取到所述目标文本的向量表征信息以及所述相似文本的向量表征信息时,向所述预置孪生神经网络模型中输入所述目标文本的向量表征信息和所述相似文本的向量表征信息;当输入所述目标文本的向量表征信息和所述相似文本的向量表征信息时,检测到所述预置孪生神经网络模型的注意力机制以及前向网络编码将所述目标文本的向量表征信息和所述相似文本的向量表征信息作为隐藏层的初始值;根据所述预置孪生神经网络模型的函数公式获取所述目标文本和所述相似文本之间的相似度。此外,为实现上述目的,本专利技术还提供一种文本信息匹配度量的装置,所述文本信息匹配度量的装置包括:读取模块,用于在接收到目标文本和相似文本时,读取所述目标文本和所述相似文本中的字词粒度,其中所述相似文本至少为一个;第一获取模块,用于根据读取到的所述目标文本的字词粒度和所述相似文本的字词粒度,获取所述目标文本的向量表征信息和所述相似文本的向量表征信息;第二获取模块,用于当将所述目标文本的向量表征信息和所述相似文本的向量表征信息作为预置孪生网络模型的输入值时,获取所述预置孪生网络模型计算的所述目标文本与所述相似文本之间的相似度;匹配模块,用于在获取到所述目标文本与所述相似文本之间的相似度时,匹配与所述目标文本相似度最高的相似文本。可选的,所述读取模块具体用于:在接收到目标文本和相似文本时,获取预置知识库;当获取到所述预置知识库时,分解所述目标文本和所述相似文本;在分解所述目标文本和所述相似文本时,读取所述目标文本和所述相似文本中的字词粒度。可选的,所述第一获取模块包括:第一调用单元,用于在读取到所述目标文本的字词粒度和所述相似文本的字词粒度时,调用预置第一神经网络模型和预置第二神经网络模型;第一获取单元,用于根据所述预置第一神经网络模型,获取所述目标文本的字词向量表征信息和所述相似文本的字词向量表征信息;第二获取单元,用于根据所述预置第二神经网络模型,获取所述目标文本的向量表征信息和所述相似文本的向量表征信息。可选的,所述第一获取单元具体用于:当调用所述预置第一神经网络模型时,将读取到的所述目标文本的字词粒度和所述相似文本的字词粒度分别作为所述预置第一神经网络模型的输入值;在运行所述预置第一神经网络模型时,检测所述预置第一神经网络的权重矩阵以及隐藏层;在检测到所述预置第一神经网络的权重矩阵以及隐藏层时,分别获取所述预置第一神经网络模型输出的所述目标本文档来自技高网...

【技术保护点】
1.一种文本信息匹配度量的方法,其特征在于,所述文本信息匹配度量的方法包括:在接收到目标文本和相似文本时,读取所述目标文本和所述相似文本中的字词粒度,其中所述相似文本至少为一个;根据读取到的所述目标文本的字词粒度和所述相似文本的字词粒度,获取所述目标文本的向量表征信息和所述相似文本的向量表征信息;当将所述目标文本的向量表征信息和所述相似文本的向量表征信息作为预置孪生网络模型的输入值时,获取所述预置孪生网络模型计算的所述目标文本与所述相似文本之间的相似度;在获取到所述目标文本与所述相似文本之间的相似度时,匹配与所述目标文本相似度最高的相似文本。

【技术特征摘要】
1.一种文本信息匹配度量的方法,其特征在于,所述文本信息匹配度量的方法包括:在接收到目标文本和相似文本时,读取所述目标文本和所述相似文本中的字词粒度,其中所述相似文本至少为一个;根据读取到的所述目标文本的字词粒度和所述相似文本的字词粒度,获取所述目标文本的向量表征信息和所述相似文本的向量表征信息;当将所述目标文本的向量表征信息和所述相似文本的向量表征信息作为预置孪生网络模型的输入值时,获取所述预置孪生网络模型计算的所述目标文本与所述相似文本之间的相似度;在获取到所述目标文本与所述相似文本之间的相似度时,匹配与所述目标文本相似度最高的相似文本。2.如权利要求1所述的文本信息匹配度量的方法,其特征在于,所述在接收到目标文本和相似文本时,读取所述目标文本和所述相似文本中的字词粒度,包括:在接收到目标文本和相似文本时,获取预置知识库;当获取到所述预置知识库时,分解所述目标文本和所述相似文本;在分解所述目标文本和所述相似文本时,读取所述目标文本和所述相似文本中的字词粒度。3.如权利要求1所述的文本信息匹配度量的方法,其特征在于,所述根据读取到的所述目标文本的字词粒度和所述相似文本的字词粒度,获取所述目标文本的向量表征信息和所述相似文本的向量表征信息,包括:在读取到所述目标文本的字词粒度和所述相似文本的字词粒度时,调用预置第一神经网络模型和预置第二神经网络模型;根据所述预置第一神经网络模型,获取所述目标文本的字词向量表征信息和所述相似文本的字词向量表征信息;根据所述预置第二神经网络模型,获取所述目标文本的向量表征信息和所述相似文本的向量表征信息。4.如权利要求3所述的文本信息匹配度量的方法,其特征在于,所述根据所述预置第一神经网络模型,获取所述目标文本的字词向量表征信息和所述相似文本的字词向量表征信息,包括:当调用所述预置第一神经网络模型时,将读取到的所述目标文本的字词粒度和所述相似文本的字词粒度分别作为所述预置第一神经网络模型的输入值;在运行所述预置第一神经网络模型时,检测所述预置第一神经网络的权重矩阵以及隐藏层;在检测到所述预置第一神经网络的权重矩阵以及隐藏层时,分别获取所述预置第一神经网络模型输出的所述目标文本的字词向量表征信息和所述相似文本的字词向量表征信息。5.如权利要求3所述的文本信息匹配度量的方法,其特征在于,所述根据所述预置第一神经网络模型,获取所述目标文本的字词向量表征信息和所述相似文本的字词向量表征信息之后,所述根据所述预置第二神经网络模型,获取所述目标文本的向量表征信息和所述相似文本的向量表征信息之前,还包括:当获取到所述目标文本的字词向量表征信息的数量和所述相似文本的字词向量表征信息的数量时,判断所述目标文本与所述相似文本的字词向量表征信息的数量是否一致;当所述目标文本的字词向量表征信息的数量与...

【专利技术属性】
技术研发人员:陈闽川马骏王少军
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1