同义文本识别及内容推荐方法、装置及电子设备制造方法及图纸

技术编号：25043421 阅读：17 留言：0更新日期：2020-07-29 05:33

本申请涉及人工智能技术领域，公开了一种同义文本识别及内容推荐方法、装置及电子设备，能够准确区分整体相似度较高但局部细节不同的两个文本，降低了同义文本的误判率。所述方法包括：基于第一待匹配文本和第二待匹配文本获得第一特征向量，第一特征向量表征第一待匹配文本和第二待匹配文本之间的深层语义特征的匹配度；基于第一待匹配文本和第二待匹配文中的特征词，获得第二特征向量，第二特征向量表征第一待匹配文本中的特征词和第二待匹配文本中的特征词之间的重合度；基于第一特征向量和第二特征向量融合后的特征向量，确定第一待匹配文本和第二待匹配文本是否为同义文本。

全部详细技术资料下载

【技术实现步骤摘要】
同义文本识别及内容推荐方法、装置及电子设备
本申请涉及人工智能
，尤其涉及一种同义文本识别及内容推荐方法、装置及电子设备。
技术介绍
在基于信息流的应用中，识别重复内容至关重要，可以避免给用户推送重复内容。现有技术中，通常基于已训练的神经网络模型，提取表征两个文本之间匹配度的特征向量，然后将该特征向量输入预先训练的二分类器，获得上述两个文本是否为同义文本的分类结果。通常需要采用较深的神经网络模型，例如12层的神经网络模型，以获得输入文本深层的语义特征，使得模型更加智能，能够识别出各种表达方式不同但实质内容相同的同义文本，提高识别出重复内容的准确度。
技术实现思路
本申请实施例提供一种同义文本识别及内容推荐方法、装置、电子设备及存储介质，能够准确区分整体相似度较高但局部细节不同的两个文本，降低了同义文本的误判率。一方面，本申请一实施例提供了一种同义文本识别方法，包括：基于第一待匹配文本和第二待匹配文本获得第一特征向量，所述第一特征向量表征所述第一待匹配文本和所述第二待匹配文本之间的深层语义特征的相似度；基于所述第一待匹配文本和所述第二待匹配文中的特征词，获得第二特征向量，所述第二特征向量表征所述第一待匹配文本中的特征词和所述第二待匹配文本中的特征词之间的重合度；基于所述第一特征向量和所述第二特征向量融合后的特征向量，确定所述第一待匹配文本和所述第二待匹配文本是否为同义文本。一方面，本申请一实施例提供了一种内容推送方法，包括：获取候选内容以及历史推...

【技术保护点】
1.一种同义文本识别方法，其特征在于，包括：/n基于第一待匹配文本和第二待匹配文本获得第一特征向量，所述第一特征向量表征所述第一待匹配文本和所述第二待匹配文本之间的深层语义特征的匹配度；/n基于所述第一待匹配文本和所述第二待匹配文中的特征词，获得第二特征向量，所述第二特征向量表征所述第一待匹配文本中的特征词和所述第二待匹配文本中的特征词之间的重合度；/n基于所述第一特征向量和所述第二特征向量融合后的特征向量，确定所述第一待匹配文本和所述第二待匹配文本是否为同义文本。/n

【技术特征摘要】
1.一种同义文本识别方法，其特征在于，包括：
基于第一待匹配文本和第二待匹配文本获得第一特征向量，所述第一特征向量表征所述第一待匹配文本和所述第二待匹配文本之间的深层语义特征的匹配度；
基于所述第一待匹配文本和所述第二待匹配文中的特征词，获得第二特征向量，所述第二特征向量表征所述第一待匹配文本中的特征词和所述第二待匹配文本中的特征词之间的重合度；
基于所述第一特征向量和所述第二特征向量融合后的特征向量，确定所述第一待匹配文本和所述第二待匹配文本是否为同义文本。

2.根据权利要求1所述的方法，其特征在于，所述基于所述第一待匹配文本和所述第二待匹配文中的特征词，确定第二特征向量，具体包括：
针对任一类型的特征词，获得所述第一待匹配文本和所述第二待匹配文本中所述任一类型的特征词之间的重合度；
基于各种类型的特征词所对应的重合度，获得第二特征向量。

3.根据权利要求2所述的方法，其特征在于，特征词的类型包括以下至少一种：实体词、表示地域的词、表示时间的词、英文或数字。

4.根据权利要求2所述的方法，其特征在于，每种类型的特征词对应一个表征重合度的第三特征向量，第三特征向量中的每个特征维度对应一个特征条件；
所述获得所述第一待匹配文本和所述第二待匹配文本中所述任一类型的特征词之间的重合度，具体包括：
针对所述任一类型的特征词所对应的任一特征条件，若确定所述第一待匹配文本中的所述任一类型的特征词和所述第二待匹配文本中的所述任一类型的特征词之间满足所述任一特征条件，则确定所述任一特征条件对应的特征维度的特征值为1，否则为0。

5.根据权利要求4所述的方法，其特征在于，所述任一类型的特征词所对应的特征条件包括以下至少一个：
第一集合中至少存在一个特征词，与第二集合中的特征词相同；
所述第一集合中的任一特征词与所述第二集合中的任一特征词均不相同；
所述第一集合和所述第二集合中有且只有一个空集；以及
所述第一集合和所述第二集合均为空集；
其中，所述第一集合用于存储所述第一待匹配文本中的所述任一类型的特征词，所述第二集合用于存储所述第二待匹配文本中的所述任一类型的特征词。

6.根据权利要求4所述的方法，其特征在于，所述基于各种类型的特征词所对应的重合度，获得第二特征向量，具体包括：
将各种类型的特征词对应的第三特征向量拼接成一个一阶向量；
求所述一阶向量的笛卡尔积，获得一个二阶矩阵；
将所述二阶矩阵确定为第二特征向量。

7.一种内容推送方法，其特征在于，所述方法包括：
获取候选内容以及历史推送内容集合，所述历史推送内容集合中包括至少一个历史推送内容；
针对所述历史推送内容集合中的任一历史推送内容，根据权利要求1至6中任一项所述的方法，确定所述候选内容对应的第一待匹配文本和所述任一历史推送内容对应的第二待匹配文本是否为同义文本；
若所述第一待匹配文本与所述历史推送内容集合中的各个历史推送内容对应的第二待匹配文本均不是同义文本，则对所述候选内容进行推送。

8.根据权利要求7所述的方法，其特征在于，所述第一待匹配文本和所述第二...

【专利技术属性】
技术研发人员：刘树林，蔡慧慧，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人