同义文本识别及内容推荐方法、装置及电子设备制造方法及图纸

技术编号:25043421 阅读:17 留言:0更新日期:2020-07-29 05:33
本申请涉及人工智能技术领域,公开了一种同义文本识别及内容推荐方法、装置及电子设备,能够准确区分整体相似度较高但局部细节不同的两个文本,降低了同义文本的误判率。所述方法包括:基于第一待匹配文本和第二待匹配文本获得第一特征向量,第一特征向量表征第一待匹配文本和第二待匹配文本之间的深层语义特征的匹配度;基于第一待匹配文本和第二待匹配文中的特征词,获得第二特征向量,第二特征向量表征第一待匹配文本中的特征词和第二待匹配文本中的特征词之间的重合度;基于第一特征向量和第二特征向量融合后的特征向量,确定第一待匹配文本和第二待匹配文本是否为同义文本。

【技术实现步骤摘要】
同义文本识别及内容推荐方法、装置及电子设备
本申请涉及人工智能
,尤其涉及一种同义文本识别及内容推荐方法、装置及电子设备。
技术介绍
在基于信息流的应用中,识别重复内容至关重要,可以避免给用户推送重复内容。现有技术中,通常基于已训练的神经网络模型,提取表征两个文本之间匹配度的特征向量,然后将该特征向量输入预先训练的二分类器,获得上述两个文本是否为同义文本的分类结果。通常需要采用较深的神经网络模型,例如12层的神经网络模型,以获得输入文本深层的语义特征,使得模型更加智能,能够识别出各种表达方式不同但实质内容相同的同义文本,提高识别出重复内容的准确度。
技术实现思路
本申请实施例提供一种同义文本识别及内容推荐方法、装置、电子设备及存储介质,能够准确区分整体相似度较高但局部细节不同的两个文本,降低了同义文本的误判率。一方面,本申请一实施例提供了一种同义文本识别方法,包括:基于第一待匹配文本和第二待匹配文本获得第一特征向量,所述第一特征向量表征所述第一待匹配文本和所述第二待匹配文本之间的深层语义特征的相似度;基于所述第一待匹配文本和所述第二待匹配文中的特征词,获得第二特征向量,所述第二特征向量表征所述第一待匹配文本中的特征词和所述第二待匹配文本中的特征词之间的重合度;基于所述第一特征向量和所述第二特征向量融合后的特征向量,确定所述第一待匹配文本和所述第二待匹配文本是否为同义文本。一方面,本申请一实施例提供了一种内容推送方法,包括:获取候选内容以及历史推送内容集合,所述历史推送内容集合中包括至少一个历史推送内容;针对所述历史推送内容集合中的任一历史推送内容,根据上述任一项同义文本识别,确定所述候选内容对应的第一待匹配文本和所述任一历史推送内容对应的第二待匹配文本是否为同义文本;若所述第一待匹配文本与所述历史推送内容集合中的各个历史推送内容对应的第二待匹配文本均不是同义文本,则对所述候选内容进行推送。一方面,本申请一实施例提供了一种同义文本识别装置,包括:第一特征提取模块,用于基于第一待匹配文本和第二待匹配文本获得第一特征向量,所述第一特征向量表征所述第一待匹配文本和所述第二待匹配文本之间的深层语义特征的匹配度;第二特征提取模块,用于基于所述第一待匹配文本和所述第二待匹配文中的特征词,获得第二特征向量,所述第二特征向量表征所述第一待匹配文本中的特征词和所述第二待匹配文本中的特征词之间的重合度;识别模块,用于基于所述第一特征向量和所述第二特征向量融合后的特征向量,确定所述第一待匹配文本和所述第二待匹配文本是否为同义文本。可选地,特征词的类型包括以下至少一种:实体词、表示地域的词、表示时间的词、英文或数字。可选地,所述第二特征提取模块,具体用于:将各种类型的特征词对应的第三特征向量拼接成一个一阶向量;求所述一阶向量的笛卡尔积,获得一个二阶矩阵;将所述二阶矩阵确定为第二特征向量。一方面,本申请一实施例提供了一种内容推送装置,包括:获取模块,用于获取候选内容以及历史推送内容集合,所述历史推送内容集合中包括至少一个历史推送内容;同义识别模块,用于针对所述历史推送内容集合中的任一历史推送内容,基于上述任一种同义文本识别方法,确定所述候选内容对应的第一待匹配文本和所述任一历史推送内容对应的第二待匹配文本是否为同义文本;推送模块,用于若所述第一待匹配文本与所述历史推送内容集合中的各个历史推送内容对应的第二待匹配文本均不是同义文本,则对所述候选内容进行推送。可选地,所述第一待匹配文本和所述第二待匹配文本为标题、摘要或简介。一方面,本申请一实施例提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,处理器执行计算机程序时实现上述任一种同义文本识别方法或任一种内容推送方法的步骤。一方面,本申请一实施例提供了一种计算机可读存储介质,其上存储有计算机程序指令,该计算机程序指令被处理器执行时实现上述任一种同义文本识别方法或任一种内容推送方法的步骤。本申请实施例提供的同义文本识别及内容推荐方法、装置、电子设备及存储介质,获取表征第一待匹配文本和第二待匹配文本之间的深层语义特征的匹配度的第二特征向量,同时从第一待匹配文本和第二待匹配文本中分别提取特征词,基于提取的特征词之间的重合度,获得表征两个文本间浅层相似度的第二特征向量,基于融合了浅层特征向量和深层特征向量的特征向量,确定这两个文本是否为同义文本。由于融合后的特征向量中包括浅层特征向量和深层特征向量,因此,融合后的特征向量既保留了两个文本的深层语义特征间的匹配度,又保留了文本浅层的细节信息,从而能够准确区分整体相似度较高但局部细节不同的两个文本,降低了同义文本的误判率。附图说明为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,显而易见地,下面所介绍的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本申请实施例提供的同义文本识别方法的应用场景示意图;图2为本申请一实施例提供的同义文本识别方法的流程示意图;图3为本申请一实施例提供的一种同义识别模型的结构示意图;图4为本申请一实施例提供的同义文本识别方法中获得第二特征向量的流程示意图;图5为本申请一实施例提供的不同类型的特征词所对应的特征条件;图6为本申请一实施例提供的内容推送方法的流程示意图;图7为本申请一实施例提供的同义文本识别装置的结构示意图;图8为本申请一实施例提供的内容推送装置的结构示意图;图9为本申请一实施例提供的电子设备的结构示意图。具体实施方式为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。为了方便理解,下面对本申请实施例中涉及的名词进行解释:自然语言处理(NatureLanguageprocessing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。机器学习(MachineLearning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。本文档来自技高网...

【技术保护点】
1.一种同义文本识别方法,其特征在于,包括:/n基于第一待匹配文本和第二待匹配文本获得第一特征向量,所述第一特征向量表征所述第一待匹配文本和所述第二待匹配文本之间的深层语义特征的匹配度;/n基于所述第一待匹配文本和所述第二待匹配文中的特征词,获得第二特征向量,所述第二特征向量表征所述第一待匹配文本中的特征词和所述第二待匹配文本中的特征词之间的重合度;/n基于所述第一特征向量和所述第二特征向量融合后的特征向量,确定所述第一待匹配文本和所述第二待匹配文本是否为同义文本。/n

【技术特征摘要】
1.一种同义文本识别方法,其特征在于,包括:
基于第一待匹配文本和第二待匹配文本获得第一特征向量,所述第一特征向量表征所述第一待匹配文本和所述第二待匹配文本之间的深层语义特征的匹配度;
基于所述第一待匹配文本和所述第二待匹配文中的特征词,获得第二特征向量,所述第二特征向量表征所述第一待匹配文本中的特征词和所述第二待匹配文本中的特征词之间的重合度;
基于所述第一特征向量和所述第二特征向量融合后的特征向量,确定所述第一待匹配文本和所述第二待匹配文本是否为同义文本。


2.根据权利要求1所述的方法,其特征在于,所述基于所述第一待匹配文本和所述第二待匹配文中的特征词,确定第二特征向量,具体包括:
针对任一类型的特征词,获得所述第一待匹配文本和所述第二待匹配文本中所述任一类型的特征词之间的重合度;
基于各种类型的特征词所对应的重合度,获得第二特征向量。


3.根据权利要求2所述的方法,其特征在于,特征词的类型包括以下至少一种:实体词、表示地域的词、表示时间的词、英文或数字。


4.根据权利要求2所述的方法,其特征在于,每种类型的特征词对应一个表征重合度的第三特征向量,第三特征向量中的每个特征维度对应一个特征条件;
所述获得所述第一待匹配文本和所述第二待匹配文本中所述任一类型的特征词之间的重合度,具体包括:
针对所述任一类型的特征词所对应的任一特征条件,若确定所述第一待匹配文本中的所述任一类型的特征词和所述第二待匹配文本中的所述任一类型的特征词之间满足所述任一特征条件,则确定所述任一特征条件对应的特征维度的特征值为1,否则为0。


5.根据权利要求4所述的方法,其特征在于,所述任一类型的特征词所对应的特征条件包括以下至少一个:
第一集合中至少存在一个特征词,与第二集合中的特征词相同;
所述第一集合中的任一特征词与所述第二集合中的任一特征词均不相同;
所述第一集合和所述第二集合中有且只有一个空集;以及
所述第一集合和所述第二集合均为空集;
其中,所述第一集合用于存储所述第一待匹配文本中的所述任一类型的特征词,所述第二集合用于存储所述第二待匹配文本中的所述任一类型的特征词。


6.根据权利要求4所述的方法,其特征在于,所述基于各种类型的特征词所对应的重合度,获得第二特征向量,具体包括:
将各种类型的特征词对应的第三特征向量拼接成一个一阶向量;
求所述一阶向量的笛卡尔积,获得一个二阶矩阵;
将所述二阶矩阵确定为第二特征向量。


7.一种内容推送方法,其特征在于,所述方法包括:
获取候选内容以及历史推送内容集合,所述历史推送内容集合中包括至少一个历史推送内容;
针对所述历史推送内容集合中的任一历史推送内容,根据权利要求1至6中任一项所述的方法,确定所述候选内容对应的第一待匹配文本和所述任一历史推送内容对应的第二待匹配文本是否为同义文本;
若所述第一待匹配文本与所述历史推送内容集合中的各个历史推送内容对应的第二待匹配文本均不是同义文本,则对所述候选内容进行推送。


8.根据权利要求7所述的方法,其特征在于,所述第一待匹配文本和所述第二...

【专利技术属性】
技术研发人员:刘树林蔡慧慧
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1