相似文本识别方法以及装置制造方法及图纸

技术编号:22055286 阅读:33 留言:0更新日期:2019-09-07 15:16
本发明专利技术实施例公开了一种相似文本识别方法以及装置;本发明专利技术实施例将需要进行相似标题识别处理的文章标题组合为标题文本集,然后两两组合得到文本对,使用无监督机器学习模型得到第一相似度值,使用训练后有监督机器学习模型得到第二相似度值,最后根据第一相似度值和第二相似度值,识别文本对中的相似文本对;在该过程中,采用无监督机器学习模型与有监督机器学习模型融合的框架来识别相似文本,识别率更高,解决了现有相似文本筛选技术存在的针对新闻标题等短文本中相似文本识别率低的技术问题。

Similar Text Recognition Method and Device

【技术实现步骤摘要】
相似文本识别方法以及装置
本专利技术涉及推荐领域,具体涉及一种相似文本识别方法以及装置。
技术介绍
基于文本相似度,进行新闻、广告等文本推送是推送系统的核心,推送系统在用户点击某个新闻之后,根据用户需求进行相似文本或者不相似文本的推送,以提高对用户的吸引力。现有相似文本识别技术在计算文本相似度时,主要采用基于词典或者特征工程的文本相似度计算技术,词典或者特征工程的准确性,在很大程度上影响算法准确性。但是,针对词汇量少、语义信息少的短文本,如新闻标题来说,难以建立准确的词典或者特征工程,将导致现有相似文本识别技术难以捕捉短文本中的关键信息,相似度计算效果较差,相似文本识别率低。即现有相似文本识别技术存在针对新闻标题等短文本的相似文本识别率低的技术问题。
技术实现思路
本专利技术实施例提供一种相似文本识别方法以及装置,以解决现有相似文本识别技术存在的针对短文本中相似文本识别率低的技术问题。为解决上述技术问题,本专利技术实施例提供以下技术方案:本专利技术实施例提供了一种相似文本识别方法,其包括:获取文章的标题,得到标题文本集;对所述标题文本集中的文本进行两两组合,得到文本对;使用无监督机器学习本文档来自技高网...

【技术保护点】
1.一种相似文本识别方法,其特征在于,包括:获取文章的标题,得到标题文本集;对所述标题文本集中的文本进行两两组合,得到文本对;使用无监督机器学习模型,获取所述文本对内文本之间的第一相似度值;使用训练后有监督机器学习模型,获取所述文本对内文本之间的第二相似度值;根据所述第一相似度值和第二相似度值,从所述文本对中识别出文本相似的相似文本对。

【技术特征摘要】
1.一种相似文本识别方法,其特征在于,包括:获取文章的标题,得到标题文本集;对所述标题文本集中的文本进行两两组合,得到文本对;使用无监督机器学习模型,获取所述文本对内文本之间的第一相似度值;使用训练后有监督机器学习模型,获取所述文本对内文本之间的第二相似度值;根据所述第一相似度值和第二相似度值,从所述文本对中识别出文本相似的相似文本对。2.根据权利要求1所述的方法,其特征在于,在所述使用训练后有监督机器学习模型,获取所述文本对内文本之间的第二相似度值的步骤之前,还包括:基于所述文本对内文本之间的第一相似度值,对所述标题文本集内的文本进行处理,得到训练语料;使用所述训练语料对有监督机器学习模型进行训练,得到所述训练后有监督机器学习模型。3.根据权利要求2所述的方法,其特征在于,所述基于所述文本对内文本之间的第一相似度值,对所述标题文本集内的文本进行处理,得到训练语料的步骤,包括:从所述标题文本集内选择一个文本,标记为目标文本;将包括所述目标文本的文本对,标记为目标文本对;根据所述目标文本对内文本之间的第一相似度值,确定与所述目标文本之间的第一相似度值大于第一相似度阈值的第一文本,以及与所述目标文本之间的第一相似度值小于所述第一相似度阈值的第二文本;将所述第一文本识别为所述目标文本的相似文本,将所述第二文本识别为所述目标文本的不相似文本;对所述目标文本、所述目标文本的相似文本、以及所述目标文本的不相似文本进行聚类处理,得到所述训练语料。4.根据权利要求1所述的方法,其特征在于,所述无监督机器学习模型包括主题词相似度模型、空间向量余弦相似度模型以及词向量余弦相似度模型;所述使用无监督机器学习模型,获取所述文本对内文本之间的第一相似度值的步骤,包括:使用所述主题词相似度模型,得到所述文本对内文本之间的主题词相似度;使用所述空间向量余弦相似度模型,得到所述文本对内文本之间的空间向量余弦相似度;使用所述词向量余弦相似度模型,得到所述文本对内文本之间的词向量余弦相似度;基于所述主题词相似度、向量空间模型余弦相似度以及词向量余弦相似度,得到所述第一相似度值。5.根据权利要求4所述的方法,其特征在于,所述使用所述主题词相似度模型,得到所述文本对内文本之间的主题词相似度的步骤,包括:根据主题词的主题词标识,对文本中的主题词进行排序;根据排序结果,确定所述文本对内文本之间的相同主题词;根据所述文本对内文本之间的相同主题词个数、以及所述文本对内文本包含的所有主题词个数,得到所述主题词相似度。6.根据权利要求4所述的方法,其特征在于,所述基于所述主题词相似度、向量空间模型余弦相似度以及词向量余弦相似度,得到所述第一相似度值的步骤,包括:获取所述主题词相似度模型、空间向量余弦相似度模型以及词向量余弦相似度模型分别对应的相似文本识别准确率;根据所述相似文本识别准确率,确定所述主题词相似度、空间向量余弦相似度以及词向量余弦相似度分别对应的权重系数;根据所述主题词相似度、向量空间模型余弦相似度以及词向量余弦相似度,以及所述权重系数,得到所述第一相似度值。7.根据权利要求1所述的方法,其特征在于,所述使用训练后有监督机器学习模型,获取所述文本对内文本之间的第二相似度值的步骤包括:在文本对中,筛选得到待召回文本对;所述待召回文本对内文本之间的第一相似度值小于第一相似度阈值;使用所述训练后有监督机器学习模型,计算所述待召回文本对内文本之间的第二相似度值。8.根据权利要求1所述的方法,其特征在于,所述根据所述第一相似度值和第二相似...

【专利技术属性】
技术研发人员:张恒曹霖吕进郑洁琼
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1