基于无监督学习的文本相似度计算方法、系统、设备及介质技术方案

技术编号：21547887 阅读：29 留言：0更新日期：2019-07-06 21:26

本发明专利技术公开了一种基于无监督学习的文本相似度计算方法、系统、设备及介质，所述方法包括：获取训练集，将训练集中的每篇文本作为摘要生成网络的输入，得到每篇文本对应的摘要，构成文本集合与摘要集合；搭建相似度计算网络；采用文本集合和摘要集合对相似度计算网络进行训练；将待处理的两篇文本输入训练后的相似度计算网络，输出这两篇文本的相似度。本发明专利技术无需人工标记的配对数据就可以进行训练与学习，大大降低了数据获取的成本。

Text Similarity Computing Method, System, Equipment and Media Based on Unsupervised Learning

全部详细技术资料下载

【技术实现步骤摘要】
基于无监督学习的文本相似度计算方法、系统、设备及介质
本专利技术涉及一种基于无监督学习的文本相似度计算方法、系统、设备及介质，属于文本相似度计算领域。
技术介绍
在当今信息爆炸的互联网大数据时代，从海量的信息中获取与自身需要和兴趣吻合度高的内容成为了人们迫切的需求。为了满足此需求,也不断出现了各种应用,如搜索引擎、自动问答系统、文档分类与聚类、文献查重、文献精准推送等。这些应用场景所使用的关键技术之一就是文本相似度计算技术，例如，在搜索引擎中，通过建模估计一份文本与提问问题之间的关联度，其中涉及到的并不只是看文字是否有重叠，而是从大意，关键信息等多个方面来计算其相似程度。文本相似度计算主要可分为两种方法：1)基于字符串计算：也称作“字面相似度方法”，其中较为典型的方法包括最长公共子串(LongestCommonString，简称LCS)；编辑距离；N元词(N-gram)等。2)基于语料库训练：利用从语料库中的文本获取信息，并计算文本相似度。基于语料库的方法主要有:基于词袋模型的方法与基于神经网络的方法。在上述方法中，基于字符串计算的方法的缺点有：1)没有考虑文本的语义信息,计算效果受到一定限制。由于只是把字符或词语作为独立的知识单元,并未考虑词语本身的含义，以及不同词语之间的关系。以同义词为例,尽管表达不同,但具有相同的含义,而这类词语的相似度若仅仅依靠基于字符串的方法，并不能准确计算。2)当文本长度较长时，计算效率不高，且效果有限。而在基于语料库训练的方法中，基于词袋模型的方法不考虑词语在文档中出现的顺序,将文档表示成一系列词语的组合。这种方法的缺点是忽...

【技术保护点】
1.一种基于无监督学习的文本相似度计算方法，其特征在于，所述方法包括：获取训练集，将训练集中的每篇文本作为摘要生成网络的输入，得到每篇文本对应的摘要，构成文本集合与摘要集合；搭建相似度计算网络；采用文本集合和摘要集合对相似度计算网络进行训练；将待处理的两篇文本输入训练后的相似度计算网络，输出这两篇文本的相似度。

【技术特征摘要】
1.一种基于无监督学习的文本相似度计算方法，其特征在于，所述方法包括：获取训练集，将训练集中的每篇文本作为摘要生成网络的输入，得到每篇文本对应的摘要，构成文本集合与摘要集合；搭建相似度计算网络；采用文本集合和摘要集合对相似度计算网络进行训练；将待处理的两篇文本输入训练后的相似度计算网络，输出这两篇文本的相似度。2.根据权利要求1所述的文本相似度计算方法，其特征在于，所述摘要生成网络基于TextRank算法，得到每篇文本对应的摘要，具体包括：将文本分割成多个句子，以句子为节点构建图；对句子进行处理，计算任意两个句子之间的相似度，将计算后的句子相似度作为两个句子构成的边的权值；迭代计算各个句子的权重；选取权重最高的三个句子作为最后的摘要。3.根据权利要求2所述的文本相似度计算方法，其特征在于，所述任意两个句子之间的相似度之间的相似度计算如下式：其中，分子是在两个句子中都出现的单词的数量，分母中的|Si|是句子i中的单词数。4.根据权利要求2所述的文本相似度计算方法，其特征在于，所述各个句子的权重计算如下式：其中，WS(Vi)表示节点Vi的权重，d表示阻尼系数，In(Vi)与Out(Vj)分别表示分别为指向节点Vi的节点集合和从节点Vj出发的边指向的节点集合，wji表示从节点Vi到节点Vj的边权重。5.根据权利要求1-4任一项所述的文本相似度计算方法，其特征在于，所述相似度计算网络采用胶囊网络，胶囊网...

【专利技术属性】
技术研发人员：庄浩杰，王聪，孙庆华，
申请(专利权)人：华南理工大学，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人