基于无监督学习的文本相似度计算方法、系统、设备及介质技术方案

技术编号:21547887 阅读:29 留言:0更新日期:2019-07-06 21:26
本发明专利技术公开了一种基于无监督学习的文本相似度计算方法、系统、设备及介质,所述方法包括:获取训练集,将训练集中的每篇文本作为摘要生成网络的输入,得到每篇文本对应的摘要,构成文本集合与摘要集合;搭建相似度计算网络;采用文本集合和摘要集合对相似度计算网络进行训练;将待处理的两篇文本输入训练后的相似度计算网络,输出这两篇文本的相似度。本发明专利技术无需人工标记的配对数据就可以进行训练与学习,大大降低了数据获取的成本。

Text Similarity Computing Method, System, Equipment and Media Based on Unsupervised Learning

【技术实现步骤摘要】
基于无监督学习的文本相似度计算方法、系统、设备及介质
本专利技术涉及一种基于无监督学习的文本相似度计算方法、系统、设备及介质,属于文本相似度计算领域。
技术介绍
在当今信息爆炸的互联网大数据时代,从海量的信息中获取与自身需要和兴趣吻合度高的内容成为了人们迫切的需求。为了满足此需求,也不断出现了各种应用,如搜索引擎、自动问答系统、文档分类与聚类、文献查重、文献精准推送等。这些应用场景所使用的关键技术之一就是文本相似度计算技术,例如,在搜索引擎中,通过建模估计一份文本与提问问题之间的关联度,其中涉及到的并不只是看文字是否有重叠,而是从大意,关键信息等多个方面来计算其相似程度。文本相似度计算主要可分为两种方法:1)基于字符串计算:也称作“字面相似度方法”,其中较为典型的方法包括最长公共子串(LongestCommonString,简称LCS);编辑距离;N元词(N-gram)等。2)基于语料库训练:利用从语料库中的文本获取信息,并计算文本相似度。基于语料库的方法主要有:基于词袋模型的方法与基于神经网络的方法。在上述方法中,基于字符串计算的方法的缺点有:1)没有考虑文本的语义信息,计算效果受到一定限制。由于只是把字符或词语作为独立的知识单元,并未考虑词语本身的含义,以及不同词语之间的关系。以同义词为例,尽管表达不同,但具有相同的含义,而这类词语的相似度若仅仅依靠基于字符串的方法,并不能准确计算。2)当文本长度较长时,计算效率不高,且效果有限。而在基于语料库训练的方法中,基于词袋模型的方法不考虑词语在文档中出现的顺序,将文档表示成一系列词语的组合。这种方法的缺点是忽略了词语顺序,以及词语之间的关联对文本的影响,计算效果也受到很大程度的影响。基于神经网络的方法计算文本相似度计算文本相似度是近年来自然语言处理领域研究较多的方法。神经网络的结构是一种模仿生物神经网络的结构和功能的数学模型或计算模型,用于对各种函数进行估计或近似。在神经网络中,除了基本的全连接层,在自然语言处理中比较常用的结构有:1)卷积神经网络(ConvolutionalNeuralNetwork,简称CNN)是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元。卷积神经网络中每层卷积层由若干卷积单元组成,每个卷积单元的参数都是通过反向传播算法最佳化得到的。卷积运算的目的是提取输入的不同特征,第一层卷积层可能只能提取一些基本特征,更多层的网络能从基本特征中迭代提取更复杂的特征。2)递归神经网络(RecurrentNeuralNetwork,简称RNN)也是神经网络的一种。递归神经网络可以描述动态时间行为,因为和前馈神经网络接受较特定结构的输入不同,RNN将状态在自身网络中循环传递,因此可以接受更广泛的时间序列结构输入。单纯的RNN因为无法处理随着递归,可能出现权重指数级爆炸或梯度消失的问题,导致RNN难以捕捉长期时间关联。LSTM(LongShort-TermMemory,长短期记忆网络),GRU(GatedRecurrentUnits,门控循环单元)是两个用于缓解该问题的RNN变体。现有的基于神经网络的文本相似度计算方法是基于有监督学习训练的过程,而有监督学习需要大量人工标记的数据,这一过程通常会出现数据获取成本太高的问题。
技术实现思路
有鉴于此,本专利技术提供了一种基于无监督学习的文本相似度计算方法、系统、计算机设备设备及存储介质,其无需人工标记的配对数据就可以进行训练与学习,大大降低了数据获取的成本。本专利技术的第一个目的在于提供一种基于无监督学习的文本相似度计算方法。本专利技术的第二个目的在于提供一种基于无监督学习的文本相似度计算系统。本专利技术的第三个目的在于提供一种计算机设备。本专利技术的第四个目的在于提供一种存储介质。本专利技术的第一个目的可以通过采取如下技术方案达到:一种基于无监督学习的文本相似度计算方法,所述方法包括:获取训练集,将训练集中的每篇文本作为摘要生成网络的输入,得到每篇文本对应的摘要,构成文本集合与摘要集合;搭建相似度计算网络;采用文本集合和摘要集合对相似度计算网络进行训练;将待处理的两篇文本输入训练后的相似度计算网络,输出这两篇文本的相似度。进一步的,所述摘要生成网络基于TextRank算法,得到每篇文本对应的摘要,具体包括:将文本分割成多个句子,以句子为节点构建图;对句子进行处理,计算任意两个句子之间的相似度,将计算后的句子相似度作为两个句子构成的边的权值;迭代计算各个句子的权重;选取权重最高的三个句子作为最后的摘要。进一步的,所述任意两个句子之间的相似度之间的相似度计算如下式:其中,分子是在两个句子中都出现的单词的数量,分母中的|Si|是句子i中的单词数。进一步的,所述各个句子的权重计算如下式:其中,WS(Vi)表示节点Vi的权重,d表示阻尼系数,In(Vi)与Out(Vj)分别表示分别为指向节点Vi的节点集合和从节点Vj出发的边指向的节点集合,wji表示从节点Vi到节点Vj的边权重。进一步的,所述相似度计算网络采用胶囊网络,胶囊网络的最终输出是若干个向量;当两篇文本作为输入时,分别得到若干个分布,从而计算每一对分布的交叉熵损失,并将损失项的总和作为相似度计算网络的输出。进一步的,所述胶囊网络的结构包括卷积层、capsule层、卷积capsule层和全连接capsule层。进一步的,所述相似度计算网络的损失函数如下式:其中,N表示一个mini-batch中的样本个数,xi表示一篇文本,yi表示文本xi通过摘要生成网络生成的摘要;yj表示从摘要集合Y中随机抽取一篇摘要,K表示抽取的摘要数量。本专利技术的第二个目的可以通过采取如下技术方案达到:一种基于无监督学习的文本相似度计算系统,所述系统包括:获取模块,用于获取训练集,将训练集中的每篇文本作为摘要生成网络的输入,得到每篇文本对应的摘要,构成文本集合与摘要集合;搭建模块,用于搭建相似度计算网络;训练模块,用于采用文本集合和摘要集合对相似度计算网络进行训练;计算模块,用于将待处理的两篇文本输入训练后的相似度计算网络,输出这两篇文本的相似度。本专利技术的第三个目的可以通过采取如下技术方案达到:一种计算机设备,包括处理器以及用于存储处理器可执行程序的存储器,所述处理器执行存储器存储的程序时,实现上述的文本相似度计算方法。本专利技术的第四个目的可以通过采取如下技术方案达到:一种存储介质,存储有程序,所述程序被处理器执行时,实现上述的文本相似度计算方法。本专利技术相对于现有技术具有如下的有益效果:本专利技术通过摘要生成网络得到文本集合与摘要集合,搭建相似度计算网络,采用文本集合和摘要集合对相似度计算网络进行训练,将待处理的两篇文本输入训练后的相似度计算网络,输出这两篇文本的相似度,越相似的一对文本,则相似度计算网络输出相似度值越小,反之越大,无需人工标记的配对数据就可以进行训练与学习,大大降低了数据获取的成本,不仅解决了人工标记的配对数据获取成本高的问题,而且也保证了相似度计算的效果。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性本文档来自技高网
...

【技术保护点】
1.一种基于无监督学习的文本相似度计算方法,其特征在于,所述方法包括:获取训练集,将训练集中的每篇文本作为摘要生成网络的输入,得到每篇文本对应的摘要,构成文本集合与摘要集合;搭建相似度计算网络;采用文本集合和摘要集合对相似度计算网络进行训练;将待处理的两篇文本输入训练后的相似度计算网络,输出这两篇文本的相似度。

【技术特征摘要】
1.一种基于无监督学习的文本相似度计算方法,其特征在于,所述方法包括:获取训练集,将训练集中的每篇文本作为摘要生成网络的输入,得到每篇文本对应的摘要,构成文本集合与摘要集合;搭建相似度计算网络;采用文本集合和摘要集合对相似度计算网络进行训练;将待处理的两篇文本输入训练后的相似度计算网络,输出这两篇文本的相似度。2.根据权利要求1所述的文本相似度计算方法,其特征在于,所述摘要生成网络基于TextRank算法,得到每篇文本对应的摘要,具体包括:将文本分割成多个句子,以句子为节点构建图;对句子进行处理,计算任意两个句子之间的相似度,将计算后的句子相似度作为两个句子构成的边的权值;迭代计算各个句子的权重;选取权重最高的三个句子作为最后的摘要。3.根据权利要求2所述的文本相似度计算方法,其特征在于,所述任意两个句子之间的相似度之间的相似度计算如下式:其中,分子是在两个句子中都出现的单词的数量,分母中的|Si|是句子i中的单词数。4.根据权利要求2所述的文本相似度计算方法,其特征在于,所述各个句子的权重计算如下式:其中,WS(Vi)表示节点Vi的权重,d表示阻尼系数,In(Vi)与Out(Vj)分别表示分别为指向节点Vi的节点集合和从节点Vj出发的边指向的节点集合,wji表示从节点Vi到节点Vj的边权重。5.根据权利要求1-4任一项所述的文本相似度计算方法,其特征在于,所述相似度计算网络采用胶囊网络,胶囊网...

【专利技术属性】
技术研发人员:庄浩杰王聪孙庆华
申请(专利权)人:华南理工大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1