基于细粒度匹配信号的文本相关性度量方法和系统技术方案

技术编号:21115968 阅读:36 留言:0更新日期:2019-05-16 09:03
本发明专利技术涉及一种基于细粒度匹配信号的文本相关性度量方法和系统,包括:获取待语义匹配的两段文本,将该文本中每一个词映射为词向量,根据其中一段文本中每一个词的词向量,与另一段文本中每一个词向量的语义相似度,将所有该语义相似度集合成二维实数矩阵,作为匹配矩阵;将该匹配矩阵中每个元素的语义相似度转换为灰度值,得到灰度图,使用针对二维数据的卷积神经网络结构对该灰度图进行图像模式提取,得到特征图,该特征图经过全连接网络并通过逻辑斯谛函数处理后,得到0‑1之间的一个分数,将该分数作为该两段文本之间的相关性。本发明专利技术能够构建细粒度匹配信号,提取多层次的匹配模式。在多种不同任务的实际数据集上的效果突出。

【技术实现步骤摘要】
基于细粒度匹配信号的文本相关性度量方法和系统
本专利技术涉及自然语言处理领域,并特别涉及一种基于细粒度匹配信号的文本相关性度量方法和系统。
技术介绍
文本相关性度量是自然语言处理领域大量任务的基础技术,其中包括复述任务、信息检索、问答系统、对话系统等。相关性用来衡量两段文本相关关系的强度,这种相关关系可以定义为复述任务中语义的等价关系,可以定义为问答系统中逻辑的推断关系,也可以定义为对话系统中的回复的一致关系。通常文本相关性使用一个实数值来表示,称为相关度,数值越大表示越相关,反之表示越不相关。因此几乎所有的文本相关性度量的问题,都会抽象成相关度数值估计的问题。其中一部分工作将这个相关度的值看作是一个概率,建模成一个二值分类问题(相关与不相关);另一部分工作将相关度的值看作是一个有序数值,建模成一个排序问题。由此自动度量文本相关性的问题,最终转换成给定两段文本,预测相关度数值的机器学习预测问题。文本相关性度量目前比较流行的算法包括:BM25模型、DSSM(DeepSemanticStructuredModel)模型、以及Arc-I模型。BM25模型是基于信息检索任务提出的文本相关性度量方法,是传统信息检索系统中最常用的相关性度量模型。BM25模型旨在刻画查询词在相关文档中的出现次数、重要度与相关度的函数关系,包含的超参数较少,执行速度快。但是无法解决语义相关的问题。DSSM模型是微软研究院提出的基于文本表达的文本相关性度量模型。该模型是基于Siamese架构提出的,首先对两段文本分别压缩到相同维度的向量表达,然后使用一种向量相似度的计算方法得到相关度。DSSM模型创新的提出了字符三元组的形式表示一段文本,从而大大减小词表达小、建模词根信息,因而可以解决语义相关的问题。DSSM模型利用全连接网络建模文本向量表达,之后利用余弦相似度度量文本向量表达之间的相关度。Arc-I模型是华为诺亚方舟实验室提出的基于词向量(WordEmbedding)技术和卷积神经网络(ConvolutionalNeuralNetwork)技术的文本相关性度量模型。Arc-I模型同样也是基于Siamese架构提出的,两段文本也会分布压缩到同一维度的向量表达。为了解决语义相关问题,Arc-I模型使用了在大数据上预训练的词向量表达,词向量可以很好的刻画不同词之间的相关关系。为了更好的保持文本中的局部词序信息,Arc-I模型使用了在图像任务中常用的卷积神经网络。在文本相关性度量任务中,Arc-I是较为常用的深度学习算法。当前现有的技术存在着不同的问题:1)现有的文本相关性模型,例如BM25模型,无法建模文本语义的相关性。但是在自然语言中,同义词、一词多义的现象是非常常见的,只有建模文本符号和语义的多元对应关系,才能得到真实可用的文本相关性模型。2)现有的文本相关性模型,例如DSSM模型,利用全连接网络建模文本表达,全连接网络忽视了文本的词序信息。人类的语言就是在“有限符号集合上的无限组合过程”,因此除了单个符号内容本身,词序信息也是非常重要的。3)现有的文本相关性模型,例如DSSM模型和Arc-I模型,都是基于Siamese的框架提出的,两段文本首先被压缩到了一个低维度的向量表达。对文本内容的压缩,会丢失大量的文本细节信息,从而导致较差的文本相关性度量效果。
技术实现思路
专利技术人在观察存在相关关系的文本对的数据中发现,文本的语义信息,文本的词序信息,以及文本的细节对应信息,对建模文本相关性关系非常重要。首先,文本语义在文本相关性建模中十分重要,需要考虑同义词和一词多义两个难点。例如,“电脑”与“计算机”在语义上是等价的,而“苹果”在不同的上下文中可以表示“水果”或者“公司”。其次,文本的语序会导致完全不同的语义,需要在文本相关性度量时考虑。例如“机器学习”与“学习机器”仅仅是词序的转换,就导致了完全不同的语义。最后,文本的细节对应关系是文本相关性度量的基础。人们判断两段文本是否相关,往往需要从词的相关,到短语的相关,最终才进阶到主题的相关。因此,本专利技术基于:文本的语义信息,文本的词序信息,以及文本的细节对应信息,这三个难点的探索而形成。设计并实现了基于细粒度匹配信号的文本相关性度量技术。具体地说,本专利技术公开了一种基于细粒度匹配信号的文本相关性度量方法,其中包括:步骤1、获取待语义匹配的两段文本,将该文本中每一个词映射为词向量,根据其中一段文本中每一个词的词向量,与另一段文本中每一个词向量的语义相似度,将所有该语义相似度集合成二维实数矩阵,作为匹配矩阵;步骤2、将该匹配矩阵中每个元素的语义相似度转换为灰度值,得到灰度图,使用针对二维数据的卷积神经网络结构对该灰度图进行图像模式提取,得到特征图,该特征图经过全连接网络并通过逻辑斯谛函数处理后,得到0-1之间的一个分数,将该分数作为该两段文本之间的相关性。所述的基于细粒度匹配信号的文本相关性度量方法,其中该步骤1中通过0-1精确匹配相似度度量得到该语义相似度。所述的基于细粒度匹配信号的文本相关性度量方法,其中步骤2中该卷积神经网络结构包括:卷积层和池化层,其中该卷积层利用卷积核提取该图像模式;该池化层用于将该特征图的尺寸进行压缩。所述的基于细粒度匹配信号的文本相关性度量方法,其中步骤1中该词向量通过将文本中每一个词输入至Word2Vec算法模型得到。所述的基于细粒度匹配信号的文本相关性度量方法,其中该步骤1中通过余弦相似度或点积相似度构造的匹配矩阵,度量得到该语义相似度。本专利技术还公开了一种基于细粒度匹配信号的文本相关性度量系统,其中包括:相似度度量模块,用于获取待语义匹配的两段文本,将该文本中每一个词映射为词向量,根据其中一段文本中每一个词的词向量,与另一段文本中每一个词向量的语义相似度,将所有该语义相似度集合成二维实数矩阵,作为匹配矩阵;图像模式提取模块,用于将该匹配矩阵中每个元素的语义相似度转换为灰度值,得到灰度图,使用针对二维数据的卷积神经网络结构对该灰度图进行图像模式提取,得到特征图,该特征图经过全连接网络并通过逻辑斯谛函数处理后,得到0-1之间的一个分数,将该分数作为该两段文本之间的相关性。所述的基于细粒度匹配信号的文本相关性度量系统,其中该相似度度量模块中通过0-1精确匹配相似度度量得到该语义相似度。所述的基于细粒度匹配信号的文本相关性度量系统,其中图像模式提取模块中该卷积神经网络结构包括:卷积层和池化层,其中该卷积层利用卷积核提取该图像模式;该池化层用于将该特征图的尺寸进行压缩。所述的基于细粒度匹配信号的文本相关性度量系统,其中相似度度量模块中该词向量通过将文本中每一个词输入至Word2Vec算法模型得到。所述的基于细粒度匹配信号的文本相关性度量系统,其中该相似度度量模块中通过余弦相似度或点积相似度构造的匹配矩阵,度量得到该语义相似度。本专利技术总的技术效果:在传统的文本相关性度量的模型中,信息检索中的BM25模型利用词袋模型表示一个句子,词和词之间只正交的关系,也就是说“苹果”与“香蕉”的距离与“苹果”与“篮球”的距离是一样的,都是0。因此无法建模词语匹配的语义相关性。而基于文档表达的深度学习模型(例如,DSSM模型与Arc-I模型,见图1),继承了Siamese框架的思想,将本文档来自技高网
...

【技术保护点】
1.一种基于细粒度匹配信号的文本相关性度量方法,其特征在于,包括:步骤1、获取待语义匹配的两段文本,将该文本中每一个词映射为词向量,根据其中一段文本中每一个词的词向量,与另一段文本中每一个词向量的语义相似度,将所有该语义相似度集合成二维实数矩阵,作为匹配矩阵;步骤2、将该匹配矩阵中每个元素的语义相似度转换为灰度值,得到灰度图,使用针对二维数据的卷积神经网络结构对该灰度图进行图像模式提取,得到特征图,该特征图经过全连接网络并通过逻辑斯谛函数处理后,得到0‑1之间的一个分数,将该分数作为该两段文本之间的相关性。

【技术特征摘要】
1.一种基于细粒度匹配信号的文本相关性度量方法,其特征在于,包括:步骤1、获取待语义匹配的两段文本,将该文本中每一个词映射为词向量,根据其中一段文本中每一个词的词向量,与另一段文本中每一个词向量的语义相似度,将所有该语义相似度集合成二维实数矩阵,作为匹配矩阵;步骤2、将该匹配矩阵中每个元素的语义相似度转换为灰度值,得到灰度图,使用针对二维数据的卷积神经网络结构对该灰度图进行图像模式提取,得到特征图,该特征图经过全连接网络并通过逻辑斯谛函数处理后,得到0-1之间的一个分数,将该分数作为该两段文本之间的相关性。2.如权利要求1所述的基于细粒度匹配信号的文本相关性度量方法,其特征在于,该步骤1中通过0-1精确匹配相似度度量得到该语义相似度。3.如权利要求1所述的基于细粒度匹配信号的文本相关性度量方法,其特征在于,步骤2中该卷积神经网络结构包括:卷积层和池化层,其中该卷积层利用卷积核提取该图像模式;该池化层用于将该特征图的尺寸进行压缩。4.如权利要求1所述的基于细粒度匹配信号的文本相关性度量方法,其特征在于,步骤1中该词向量通过将文本中每一个词输入至Word2Vec算法模型得到。5.如权利要求1所述的基于细粒度匹配信号的文本相关性度量方法,其特征在于,该步骤1中通过余弦相似度或点积相似度构造的匹配矩阵,度量得到该语义相似度。6.一种基于细粒度匹配信号的文...

【专利技术属性】
技术研发人员:程学旗庞亮兰艳艳郭嘉丰沈华伟陈丽娟张海楠曾玮李家宁赵峻瑶倪艺函
申请(专利权)人:中国科学院计算技术研究所
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1