一种基于语义向量的短文本相似性度量方法技术

技术编号:21548111 阅读:20 留言:0更新日期:2019-07-06 21:34
本发明专利技术公开一种基于语义向量的短文本相似性度量方法,对短文本t1和t2分词后,根据根动词的分布判断短文本是否存在事件块;如存在,基于根动词提取事件块,并对事件块的语义相似性进行分析。如相似,依据分词位置和词性提取修饰块,并对修饰块的语义相似性进行分析。在此基础上,以短文本t1的修饰块顺序为基准,在短文本t2中查找语义相同的块,调整到对应顺序。最后用词向量表示分词,构建短文本的语义向量,计算二者的余弦距离,作为语义相似性度量。本发明专利技术方法通过依存句法分析,提取事件块和修饰块,块内部是具有一定语义关系的若干分词,兼顾了局部的语义关系;通过基于语义分析的块交换,兼顾了多样化的语言表达特点。

A Similarity Measurement Method for Short Text Based on Semantic Vector

【技术实现步骤摘要】
一种基于语义向量的短文本相似性度量方法
本专利技术涉及一种基于语义向量的短文本相似性度量方法,属于文本分析挖掘

技术介绍
在电力、金融、医学、图书、互联网等行业中,文本数据量呈爆炸式増长。以电力行业为例,信息系统约80%的业务数据为半结构/非结构化的文本数据。为开展进一步的商业分析,需对现有文本数据中内含的知识进行分析挖掘,即首先实现相近文本的自动聚类,其次是对同类文本进行特征提取、类型标记和监督训练,进而实现新文本的分类预测。考虑到庞大的文本数量,有效的文本聚类是后续分析挖掘工作的基础。长文本一般指一篇文档或至少一个段落,即使相似性度量不准确,也因为丰富的文本特征(足够的词汇量),可以获得良好的聚类效果。短文本一般由若干短语或一个句子组成,考虑到中文表述的多样性,甚至存在同一类两则短文本几乎没有相同词汇、且结构不同的情况(如“电脑中毒了”和“感染了计算机病毒”),使得良好的相似性度量,尤其是语义相似性度量尤为重要。针对语义相似性的度量,一般采用word2vec度量分词的语义相似性。word2vec基于CBOW和Skip-gram原理,对百万级的语料库进行机器训练,以高维的词向量,来表征分词的语义,通过计算词向量之间的余弦距离,作为分词间的语义相似性。该方法已在工业界得到应用和推广。在分词语义相似性度量的基础上,考虑短文本的语义相似性度量。短文本的语义相似性度量,其经典方法是对短文本的分词遍历计算语义相似性,取最大值作为该分词的语义相似性。在此基础上,取分词集合的语义计算平均值,作为短文本的语义相似性。该方法的不足,在于忽略了分词间的语义关系,使得文本语义碎片化。在此基础上,借鉴编辑距离,有研究提出语义编辑距离。编辑距离是指一个字符串通过删除、插入、替换改变为另一个字符串的最小操作。但编辑距离用的是文本匹配。语义编辑距离是通过知识网络分析分词的语义,将短文本分成头、中、尾三块,对种组合遍历计算,从而获取语义相似性最大时,头、中、尾三块的划分方法,以及相应的块交换距离,以此作为语义编辑距离。该研究对于“电脑中毒了”和“感染了计算机病毒”这样的短文本有较高的相似性结果。但对于“吴老师带领同学一起做技术”和“吴老师带学生们去郊游”这样的语义,没有良好的辨识性。有研究基于依存句法进行语义相似性分析。依存句法是由法国语言学家L.Tesniere于1959年在《结构句法基础》中提出,其核心基于两点假设:首先,根动词是中心词,支配其它语言成分,而不受其它成分支配;其次,所有受支配成分都以某种关系从属于支配者。据此,依据分词、词性、位置,一是可确立根动词、二是可确定邻近词的关系。依存句法分析已有较为成熟的实现方法。该研究获取依存句法后,以根动词为谓语,对根动词之前的名词、根动词之后的名词进行组合,对两个短文本的组合对数量、组合对之间的语义相似性(同样的,采用知识网络分析分词语义)进行计算,并求取平均值。该方法的优点,在于提取了核心事件。但是组合的做法,对于“电脑中毒了”和“感染了计算机病毒”这样的复杂句法,效果有限。除了上述方法,很多研究希望扩展或者构建新的文本特征。如利用中文维基百科的词汇关系对短文本的隐喻词进行特征扩展。如融合短文本的特征词和结构距离作为新的文本特征;如基于深层噪音自动编码器提取特征,利用深度学习网络,将高维稀疏的短文本空间向量变换到低维本质特征空间。上述方法尚未有大规模应用于工业界的报道。
技术实现思路
本专利技术的目的在于提供一种基于语义向量的短文本相似性度量方法,针对短文本特征稀疏、表达多样的特点,通过基于语义分析的块交换,兼顾了多样化的语言表达特点,构建了面向全文的语义向量,避免全文语义的碎片化。为达到上述目的,本专利技术采用的技术方案如下:一种基于语义向量的短文本相似性度量方法,包括以下步骤:1)对短文本t1和t2进行分词,同时得到短文本t1和t2的分词词性;2)根据短文本t1和t2的分词和词性,进行依存句法分析,获得句法结构;3)根据根动词分布,对短文本t1和t2分类分析,分类分析如下:a)如果短文本t1与t2均不存在根动词,则采用通用语义相似性公式计算短文本t1与t2的相似性,并输出结果;b)如果短文本t1与t2任意一者存在根动词,而另一者不存在根动词,则语义相似性为0,并输出结果;c)如果短文本t1与t2均存在根动词,则提取事件块,然后进入步骤4);4)对短文本t1与t2的事件块进行语义相似性分析;如果短文本t1与t2的事件块的语义相似性计算为0,则语义不相似;如果短文本t1与t2的事件块的语义相似性计算结果大于设定的阈值,则语义相似,则提取修饰块;5)以短文本t1的修饰块顺序为基准,采用通用语义相似性公式,依次计算短文本t1中修饰块与短文本t2中修饰块的语义相似性;如果计算结果大于设定的阈值,则语义相似,则将短文本t2的修饰块调整到与t1相对应的位置;否则语义不相似,不调整;6)修饰块交换后,将短文本t1和t2所有分词由词向量表示;短文本t1和t2中所有的分词都用词向量表示后,即构成短文本t1和t2的语义向量;7)对短文本t1和t2的语义向量计算余弦距离,作为二者的语义相似性,输出计算结果。前述的步骤3)中,事件块是指以根动词为核心事件的谓语,进而确定主语成分、宾语成分和动词补语。前述的事件块的提取方式为:(c1)对于主语成分,基于根动词当前位置向前查询非名词,以非名词至根动词之间的名词为主语成分;如条件不满足,即不存在主语成分;(c2)对于宾语成分,基于根动词当前位置向后查询非名词,以非名词与根动词之间的名词为宾语成分;如条件不满足,即不存在宾语成分;(c3)对于动词补语,除根动词以外,如存在动词,即为动词补语;否则不存在动词补语。前述的短文本,如果存在,则仅存在一个事件块。前述的步骤4)中,事件块的语义相似性计算如下:其中,Smc表示事件块的语义相似性,BS,BP,Bo和BC是布尔量,如果短文本t1和t2均存在主语则BS为1,否则为0,如果短文本t1和t2均存在谓语则BP为1,否则为0,如果短文本t1和t2均存在宾语则Bo为1,否则为0,如果短文本t1和t2均存在动词补语则BC为1,否则为0;SS,SP,So和SC分别是短文本t1和t2的事件块的主语,谓语,宾语和动词补语的语义相似性,采用通用语义相似性公式计算。前述的步骤4)中,提取修饰块是指根据依存句法指明的分词依存关系,将与主语成分、谓语、宾语成分、动词补语直接向量的分词及其依存分词,视为一个修饰块。前述的步骤6)中,所述分词的词向量因长度导致没有对齐的,填0补齐。前述的通用语义相似性计算如下:其中,SB为通用语义相似性,B1和B2分别为短文本t1和t2,或者短文本t1和t2中的部分文本,包括主语,谓语,宾语,动词补语或修饰块;B1={w11,w12,…w1L},w1l为B1的分词,l=1,2,…,L,L是B1中的分词数,L≤N,N是短文本t1的分词数;B2={w21,w22,…w2K},w2k为B2的分词,k=1,2,…,K,K是B2中的分词数,K≤M,M是短文本t2的分词数;S1l是B1中分词w1l的语义相似性,计算如下:S1l=max{Sc(w1l,w21)+Sc(w1l,w22),…Sc(w1l,w2K)本文档来自技高网
...

【技术保护点】
1.一种基于语义向量的短文本相似性度量方法,其特征在于,包括以下步骤:1)对短文本t1和t2进行分词,同时得到短文本t1和t2的分词词性;2)根据短文本t1和t2的分词和词性,进行依存句法分析,获得句法结构;3)根据根动词分布,对短文本t1和t2分类分析,分类分析如下:a)如果短文本t1与t2均不存在根动词,则采用通用语义相似性公式计算短文本t1与t2的相似性,并输出结果;b)如果短文本t1与t2任意一者存在根动词,而另一者不存在根动词,则语义相似性为0,并输出结果;c)如果短文本t1与t2均存在根动词,则提取事件块,然后进入步骤4);4)对短文本t1与t2的事件块进行语义相似性分析;如果短文本t1与t2的事件块的语义相似性计算为0,则语义不相似;如果短文本t1与t2的事件块的语义相似性计算结果大于设定的阈值,则语义相似,则提取修饰块;5)以短文本t1的修饰块顺序为基准,采用通用语义相似性公式,依次计算短文本t1中修饰块与短文本t2中修饰块的语义相似性;如果计算结果大于设定的阈值,则语义相似,则将短文本t2的修饰块调整到与t1相对应的位置;否则语义不相似,不调整;6)修饰块交换后,将短文本t1和t2所有分词由词向量表示;短文本t1和t2中所有的分词都用词向量表示后,即构成短文本t1和t2的语义向量;7)对短文本t1和t2的语义向量计算余弦距离,作为二者的语义相似性,输出计算结果。...

【技术特征摘要】
1.一种基于语义向量的短文本相似性度量方法,其特征在于,包括以下步骤:1)对短文本t1和t2进行分词,同时得到短文本t1和t2的分词词性;2)根据短文本t1和t2的分词和词性,进行依存句法分析,获得句法结构;3)根据根动词分布,对短文本t1和t2分类分析,分类分析如下:a)如果短文本t1与t2均不存在根动词,则采用通用语义相似性公式计算短文本t1与t2的相似性,并输出结果;b)如果短文本t1与t2任意一者存在根动词,而另一者不存在根动词,则语义相似性为0,并输出结果;c)如果短文本t1与t2均存在根动词,则提取事件块,然后进入步骤4);4)对短文本t1与t2的事件块进行语义相似性分析;如果短文本t1与t2的事件块的语义相似性计算为0,则语义不相似;如果短文本t1与t2的事件块的语义相似性计算结果大于设定的阈值,则语义相似,则提取修饰块;5)以短文本t1的修饰块顺序为基准,采用通用语义相似性公式,依次计算短文本t1中修饰块与短文本t2中修饰块的语义相似性;如果计算结果大于设定的阈值,则语义相似,则将短文本t2的修饰块调整到与t1相对应的位置;否则语义不相似,不调整;6)修饰块交换后,将短文本t1和t2所有分词由词向量表示;短文本t1和t2中所有的分词都用词向量表示后,即构成短文本t1和t2的语义向量;7)对短文本t1和t2的语义向量计算余弦距离,作为二者的语义相似性,输出计算结果。2.根据权利要求1所述的一种基于语义向量的短文本相似性度量方法,其特征在于,所述步骤3)中,事件块是指以根动词为核心事件的谓语,进而确定主语成分、宾语成分和动词补语。3.根据权利要求2所述的一种基于语义向量的短文本相似性度量方法,其特征在于,所述事件块的提取方式为:(c1)对于主语成分,基于根动词当前位置向前查询非名词,以非名词至根动词之间的名词为主语成分;如条件不满足,即不存在主语成分;(c2)对于宾语成分,基于根动词当前位置向后查询非名词,以非名词与根动词之间的名词为宾语成分;如条件不满足,即不存在宾语成分;(c3)对于动词补语,除根动词以外,如存在动词,即为动...

【专利技术属性】
技术研发人员:刘文松林峰胡竹青张锦辉张鹏杨艳吉张志鹏邵瑞朱泐
申请(专利权)人:南瑞集团有限公司
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1