当前位置: 首页 > 专利查询>南瑞集团有限公司专利>正文

一种基于语义向量的短文本相似性度量方法技术

技术编号：21548111 阅读：20 留言：0更新日期：2019-07-06 21:34

本发明专利技术公开一种基于语义向量的短文本相似性度量方法，对短文本t1和t2分词后，根据根动词的分布判断短文本是否存在事件块；如存在，基于根动词提取事件块，并对事件块的语义相似性进行分析。如相似，依据分词位置和词性提取修饰块，并对修饰块的语义相似性进行分析。在此基础上，以短文本t1的修饰块顺序为基准，在短文本t2中查找语义相同的块，调整到对应顺序。最后用词向量表示分词，构建短文本的语义向量，计算二者的余弦距离，作为语义相似性度量。本发明专利技术方法通过依存句法分析，提取事件块和修饰块，块内部是具有一定语义关系的若干分词，兼顾了局部的语义关系；通过基于语义分析的块交换，兼顾了多样化的语言表达特点。

A Similarity Measurement Method for Short Text Based on Semantic Vector

全部详细技术资料下载

【技术实现步骤摘要】
一种基于语义向量的短文本相似性度量方法
本专利技术涉及一种基于语义向量的短文本相似性度量方法，属于文本分析挖掘

技术介绍
在电力、金融、医学、图书、互联网等行业中，文本数据量呈爆炸式増长。以电力行业为例，信息系统约80％的业务数据为半结构/非结构化的文本数据。为开展进一步的商业分析，需对现有文本数据中内含的知识进行分析挖掘，即首先实现相近文本的自动聚类，其次是对同类文本进行特征提取、类型标记和监督训练，进而实现新文本的分类预测。考虑到庞大的文本数量，有效的文本聚类是后续分析挖掘工作的基础。长文本一般指一篇文档或至少一个段落，即使相似性度量不准确，也因为丰富的文本特征(足够的词汇量)，可以获得良好的聚类效果。短文本一般由若干短语或一个句子组成，考虑到中文表述的多样性，甚至存在同一类两则短文本几乎没有相同词汇、且结构不同的情况(如“电脑中毒了”和“感染了计算机病毒”)，使得良好的相似性度量，尤其是语义相似性度量尤为重要。针对语义相似性的度量，一般采用word2vec度量分词的语义相似性。word2vec基于CBOW和Skip-gram原理，对百万级的语料库进行机器训练，以高维的词向量，来表征分词的语义，通过计算词向量之间的余弦距离，作为分词间的语义相似性。该方法已在工业界得到应用和推广。在分词语义相似性度量的基础上，考虑短文本的语义相似性度量。短文本的语义相似性度量，其经典方法是对短文本的分词遍历计算语义相似性，取最大值作为该分词的语义相似性。在此基础上，取分词集合的语义计算平均值，作为短文本的语义相似性。该方法的不足，在于忽略了分词间的语义关系，使...

【技术保护点】
1.一种基于语义向量的短文本相似性度量方法，其特征在于，包括以下步骤：1)对短文本t1和t2进行分词，同时得到短文本t1和t2的分词词性；2)根据短文本t1和t2的分词和词性，进行依存句法分析，获得句法结构；3)根据根动词分布，对短文本t1和t2分类分析，分类分析如下：a)如果短文本t1与t2均不存在根动词，则采用通用语义相似性公式计算短文本t1与t2的相似性，并输出结果；b)如果短文本t1与t2任意一者存在根动词，而另一者不存在根动词，则语义相似性为0，并输出结果；c)如果短文本t1与t2均存在根动词，则提取事件块，然后进入步骤4)；4)对短文本t1与t2的事件块进行语义相似性分析；如果短文本t1与t2的事件块的语义相似性计算为0，则语义不相似；如果短文本t1与t2的事件块的语义相似性计算结果大于设定的阈值，则语义相似，则提取修饰块；5)以短文本t1的修饰块顺序为基准，采用通用语义相似性公式，依次计算短文本t1中修饰块与短文本t2中修饰块的语义相似性；如果计算结果大于设定的阈值，则语义相似，则将短文本t2的修饰块调整到与t1相对应的位置；否则语义不相似，不调整；6)修饰块交换后，将短...

【技术特征摘要】
1.一种基于语义向量的短文本相似性度量方法，其特征在于，包括以下步骤：1)对短文本t1和t2进行分词，同时得到短文本t1和t2的分词词性；2)根据短文本t1和t2的分词和词性，进行依存句法分析，获得句法结构；3)根据根动词分布，对短文本t1和t2分类分析，分类分析如下：a)如果短文本t1与t2均不存在根动词，则采用通用语义相似性公式计算短文本t1与t2的相似性，并输出结果；b)如果短文本t1与t2任意一者存在根动词，而另一者不存在根动词，则语义相似性为0，并输出结果；c)如果短文本t1与t2均存在根动词，则提取事件块，然后进入步骤4)；4)对短文本t1与t2的事件块进行语义相似性分析；如果短文本t1与t2的事件块的语义相似性计算为0，则语义不相似；如果短文本t1与t2的事件块的语义相似性计算结果大于设定的阈值，则语义相似，则提取修饰块；5)以短文本t1的修饰块顺序为基准，采用通用语义相似性公式，依次计算短文本t1中修饰块与短文本t2中修饰块的语义相似性；如果计算结果大于设定的阈值，则语义相似，则将短文本t2的修饰块调整到与t1相对应的位置；否则语义不相似，不调整；6)修饰块交换后，将短文本t1和t2所有分词由词向量表示；短文本t1和t2中所有的分词都用词向量表示后，即构成短文本t1和t2的语义向量；7)对短文本t1和t2的语义向量计算余弦距离，作为二者的语义相似性，输出计算结果。2.根据权利要求1所述的一种基于语义向量的短文本相似性度量方法，其特征在于，所述步骤3)中，事件块是指以根动词为核心事件的谓语，进而确定主语成分、宾语成分和动词补语。3.根据权利要求2所述的一种基于语义向量的短文本相似性度量方法，其特征在于，所述事件块的提取方式为：(c1)对于主语成分，基于根动词当前位置向前查询非名词，以非名词至根动词之间的名词为主语成分；如条件不满足，即不存在主语成分；(c2)对于宾语成分，基于根动词当前位置向后查询非名词，以非名词与根动词之间的名词为宾语成分；如条件不满足，即不存在宾语成分；(c3)对于动词补语，除根动词以外，如存在动词，即为动...

【专利技术属性】
技术研发人员：刘文松，林峰，胡竹青，张锦辉，张鹏，杨艳吉，张志鹏，邵瑞，朱泐，
申请(专利权)人：南瑞集团有限公司，
类型：发明
国别省市：江苏,32

全部详细技术资料下载我是这个专利的主人

相关技术

网友询问留言已有0条评论

还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1

发布您的意见

相关领域技术

相似性度量技术