多粒度短文本语义相似度比较方法及系统技术方案

技术编号:15200015 阅读:134 留言:0更新日期:2017-04-22 01:01
一种多粒度短文本语义相似度比较方法,其包括如下步骤:S1、对短文本进行预处理;所述预处理包括中文分词以及词性标注;S2、对经过预处理的短文本进行特征选择;S3、对经过特征选择的向量集进行距离测量以确定短文本的相似度。实施本发明专利技术提供的多粒度短文本语义相似度比较方法及系统与现有技术相比具有以下有益效果:能够由于短文本通常不遵循语法规则,并且长度短、没有足够的信息量来进行统计推断,机器很难在有限的语境中进行准确的推断,使得短文本的相似度对比存在较大的难度的问题,使得短文本相似度对比结果更为准确。

Method and system for comparing semantic similarity of multi granularity short texts

A method of multi granularity short text semantic similarity, which comprises the following steps: S1, preprocessing of the short text; the pre-processing includes Chinese word segmentation and POS tagging; on S2, after a short text preprocessing feature selection; S3, after feature selection to set distance measurement to determine the amount of the similarity of short text. Compared with the existing technology and system implementation of multi granularity text provided by the invention of the semantic similarity comparison method has the following advantages: due to the passage can usually do not follow the rules of grammar, and the length is short, not enough information to perform statistical inference machine, it is difficult to accurately infer in the limited context, the comparison of similarity short text there is a big difficult problem, the short text similarity comparison result is more accurate.

【技术实现步骤摘要】

本专利技术涉及大数据文本处理
,特别涉及一种多粒度短文本语义相似度比较方法及系统。
技术介绍
短文本分类如此重要,那么究竟什么是短文本呢?目前,对于短文本还没有统一规范的定义,本文参考已有的研究文献将短文本定义为长度不超过200字的文本形式的信息。短文本的几种常见形式有手机短信息、社交网络短信息、信息检索简介信息、BBS/论坛短信息等。一般来说,短文本包括的特点有:①稀疏性。每条短文本形式信息的长度都比较短,都在200字以内,通常只有几句话,有的甚至只有几个词语如微博信息、手机短信息等,因此所包含的有效信息也就非常少,造成样本的特征非常稀疏,并且特征集的维数非常高,很难从中抽取到准确而关键的样本特征用于分类学习。②实时性。在互联网上出现的短文本形式的信息,大部分都是实时更新的,刷新速度非常快,像聊天信息、微博信息、评论信息等,都在以秒计时的速度不断更新,难以采集,并且这部分动态文本数量非常庞大,这就要求对短文本信息分类必须具有更高的效率。③不规则性。短文本形式的信息用语不规范,包含流行词汇较多,造成了噪声特征非常多,如“94”代表“就是”,“88”代表“再见”,“童鞋”代表“同学”,“河蟹”代表“和谐”等。流行语在短文本中更是频繁出现,而且更新很快,如2011年的流行词“伤不起”、“有没有”、“坑爹”,2012年的流行词“屌丝”、“江南Style”、“元芳,你怎么看”等等。短文本理解与长文本不同,短文本通常不遵循语法规则,并且长度短、没有足够的信息量来进行统计推断,机器很难在有限的语境中进行准确的推断。此外,由于短文本通常不遵循语法,自然语言处理技术难以直接用于短文本分析,使得短文本的相似度对比存在较大的难度。
技术实现思路
有鉴于此,本专利技术提出一种能够有效解决由于短文本通常不遵循语法规则,并且长度短、没有足够的信息量来进行统计推断,机器很难在有限的语境中进行准确的推断,使得短文本的相似度对比存在较大的难度问题的多粒度短文本语义相似度比较方法及系统。一种多粒度短文本语义相似度比较方法,其包括如下步骤:S1、对短文本进行预处理;所述预处理包括中文分词以及词性标注;S2、对经过预处理的短文本进行特征选择;S3、对经过特征选择的向量集进行距离测量以确定短文本的相似度。在本专利技术所述的多粒度短文本语义相似度比较方法中,所述步骤S1中对短文本进行中文分词预处理包括:预先建立分词完的语料库,用于机器学习;将任何一汉字,将其分为词头、词中、词尾、单字成词四种状态;语料库,分析出每一个字的状态,通过将语料库的每一个分好的词,添加其状态信息;判断短文本的字在语料库中出现的次数;对短文本的字进行状态转移概率计算;形成一个4X4的矩阵;判断短文本的字出现时,下一个字出现的是内容以及内容对应的概率;记录每一个字在四种状态下上下文关系,通过一个哈希表表示,key存字,value存其概率;将短文本转换为字符数组;并取出每一个字对应特征,形成分析矩阵;设定分析矩阵中的值为S,S[字][当前状态]=MAX(P[上一个字任何状态][当前状态]*S[上一个字][任何一个状态])+W[前(后)一个字当前状态][当前字]+R[当前状态概率];其中R是特征二,P是特征三,W前是特征四的上文部分,W后是特征四的下文部分;通过分析矩阵完成短文本的中文分词预处理。在本专利技术所述的多粒度短文本语义相似度比较方法中,所述步骤S1中对短文本进行中文分词预处理包括:通过隐马尔可夫模型完成对短文本的中文分词预处理。在本专利技术所述的多粒度短文本语义相似度比较方法中,所述步骤S2包括:对于经过预处理后的文本信息集,根据短文本中的词项,抽取出具有代表性的词条作为短文本的特征,并为每个特征赋予一定的权值,将所有特征项构成的向量表示该短文本,即文本空间实际上是由一组由数字描述的词项所构建的向量空间。在本专利技术所述的多粒度短文本语义相似度比较方法中,所述步骤S2中向量集表示模型包括:W(t,d)为词t在文本d中的权重;tf(t,d)为词在文本d中的词频;N为训练文本总数;nt为训练文本集中出现t的文本数;词条与权重构成特征向量;N代表维度。在本专利技术所述的多粒度短文本语义相似度比较方法中,通过基于空间向量的余弦算法进行距离测量以确定不同短文本之间的相似度。本专利技术还提供一种多粒度短文本语义相似度比较系统,其包括如下单元:短文本预处理单元,用于对短文本进行预处理;所述预处理包括中文分词以及词性标注;短文本特征选择单元,用于对经过预处理的短文本进行特征选择;短文本的相似度计算单元,用于对经过特征选择的向量集进行距离测量以确定短文本的相似度。在本专利技术所述的多粒度短文本语义相似度比较系统中,所述短文本预处理单元中对短文本进行中文分词预处理包括:预先建立分词完的语料库,用于机器学习;将任何一汉字,将其分为词头、词中、词尾、单字成词四种状态;语料库,分析出每一个字的状态,通过将语料库的每一个分好的词,添加其状态信息;判断短文本的字在语料库中出现的次数;对短文本的字进行状态转移概率计算;形成一个4X4的矩阵;判断短文本的字出现时,下一个字出现的是内容以及内容对应的概率;记录每一个字在四种状态下上下文关系,通过一个哈希表表示,key存字,value存其概率;将短文本转换为字符数组;并取出每一个字对应特征,形成分析矩阵;设定分析矩阵中的值为S,S[字][当前状态]=MAX(P[上一个字任何状态][当前状态]*S[上一个字][任何一个状态])+W[前(后)一个字当前状态][当前字]+R[当前状态概率];其中R是特征二,P是特征三,W前是特征四的上文部分,W后是特征四的下文部分;通过分析矩阵完成短文本的中文分词预处理;所述短文本预处理单元中对短文本进行中文分词预处理包括:通过隐马尔可夫模型完成对短文本的中文分词预处理。在本专利技术所述的多粒度短文本语义相似度比较系统中,所述短文本特征选择单元包括:对于经过预处理后的文本信息集,根据短文本中的词项,抽取出具有代表性的词条作为短文本的特征,并为每个特征赋予一定的权值,将所有特征项构成的向量表示该短文本,即文本空间实际上是由一组由数字描述的词项所构建的向量空间。在本专利技术所述的多粒度短文本语义相似度比较系统中,所述短文本特征选择单元中向量集表示模型包括:W(t,d)为词t在文本d中的权重;tf(t,d)为词在文本d中的词频;N为训练文本总数;nt为训练文本集中出现t的文本数;词条与权重构成特征向量;N代表维度;所述短文本的相似度计算单元通过基于空间向量的余弦算法进行距离测量以确定不同短文本之间的相似度。实施本专利技术提供的多粒度短文本语义相似度比较方法及系统与现有技术相比具有以下有益效果:能够由于短文本通常不遵循语法规则,并且长度短、没有足够的信息量来进行统计推断,机器很难在有限的语境中进行准确的推断,使得短文本的相似度对比存在较大的难度的问题,使得短文本相似度对比结果更为准确。附图说明图1是本专利技术实施例的多粒度短文本语义相似度比较方法流程图。具体实施方式如图1所示,一种多粒度短文本语义相似度比较方法,其包括如下步骤:S1、对短文本进行预处理;所述预处理包括中文分词以及词性标注;S2、对经过预处理的短文本进行特征选择;S3、对经过特征选择的向量集进行距离本文档来自技高网
...
多粒度短文本语义相似度比较方法及系统

【技术保护点】
一种多粒度短文本语义相似度比较方法,其特征在于,其包括如下步骤:S1、对短文本进行预处理;所述预处理包括中文分词以及词性标注;S2、对经过预处理的短文本进行特征选择;S3、对经过特征选择的向量集进行距离测量以确定短文本的相似度。

【技术特征摘要】
1.一种多粒度短文本语义相似度比较方法,其特征在于,其包括如下步骤:S1、对短文本进行预处理;所述预处理包括中文分词以及词性标注;S2、对经过预处理的短文本进行特征选择;S3、对经过特征选择的向量集进行距离测量以确定短文本的相似度。2.如权利要求1所述的多粒度短文本语义相似度比较方法,其特征在于,所述步骤S1中对短文本进行中文分词预处理包括:预先建立分词完的语料库,用于机器学习;将任何一汉字,将其分为词头、词中、词尾、单字成词四种状态;语料库,分析出每一个字的状态,通过将语料库的每一个分好的词,添加其状态信息;判断短文本的字在语料库中出现的次数;对短文本的字进行状态转移概率计算;形成一个4X4的矩阵;判断短文本的字出现时,下一个字出现的是内容以及内容对应的概率;记录每一个字在四种状态下上下文关系,通过一个哈希表表示,key存字,value存其概率;将短文本转换为字符数组;并取出每一个字对应特征,形成分析矩阵;设定分析矩阵中的值为S,S[字][当前状态]=MAX(P[上一个字任何状态][当前状态]*S[上一个字][任何一个状态])+W[前(后)一个字当前状态][当前字]+R[当前状态概率];其中R是特征二,P是特征三,W前是特征四的上文部分,W后是特征四的下文部分;通过分析矩阵完成短文本的中文分词预处理。3.如权利要求2所述的多粒度短文本语义相似度比较方法,其特征在于,所述步骤S1中对短文本进行中文分词预处理包括:通过隐马尔可夫模型完成对短文本的中文分词预处理。4.如权利要求2所述的多粒度短文本语义相似度比较方法,其特征在于,所述步骤S2包括:对于经过预处理后的文本信息集,根据短文本中的词项,抽取出具有代表性的词条作为短文本的特征,并为每个特征赋予一定的权值,将所有特征项构成的向量表示该短文本,即文本空间实际上是由一组由数字描述的词项所构建的向量空间。5.如权利要求2所述的多粒度短文本语义相似度比较方法,其特征在于,所述步骤S2中向量集表示模型包括:W(t,d)=tf(t,d)×log(N/nt+0.01)Σt∈d[tf(t,d)×log(N/nt+0.01)]2]]>W(t,d)为词t在文本d中的权重;tf(t,d)为词在文本d中的词频;N为训练文本总数;nt为训练文本集中出现t的文本数;词条与权重构成特征向量;N代表维度。6.如权利要求5所述的多粒度短文本语义相似度比较方法,其特征在于,通过基于空间向量的余弦算法进行距离测量以确定不同短文本之间的相...

【专利技术属性】
技术研发人员:李成华刘丽君
申请(专利权)人:武汉泰迪智慧科技有限公司
类型:发明
国别省市:湖北;42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1