基于词频的文本特征加权及短文本相似性计算方法、系统和介质技术方案

技术编号:22642237 阅读:39 留言:0更新日期:2019-11-26 16:17
本发明专利技术公开了一种基于词频的文本特征加权及短文本相似性计算方法、系统和介质,本发明专利技术基于语料库进行词频统计实现基于词频的文本特征加权,可以用于自然语言处理领域中多个任务。比如文本分类,关键词提取,相似度计算等任务;本发明专利技术基于词频的文本特征加权进一步提供文本相似度的计算方法,通过给予文本中的词不同的权重,实现信息的非线性分布,能够提高文本的相似度计算的准确率,这种权重设计能够降低词频低的词的权重,同时也能够赋予词频高的词的较低的权重,增加中间段词频的词的权重,减少词频低的词和词频高的词对整个文本向量的影响,提高文本间的相似度计算的准确率。

Word frequency based text feature weighting and short text similarity calculation method, system and medium

The invention discloses a method, system and medium for calculating text feature weighting and short text similarity based on word frequency. The invention realizes text feature weighting based on word frequency statistics based on corpus, which can be used for multiple tasks in the field of natural language processing. For example, tasks such as text classification, keyword extraction, similarity calculation, etc.; the text feature weighting based on word frequency of the invention further provides a calculation method of text similarity. By giving different weights to words in the text, the non-linear distribution of information can be realized, and the accuracy of text similarity calculation can be improved. The weight design can reduce the weight of words with low word frequency, while It can also give low weight to words with high word frequency, increase the weight of words with middle segment word frequency, reduce the influence of words with low word frequency and high word frequency on the whole text vector, and improve the accuracy of similarity calculation between texts.

【技术实现步骤摘要】
基于词频的文本特征加权及短文本相似性计算方法、系统和介质
本专利技术涉及自然语言处理
,具体涉及一种基于词频的文本特征加权及短文本相似性计算方法、系统和介质。
技术介绍
在自然语言处理领域中,文本特征加权的方法可以广泛的使用在各项文本相关任务中。比如在文本的预处理中,一般都会采用TF-IDF(termfrequence-inversedocumentfrequency),用于对文本进行加权。基于TF-IDF的文本加权,可以直接用于后续的文本分类,文本相似度,关键词提取等任务中。但是TF-IDF这种方法本身过度放大了低频词和生僻词的作用。另一种统计学中的加权方式是CHI(Chi-square)卡方检验法,这种方法利用了统计学中“假设检验”的基本思想,需要数据集有标签。而本文重点在于无标签的文本处理。文本相似度计算是自然语言处理领域中多数任务的基础,对后续的文本相关任务起着非常关键的作用。比如在文本聚类方面,相似度阈值可以作为聚类的标准。主流的文本相似度计算分为三类:基于字符串的方法、基于统计的经验主义方法与基于规则的理性主义方法。基于字符串的方法通过计算两个字符串的字面差异来定义字符串之间的距离。但是基于字符串的方法没有考虑到文本蕴含的特征信息,现阶段主流的文本相似度算法从统计和规则两个方面进行考虑。基于统计的经验主义方法主要是利用统计方法,通过构建文本向量,来计算文本间的相似度。其中一类方法是基于语料库,对文本中出现的词进行加权,构建得到对应的向量。比如TF-IDF通过耦合语料库中出现的各个词频率(TF)与逆向文本频率(IDF)来生成单个词的权重。其中权重越小的词,在TF-IDF词表述中对全文文本特征表述的影响越大。而平滑倒词频(smoothinversefrequencySIF)方法是一种计算每个词加权系数的方法。对于每个词ω的权重为a/(a+p(ω)),其中a为平滑参数,p(ω)为词频,SIF方法是对TF-IDF的一种改进。但是这类加权的方法,都高估了低词频的作用。另一类基于统计的方法是利用深度学习的方法,构建相关向量进行相似度计算。这类方法最大的问题在于需要数据集提供标签,而实际工程中,给数据集打标签是一项繁琐的工作。基于规则的方法,一般是采用人工构建的知识库,定义知识库中的规则来进行文本相似度的计算。采用基于语料库的文本加权的方法,比如TF-IDF,以及SIF算法,都存在将低词频权重设置过高的问题。对于词频低的词,比如生僻词,给予权重过高,会误认为文本的关键词。而对于词频高的词,不具备文本间的区分度,应给给予低权重。因此,如何实现新的权重计算规则,则仍然是一项亟待解决的技术问题。
技术实现思路
本专利技术要解决的技术问题:针对现有技术的上述问题,提出了一种基于词频的文本特征加权及短文本相似性计算方法、系统和介质,其中基于词频的文本特征加权方法为本专利技术的核心内容,短文本相似性计算方法为基于词频的文本特征加权方法的应用。本专利技术基于语料库进行词频统计提出了一种新的基于词频的文本加权的方式,这种文本加权的方式可以用于自然语言处理领域中多个任务。比如文本分类,关键词提取,相似度计算等任务。同时本专利技术中提供了一种文本相似度的计算方式,通过文本的加权,给予文本中的词不同的权重,实现信息的非线性分布,能够提高文本的相似度计算的准确率,这种权重设计能够降低词频低的词的权重,同时也能够赋予词频高的词的较低的权重,增加中间段词频的词的权重,减少词频低的词和词频高的词对整个文本向量的影响,提高文本间的相似度计算的准确率。为了解决上述技术问题,本专利技术采用的技术方案为:首先,本专利技术提供一种基于词频的文本特征加权方法,实施步骤包括:1)获取待处理数据;2)针对待处理数据提取文本并进行预处理得到文本集合D={D1,D2…Dj…DM},其中Dj表示一个文本,j∈[1,M],M为文本的总数;对文本集合D进行分词,得到所有词的词集合T={T1,T2…Ti…TN},其中Ti表示词,i∈[1,N],N表示词的总数;3)统计词集合中词的集合T中每个词出现的次数,得到词对应的频数集合Z={(T1,x1),(T2,x2)…(Ti,xi)…(TN,xN)},其中(Ti,xi)表示词Ti对应的词频xi,xi∈N+,其中N+表示正整数;基于词对应的频数集合Z进行词频权重计算词集合T中各个词Ti对应的归一化后的权重wi,从而得到权重集合W={(T1,w1),(T2,w2)…(Ti,wi)…(TN,wN)},其中(Ti,wi)为Ti对应的权重wi。可选地,步骤2)中的预处理包括删除特殊字符、去掉停用词、统一大小写、去重。可选地,步骤3)中进行词频权重计算词集合T中各个词Ti对应的归一化后的权重wi的详细步骤包括:3.1)根据输入的词对应的频数集合Z统计词频数对应的词的种类数,得到集合Y:Y={(x1,y1),(x2,y2),…(xj,yj)…(xn,yn)}其中xj为词频,yj为对应词频的词的种类数,其中词频xj从小到大排序,并且j∈[1,n],n为词频的种类数,xj∈N+,yj∈N+,N+表示正整数;3.2)使用预设的公式Xk对集合Y中所有的xj对应的yj,按照设定的区间xj∈[Ck-1,Ck)累加求和yj,直到最后一个(xj,yj)计算结束,从而得到集合X={X1,X2…Xk…XK},k∈[1,K]其中K为Xk的个数;其中,预设的公式Xk为:上式中,N+表示正整数,其中C为可调的超参数,Ck表示上限区间,Ck-1表示下限区间;3.3)使用词对应的频数集合Z拟合高斯函数F(X);3.4)对拟合的高斯函数F(X)求导得到权重计算函数f(x);3.5)针对词集合T中各个词Ti通过权重计算函数f(x)计算得到的权重进行归一化处理,得到该词最后的权重w(f(x));3.6)词集合T中各个词Ti的权重w(f(x))记为wi,从而得到权重集合W={(T1,w1),(T2,w2)…(Ti,wi)…(TN,wN)},其中(Ti,wi)表示词Ti及其对应的权重wi,i∈[1,N],N表示词集合T中词的总数。可选地,步骤3.3)中高斯函数F(X)的函数表达式如下式所示:上式中,a,b,c为需要拟合的参数;步骤3.4中权重计算函数f(x)的函数表达式如下式所示:上式中,a,b,c为高斯函数F(X)中的参数,x为词频。可选地,步骤3.4)中权重w(f(x))的函数表达式如下式所示:上式中,f(x)为权重计算函数,min(f(x))为所有词频计算出的权重中的最小值,max(f(x))为所有词频计算出的权重中的最大值,c为超参数。此外,本专利技术还提供一种基于词频的文本特征加权系统,包括:输入程序单元,用于获取待处理数据;预处理程序单元,用于针对待处理数据提取文本并进行预处理得到D={D1,D2…Dj…DM},其中Dj表示一个文本,j∈[1,M],M本文档来自技高网
...

【技术保护点】
1.一种基于词频的文本特征加权方法,其特征在于实施步骤包括:/n1)获取待处理数据;/n2)针对待处理数据提取文本并进行预处理得到文本集合D={D

【技术特征摘要】
1.一种基于词频的文本特征加权方法,其特征在于实施步骤包括:
1)获取待处理数据;
2)针对待处理数据提取文本并进行预处理得到文本集合D={D1,D2…Dj…DM},其中Dj表示一个文本,j∈[1,M],M为文本的总数;对文本集合D进行分词,得到所有词的词集合T={T1,T2…Ti…TN},其中Ti表示词,i∈[1,N],N表示词的总数;
3)统计词集合中词的集合T中每个词出现的次数,得到词对应的频数集合Z={(T1,x1),(T2,x2)…(Ti,xi)…(TN,xN)},其中(Ti,xi)表示词Ti对应的词频xi,xi∈N+,其中N+表示正整数;基于词对应的频数集合Z进行词频权重计算词集合T中各个词Ti对应的归一化后的权重wi,从而得到权重集合W={(T1,w1),(T2,w2)…(Ti,wi)…(TN,wN)},其中(Ti,wi)为Ti对应的权重wi。


2.根据权利要求1中所述的基于词频的文本特征加权方法,其特征在于,步骤2)中的预处理包括删除特殊字符、去掉停用词、统一大小写、去重。


3.根据权利要求1中所述的基于词频的文本特征加权方法,其特征在于,步骤3)中进行词频权重计算词集合T中各个词Ti对应的归一化后的权重wi的详细步骤包括:
3.1)根据输入的词对应的频数集合Z统计词频数对应的词的种类数,得到集合Y:
Y={(x1,y1),(x2,y2),…(xj,yj)…(xn,yn)}
其中xj为词频,yj为对应词频的词的种类数,其中词频xj从小到大排序,并且j∈[1,n],n为词频的种类数,xj∈N+,yj∈N+,N+表示正整数;
3.2)使用预设的公式Xk对集合Y中所有的xj对应的yj,按照设定的区间xj∈[Ck-1,Ck)累加求和yj,直到最后一个(xj,yj)计算结束,从而得到集合X={X1,X2…Xk…XK},k∈[1,K]其中K为Xk的个数;其中,预设的公式Xk为:



上式中,N+表示正整数,其中C为可调的超参数,Ck表示上限区间,Ck-1表示下限区间;
3.3)使用词对应的频数集合Z拟合高斯函数F(X);
3.4)对拟合的高斯函数F(X)求导得到权重计算函数f(x);
3.5)针对词集合T中各个词Ti通过权重计算函数f(x)计算得到的权重进行归一化处理,得到该词最后的权重w(f(x));
3.6)词集合T中各个词Ti的权重w(f(x))记为wi,从而得到权重集合W={(T1,w1),(T2,w2)…(Ti,wi)…(TN,wN)},其中(Ti,wi)表示词Ti及其对应的权重wi,i∈[1,N],N表示词集合T中词的总数。


4.根据权利要求3中所述的基于词频的文本特征加权方法,其特征在于,步骤3.3)中高斯函数F(X)的函数表达式如下式所示:



上式中,a,b,c为需要拟合的参数;
步骤3.4中权重计算函数f(x)的函数表达式如下式所示:



上式中,a,b,c为高斯函数F(X)中的参数,x为词频。


5.根据权利要求3中所述的基于词频的文本特征加权方法,其特征在于,步骤3.4)中权重w(f(x))的函数...

【专利技术属性】
技术研发人员:蒋艳凰贺依依宋卓李根余硕军赵强利张少伟雷鹏
申请(专利权)人:人和未来生物科技长沙有限公司
类型:发明
国别省市:湖南;43

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1