基于词频的文本特征加权及短文本相似性计算方法、系统和介质技术方案

技术编号：22642237 阅读：39 留言：0更新日期：2019-11-26 16:17

本发明专利技术公开了一种基于词频的文本特征加权及短文本相似性计算方法、系统和介质，本发明专利技术基于语料库进行词频统计实现基于词频的文本特征加权，可以用于自然语言处理领域中多个任务。比如文本分类，关键词提取，相似度计算等任务；本发明专利技术基于词频的文本特征加权进一步提供文本相似度的计算方法，通过给予文本中的词不同的权重，实现信息的非线性分布，能够提高文本的相似度计算的准确率，这种权重设计能够降低词频低的词的权重，同时也能够赋予词频高的词的较低的权重，增加中间段词频的词的权重，减少词频低的词和词频高的词对整个文本向量的影响，提高文本间的相似度计算的准确率。

Word frequency based text feature weighting and short text similarity calculation method, system and medium

The invention discloses a method, system and medium for calculating text feature weighting and short text similarity based on word frequency. The invention realizes text feature weighting based on word frequency statistics based on corpus, which can be used for multiple tasks in the field of natural language processing. For example, tasks such as text classification, keyword extraction, similarity calculation, etc.; the text feature weighting based on word frequency of the invention further provides a calculation method of text similarity. By giving different weights to words in the text, the non-linear distribution of information can be realized, and the accuracy of text similarity calculation can be improved. The weight design can reduce the weight of words with low word frequency, while It can also give low weight to words with high word frequency, increase the weight of words with middle segment word frequency, reduce the influence of words with low word frequency and high word frequency on the whole text vector, and improve the accuracy of similarity calculation between texts.

全部详细技术资料下载

【技术实现步骤摘要】
基于词频的文本特征加权及短文本相似性计算方法、系统和介质
本专利技术涉及自然语言处理
，具体涉及一种基于词频的文本特征加权及短文本相似性计算方法、系统和介质。
技术介绍
在自然语言处理领域中，文本特征加权的方法可以广泛的使用在各项文本相关任务中。比如在文本的预处理中，一般都会采用TF-IDF(termfrequence-inversedocumentfrequency)，用于对文本进行加权。基于TF-IDF的文本加权，可以直接用于后续的文本分类，文本相似度，关键词提取等任务中。但是TF-IDF这种方法本身过度放大了低频词和生僻词的作用。另一种统计学中的加权方式是CHI(Chi-square)卡方检验法，这种方法利用了统计学中“假设检验”的基本思想，需要数据集有标签。而本文重点在于无标签的文本处理。文本相似度计算是自然语言处理领域中多数任务的基础，对后续的文本相关任务起着非常关键的作用。比如在文本聚类方面，相似度阈值可以作为聚类的标准。主流的文本相似度计算分为三类：基于字符串的方法、基于统计的经验主义方法与基于规则的理性主义方法。基于字符串的方法通过计算两个字符串的字面差异来定义字符串之间的距离。但是基于字符串的方法没有考虑到文本蕴含的特征信息，现阶段主流的文本相似度算法从统计和规则两个方面进行考虑。基于统计的经验主义方法主要是利用统计方法，通过构建文本向量，来计算文本间的相似度。其中一类方法是基于语料库，对文本中出现的词进行加权，构建得到对应的向量。比如TF-IDF通过耦合语料库中出现的...

【技术保护点】
1.一种基于词频的文本特征加权方法，其特征在于实施步骤包括：/n1)获取待处理数据；/n2)针对待处理数据提取文本并进行预处理得到文本集合D＝{D

【技术特征摘要】
1.一种基于词频的文本特征加权方法，其特征在于实施步骤包括：
1)获取待处理数据；
2)针对待处理数据提取文本并进行预处理得到文本集合D＝{D1，D2…Dj…DM}，其中Dj表示一个文本，j∈[1，M]，M为文本的总数；对文本集合D进行分词，得到所有词的词集合T＝{T1，T2…Ti…TN}，其中Ti表示词，i∈[1，N]，N表示词的总数；
3)统计词集合中词的集合T中每个词出现的次数，得到词对应的频数集合Z＝{(T1，x1)，(T2，x2)…(Ti，xi)…(TN，xN)}，其中(Ti，xi)表示词Ti对应的词频xi，xi∈N+，其中N+表示正整数；基于词对应的频数集合Z进行词频权重计算词集合T中各个词Ti对应的归一化后的权重wi，从而得到权重集合W＝{(T1，w1)，(T2，w2)…(Ti，wi)…(TN，wN)}，其中(Ti，wi)为Ti对应的权重wi。

2.根据权利要求1中所述的基于词频的文本特征加权方法，其特征在于，步骤2)中的预处理包括删除特殊字符、去掉停用词、统一大小写、去重。

3.根据权利要求1中所述的基于词频的文本特征加权方法，其特征在于，步骤3)中进行词频权重计算词集合T中各个词Ti对应的归一化后的权重wi的详细步骤包括：
3.1)根据输入的词对应的频数集合Z统计词频数对应的词的种类数，得到集合Y：
Y＝{(x1，y1)，(x2，y2)，…(xj，yj)…(xn，yn)}
其中xj为词频，yj为对应词频的词的种类数，其中词频xj从小到大排序，并且j∈[1，n]，n为词频的种类数，xj∈N+，yj∈N+，N+表示正整数；
3.2)使用预设的公式Xk对集合Y中所有的xj对应的yj，按照设定的区间xj∈[Ck-1，Ck)累加求和yj，直到最后一个(xj，yj)计算结束，从而得到集合X＝{X1，X2…Xk…XK}，k∈[1，K]其中K为Xk的个数；其中，预设的公式Xk为：

上式中，N+表示正整数，其中C为可调的超参数，Ck表示上限区间，Ck-1表示下限区间；
3.3)使用词对应的频数集合Z拟合高斯函数F(X)；
3.4)对拟合的高斯函数F(X)求导得到权重计算函数f(x)；
3.5)针对词集合T中各个词Ti通过权重计算函数f(x)计算得到的权重进行归一化处理，得到该词最后的权重w(f(x))；
3.6)词集合T中各个词Ti的权重w(f(x))记为wi，从而得到权重集合W＝{(T1，w1)，(T2，w2)…(Ti，wi)…(TN，wN)}，其中(Ti，wi)表示词Ti及其对应的权重wi，i∈[1，N]，N表示词集合T中词的总数。

4.根据权利要求3中所述的基于词频的文本特征加权方法，其特征在于，步骤3.3)中高斯函数F(X)的函数表达式如下式所示：

上式中，a，b，c为需要拟合的参数；
步骤3.4中权重计算函数f(x)的函数表达式如下式所示：

上式中，a，b，c为高斯函数F(X)中的参数，x为词频。

5.根据权利要求3中所述的基于词频的文本特征加权方法，其特征在于，步骤3.4)中权重w(f(x))的函数...

【专利技术属性】
技术研发人员：蒋艳凰，贺依依，宋卓，李根，余硕军，赵强利，张少伟，雷鹏，
申请(专利权)人：人和未来生物科技长沙有限公司，
类型：发明
国别省市：湖南;43

全部详细技术资料下载我是这个专利的主人