一种基于词频矩阵特征向量计算文本中新词的方法及系统技术方案

技术编号:26763916 阅读:88 留言:0更新日期:2020-12-18 23:31
本发明专利技术涉及一种基于词频矩阵特征向量计算文本中新词的方法及系统,该方法,主要步骤如下:S1、文本集的词频字典的计算;S2、词频矩阵的初始化;S3、基于主成分分析进行降维;S4、新词发现。该系统,主要包括以下几个模块:文本集的词频字典的计算模块;词频矩阵的初始化模块;基于主成分分析的降维模块;新词发现模块。本发明专利技术一种基于词频矩阵特征向量计算文本中新词的方法及系统,能够以较高的准确率和计算效率对文本中的新词进行挖掘。

【技术实现步骤摘要】
一种基于词频矩阵特征向量计算文本中新词的方法及系统
本专利技术涉及一种基于词频矩阵特征向量计算文本中新词的方法及系统,属于自然语言处理、数据挖掘、中文分词

技术介绍
在中文信息处理领域,中文自动分词是一项很重要的基础工作。但是随着社会的不断发展,新词语不断在日常生活中涌现。新词的出现,使得自动分词结果中出现过多的“散串”,从而影响了分词的准确率,例如魏/璎珞,子弹/短信。据研究显示,60%的分词错误是由存在新词导致的。因此,有效地识别新词,将为观察研究分析语言现象的动态变化、规范语言文字以及提高中文自动分词的总体效果起到重要的作用。现有的新词发现算法,主要有基于互信息、基于信息熵、EM算法等方法。利用互信息和信息熵对新词进行挖掘的主要问题在于,这两种方法只能判断相邻的两个词是否能结合为一个新词,而且计算相邻两个词的左熵和右熵时,需要将词频统计存入Trie树,并将Trie树加载进内存中,在Trie树的构建和查询的过程中,会造成比较大的时间开销。EM算法比较依赖于初始条件。因此,本专利技术主要采用基于词频矩阵的特征向量的方本文档来自技高网...

【技术保护点】
1.一种基于词频矩阵特征向量计算文本中新词的方法,其特征在于:该方法主要步骤如下:/nS1、文本集的词频字典的计算/nS11、对于文本集

【技术特征摘要】
1.一种基于词频矩阵特征向量计算文本中新词的方法,其特征在于:该方法主要步骤如下:
S1、文本集的词频字典的计算
S11、对于文本集中的每一篇文章,首先进行预处理;
S12、预处理后,对于文本中的每一句话进行分词,将每一句话分词后的结果表示为{w1,w2,…,wi,…,wn},对于所述的分词后的结果,分别统计其1-gram,2-gram和3-gram的词频;
S13、利用分布式计算程序,对文本集中的词频进行统计,将词和其词频的统计结果的映射关系记为Φ(·);
S2、词频矩阵的初始化
S21、在对文本中的新词进行挖掘时,首先还是要对文本进行预处理,对于每条文本中的每一条语句,用{w1,w2,…,wi,…,wn}来表示预处理后的结果;
S22、基于该结果,可以对每一句话构造矩阵M={mij}n×n,矩阵的计算方法为:



上式表述了如何初始化矩阵M,如果Φ(·)中存在词wi和wiwi+1…wj(i<j),则mi,j的值为该词对应的词频,如果Φ(·)不存在该词,mi,j初始化为0;
S23、矩阵初始化后,需要对矩阵进行归一化处理,具体的归一化方法为:
mi,j=2*mi,j/(mi,i+mj,j)
如果mi,j>1,则将mi,j的值初始化为0.5;
S3、基于主成分分析进行降维
利用主成分分析的方法,来确定每一条语句应该被分为多少个词;
首先计算矩阵M的特征值和特征向量,将矩阵M的特征值记为:
λ(M)={λ1,λ2,...,λn}
其中,λ1≥λ2≥…≥λn对应的矩阵的特征向量为:
{x1,x2,…,xn}
取前k个特征值所对应的特征向量构成主成分矩阵将矩阵中的第i行向量作为该语句中第i个词的表示,向量为αi,即

<...

【专利技术属性】
技术研发人员:朱国伟顾维玺吕衎马戈王青春黄启洋
申请(专利权)人:中国工业互联网研究院
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1