【技术实现步骤摘要】
本专利技术涉及一种自然语言的处理方法,具体涉及一种词语权重的计算方法。
技术介绍
近年来,自然语言处理新模型不断涌现,而这些模型都以词语权重算法为基础,它 直接影响模型的处理结果。 总结起来,权重计算方法主要包括三大类词语全局权重、词语局部权重和文档规 范化因子。而词语的最终权重,就是这三类权重的乘积。然而这些权重之间有许多重复的 冗余信息,即存在着信息上的重叠。简单的相乘会重复记录这些重叠信息,从而使得某些词 语权重过高,造成最终权重不准确。
技术实现思路
本专利技术针对现有权重之间有许多重复的冗余信息,导致这些权重相乘会重复记录这些重叠信息,从而使得某些词语权重过高,造成最终权重不准确的问题;而提供一种采用主成分分析方法计算组合权重的方法,该方法能够在不改变原始权重数据信息量的情况下消除各权重间的相关性,从而给词语一个客观准确的权重。 为了达到上述目的,本专利技术采用如下的技术方案 ,该方案包括如下的步骤 (1)正态性检验,将所有待组合的词语权重的序列进行正态性检验。这是使用本专利计算方法的前提。主成分分析模型要求待处理的所有数据,即各权重计算方法计算出的 ...
【技术保护点】
基于主成分分析的词语权重组合方法,其特征在于,所述方法包括如下的步骤:(1)正态性检验,将所有待组合的词语权重的序列进行正态性检验;(2)将各种权重计算方法计算得到的词语权重值标准化,使所有的词语权重值在单一区间中;(3)计算相关矩阵,计算由各种权重计算方法计算得到的词语权重值形成的样本阵的相关矩阵;(4)求相关矩阵的特征根和特征向量,得出主成分;(5)求方差贡献率,确定主成分;(6)综合评价,通过上述确定的主成分进行加权求和,即得最终评价值。
【技术特征摘要】
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。