【技术实现步骤摘要】
本专利技术涉及一种自然语言的处理方法,特别涉及一种词语权重的计算方法。
技术介绍
90年代以来,随着网络信息的爆炸,人们需要精准地在网络上获取信息。这促使自然语言处理迅速发展,信息检索、信息过滤、文本分类、自动文摘、问答系统等自然语言处理应用技术的研究就成为近年来研究的热点。支持向量机、向量空间模型、潜在语义分析模型等新模型层出不穷。 这些新模型都以词语权重的计算为基础,词语权重计算是否准确直接影响着自然语言处理的最终结果,如图1。文档中每一个词语所表达的文档的信息量是不同的,我们用词语权重来表示词语的重要程度,只有准确地计算出每个词语的权重,才能使文档中的语义信息表现得更加明显。 常见的权重算法,布尔权重,特征频度,TF-IDF,熵等,都考虑了能够描述词语包含信息量的某个因素,如词频、文档频、词的位置等。有的权重计算方法根据词语在单一文档中的规律计算出权重,称之为词语局部权重;还有的根据词语在文档集中的规律计算出权重,称之为词语全局权重。 现有的词语权重计算方法得到的结果不够精确,这将直接影响以词语权重算法为基础的自然语言处理模型的处理结果。
技术实现思路
本专 ...
【技术保护点】
基于词分布的词语全局权重计算方法,其特征在于,所述方法包括如下步骤: (1)将待分析的文档集进行预处理操作,使待分析文档集成为包含文档主要内容的词序列。 (2)计算词序列中词语的分布均匀度系数; (3)计算词序列中词语的分布广度系数; (4)基于步骤(2)和步骤(3)得到的分布均匀度系数和分布广度系数,通过组合计算方法得到基于词分布的词语全局权重。
【技术特征摘要】
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。