基于词分布的词语全局权重计算方法技术

技术编号:4178317 阅读:307 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了基于词分布的词语全局权重计算方法,该方法包括如下步骤:(1)计算词序列中词语的分布均匀度系数;(2)计算词序列中词语的分布广度系数;(3)计算基于词分布的词语全局权重。本发明专利技术将有效优化目前词语权重计算方法,提高其准确率,推动自然语言处理的研究和应用。

【技术实现步骤摘要】

本专利技术涉及一种自然语言的处理方法,特别涉及一种词语权重的计算方法。
技术介绍
90年代以来,随着网络信息的爆炸,人们需要精准地在网络上获取信息。这促使自然语言处理迅速发展,信息检索、信息过滤、文本分类、自动文摘、问答系统等自然语言处理应用技术的研究就成为近年来研究的热点。支持向量机、向量空间模型、潜在语义分析模型等新模型层出不穷。 这些新模型都以词语权重的计算为基础,词语权重计算是否准确直接影响着自然语言处理的最终结果,如图1。文档中每一个词语所表达的文档的信息量是不同的,我们用词语权重来表示词语的重要程度,只有准确地计算出每个词语的权重,才能使文档中的语义信息表现得更加明显。 常见的权重算法,布尔权重,特征频度,TF-IDF,熵等,都考虑了能够描述词语包含信息量的某个因素,如词频、文档频、词的位置等。有的权重计算方法根据词语在单一文档中的规律计算出权重,称之为词语局部权重;还有的根据词语在文档集中的规律计算出权重,称之为词语全局权重。 现有的词语权重计算方法得到的结果不够精确,这将直接影响以词语权重算法为基础的自然语言处理模型的处理结果。
技术实现思路
本专利技术针对现有词语权重计算方法不够准确的问题,而提供一种,该方法能够提高计算词语权重的准确性,从而有效的提高相应自然语言处理模型的准确率。 为了达到上述目的,本专利技术采用如下的技术方案 ,该方法包括如下步骤 (1)将待分析文档集进行预处理,使待分析文档集成为包含文档主要内容的词序列。(2)计算词序列中词语的分布均匀度系数; (3)计算词序列中词语的分布广度系数; (4)计算基于词分布的词语全局权重。 根据上述技术方案得到的本专利技术能有效优化目前词语权重计算方法,提高其准确率,推动自然语言处理的研究和应用。本专利技术能够使得以词语权重算法为基础的自然语言处理应用,如信息检索、文本分类、垃圾邮件过滤等获得更佳的处理结果。本专利技术在实际应用中可与其他权重算法组合,能够获得更高的准确率。附图说明 以下结合附图和具体实施方式来进一步说明本专利技术。 图1为词语权重计算方法与自然语言领域各技术的关系示意图。 图2为在文档集中词语分布均匀度与词语权重的关系示意图。 图3为在文档集中词语分布均匀度与词语权重的关系示意图。 图4为本专利技术的流程图。具体实施例方式为了使本专利技术实现的技术手段、创作特征、达成目的与功效易于明白了解,下面结合具体图示,进一步阐述本专利技术。 词语全局权重根据词语在文档集中的统计规律进行权重计算,它考虑文档集影响词语权重的一些因素,如词的文档频IDF等。在文档集中,大范围均匀分布的词语蕴含更少的信息量,和文档的内容基本无关;小范围集中分布的词语,蕴含较多信息量,更可能和出现该词语的文档内容相关。 本专利对文档中词语的分布进行研究,根据"K. Pearson定理"设计分布均匀度系数及其计算方法,来衡量词的分布情况。文档集中不同的词对应着不同的分布均匀度系数,分布均匀度系数的值越小,词的分布越均匀,其全局权重也应当越小。 另一方面,该统计量仅仅描述了词语分布的均匀程度,本专利还利用词语分布广度,来适当提高相应词的权重。 基于上述原理,本专利技术提供的一种基于词分布的词语全局权重算法通过如下步骤实现(参见图4): (1)计算词语全局权重前,必须将待分析的文档集进行中文分词、词性标注、去停用词、信息抽取等预处理操作,从而使待分析文档集成为包含文档主要内容的词序列(其为本领域较为成熟的技术,此处不加以赘述)。 (2)计算词序列中词语的分布均匀度系数; 设某一文档集共有m篇文档、Cm个字,对其执行步骤(1)后,得到了词序列。下面对词序列中的第j个词语求分布均匀度系数 设区间(C卜一l, C》表示第i篇文档从文档集的第C卜,1个字到第&个字,(其中C。 = 0, i = 1,2, . . . , m),文档集的总字数为Cm。可见对于文档集中的任一词语,包括词序列中的第j个词语,如果它均匀分布,则其出现在第i篇文档中的概率为巧=^^" (i =、1, 2, . . . , m) , n是这个词在文档集中实际出现的总次数,Vi是这个词在第i篇文档中实际出现的次数,则第j个词语的分布均匀度系数为 x =f (Vl, , vm, r" rm, m, n, a, b) 其中,x2j为词序列中第j个词语的分布均匀度系数,根据统计学原理,对上述变量进行数学变换得出。Vl, . . . , vm, ri, . . . rm, m, n都是变量,取决于第j个词语在待分析文档集中的统计情况。a,b为参数,涉及本专利的最优实施方案,需根据本专利的具体应用而定。本专利计算的第j个词语的在文档集中的分布均匀度系数X 2,.具有以下性质值越小,表示第j个词语在文档集中出现状态就越均匀。按照前面所述,"在文档集中,大范围 均匀分布的词语蕴含更少的信息量,和文档的内容基本无关;小范围集中分布的词语,蕴含 较多信息量,更可能和出现该词语的文档内容相关"(如图2和图3所示),也就是说词语分 布越均匀的词语全局权重越小。可见本专利计算的分布均匀度系数符合实际情况。 (3)计算词序列中词语的分布广度系数 待分析文档集中,词语分布的广度和该词语出现的文档总数、文档集中文档总数有关。根据统计学原理,本专利设计分布广度系数计算方法如下 如对于词序列中的第j个词语,其分布广度系数通过以下公式得到 Bj = 4) (p, m ;c, d, e) 其中,p, m为变量,p为该文档中出现该词语的段落总数,m为文档段落数;c、 d、 e 为参数。 (4)计算基于词分布的词语全局权重。基于词分布的词语全局权重需将上述分布均匀度系数和分布广度系数的计算结果,根据统计学原理,设计组合计算方法。 如根据前面得到的第j个词语的分布均匀度系数和分布广度系数,可计算得到第j个词语的全局权重 其中,X2j, Bj为变量,分别为分布均匀度系数和分布广度系数;f、 g、 h为参数,涉 及本专利的最优实施方案,需根据本专利的具体应用而定。 在对本专利技术具体测试时,采用在sina、 sohu等中国国内知名网络媒体近1年内的 超过150万篇网页文档作为语料库对本专利技术进行测试,具体方法如下 在超过150万篇网页文档中随机挑选1000篇文档,内容涉及新闻、娱乐、汽车、体 育等12个大类。通过两种方式进行计算相应词语的权重,一种是人工方式人工选择每篇 文档中最重要的20个词语,并标注出权重,标注过程需保证每篇文档的词语权重由10个不 同员工标注,平均值作为人工标注的最终词语权重。另一种方式是利用本专利技术提供的计算 方法和IDF算法分别计算出相应词语的词语权重,最后将得到的结果与人工标注的结果比 对。测试结果显示本专利技术提供的基于词分布的词语全局权重算法比其他IDF算法更接近人 工标注的值。 本专利专利技术的""能够有效地分析出待分析 文档集中能有效区分文档内容的重要词语并给予适当权重,该技术适用于文本分类的应用 系统,如海量信息管理、文档自动分类、办公自动化系统等。 以上显示和描述了本专利技术的基本原理和主要特征和本专利技术的优点。本行业的技术 人员应该了解,本专利技术不受上述实施例的限制,上述实施例和说明书中描述的只是说明本 专利技术的原理,本文档来自技高网...

【技术保护点】
基于词分布的词语全局权重计算方法,其特征在于,所述方法包括如下步骤:    (1)将待分析的文档集进行预处理操作,使待分析文档集成为包含文档主要内容的词序列。    (2)计算词序列中词语的分布均匀度系数;    (3)计算词序列中词语的分布广度系数;    (4)基于步骤(2)和步骤(3)得到的分布均匀度系数和分布广度系数,通过组合计算方法得到基于词分布的词语全局权重。

【技术特征摘要】

【专利技术属性】
技术研发人员:夏天
申请(专利权)人:上海第二工业大学
类型:发明
国别省市:31[中国|上海]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1