分词评价方法及装置制造方法及图纸

技术编号:5214945 阅读:223 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种分词评价方法及装置,属于信息处理领域。所述方法包括:从互联网中获取每个测试词语的测试语料,构建所述每个测试词语的测试语料集;以待评价的分词程序对所述每个测试词语及其测试语料集进行分词处理;将所述每个测试词语的分词结果与其测试语料集中的分词结果进行比对,根据所述每个测试词语的分词结果与其测试语料集中的分词结果的一致性,对所述待评价的分词程序进行评价。所述装置包括:构建模块、分词模块、比对模块和评价模块。本发明专利技术通过从互联网中获取测试词语的测试语料,构建测试语料集,并根据测试词语的分词结果与其测试语料集中的分词结果的一致性,进行分词评价,能够更好地评价面向互联网应用的分词性能。

【技术实现步骤摘要】

本专利技术涉及信息处理领域,特别涉及一种分词评价方法及装置
技术介绍
随着互联网的普遍应用,面向互联网进行搜索逐渐成为了人们获取信息的主要方 式。分词技术作为搜索引擎中的一项重要的基础技术,它的好坏将直接影响搜索质量的好 坏。为了提高分词的质量,人们设计出了各种各样的分词程序。如何对这些分词程序的分 词性能进行评价,一直是一个比较困难的问题。现有技术采用的是根据分词的准确率和召回率进行分词评价的方式,为了计算分 词的准确率和召回率,需要有事先标注的比较大规模的语料库,并在此基础上进行统计计 算,最后根据计算结果对分词的好坏进行评价。在实现本专利技术的过程中,专利技术人发现现有技术至少存在以下缺点现有的分词评价方式需要有事先标注的语料库才能实现自动评价,而目前已有的 比较大规模的语料库均需要人工进行标注。另外,由于现有语料库中的语料和目前互联网 中涉及的网络语料具有一定的差异性,从而导致有些分词程序即使根据现有语料库计算出 较高的准确率和召回率,但将其应用到面向互联网的搜索引擎中时,分词性能仍然很差。
技术实现思路
为了实现对分词性能的自动评价,并更加有效地评价面向互联网应用的分词性 能,本专利技术实施例提供了一种分词评价方法及装置。所述技术方案如下—方面,提供了一种分词评价方法,所述方法包括从互联网中获取每个测试词语的测试语料,构建所述每个测试词语的测试语料 集;以待评价的分词程序对所述每个测试词语及其测试语料集进行分词处理;将所述每个测试词语的分词结果与其测试语料集中的分词结果进行比对,根据所 述每个测试词语的分词结果与其测试语料集中的分词结果的一致性,对所述待评价的分词 程序进行评价。其中,所述从互联网中获取每个测试词语的测试语料,构建所述每个测试词语的 测试语料集,具体包括将所述每个测试词语作为搜索词放入面向互联网的搜索引擎中进行搜索,得到所 述每个测试词语的搜索结果;在所述每个测试词语的搜索结果中提取有效的测试语料,构建所述每个测试词语 的测试语料集。所述根据所述每个测试词语的分词结果与其测试语料集中的分词结果的一致性, 对所述待评价的分词程序进行评价,具体包括统计每个测试语料集中的分词结果的个数,并统计所述每个测试语料集中的分词结果与所述每个测试语料集对应的测试词语的分词结果一致的个数;根据所述统计出的个数,对所述待评价的分词程序进行评价。或者,所述根据所述每个测试词语的分词结果与其测试语料集中的分词结果的一 致性,对所述待评价的分词程序进行评价,具体包括在所有测试语料集中,统计测试语料集中的所有分词结果均与所述测试语料集对 应的测试词语的分词结果一致的个数;根据所述统计出的个数,及所有测试词语的个数,对所述待评价的分词程序进行 评价。另一方面,提供了一种分词评价装置,所述装置包括构建模块,用于从互联网中获取每个测试词语的测试语料,构建所述每个测试词 语的测试语料集;分词模块,用于以待评价的分词程序对所述每个测试词语及其测试语料集进行分 词处理;比对模块,用于将所述每个测试词语的分词结果与其测试语料集中的分词结果进 行比对;评价模块,用于在将所述每个测试词语的分词结果与其测试语料集中的分词结果 进行比对之后,根据所述每个测试词语的分词结果与其测试语料集中的分词结果的一致 性,对所述待评价的分词程序进行评价。其中,所述构建模块,具体包括搜索单元,具体用于将所述每个测试词语作为搜索词放入面向互联网的搜索引擎 中进行搜索,得到所述每个测试词语的搜索结果;构建单元,具体用于在所述每个测试词语的搜索结果中提取有效的测试语料,构 建所述每个测试词语的测试语料集。具体地,所述评价模块,具体用于在将所述每个测试词语的分词结果与其测试语 料集中的分词结果进行比对之后,统计每个测试语料集中的分词结果的个数,并统计所述 每个测试语料集中的分词结果与所述每个测试语料集对应的测试词语的分词结果一致的 个数;根据所述统计出的个数,对所述待评价的分词程序进行评价。或者,所述评价模块,具体用于在将所述每个测试词语的分词结果与其测试语料 集中的分词结果进行比对之后,在所有测试语料集中,统计测试语料集中的所有分词结果 均与所述测试语料集对应的测试词语的分词结果一致的个数;根据所述统计出的个数,及 所有测试词语的个数,对所述待评价的分词程序进行评价。本专利技术实施例提供的技术方案的有益效果是通过从互联网中获取每个测试词语的测试语料,构建每个测试词语的测试语料 集,并根据测试词语的分词结果与其测试语料集中的分词结果的一致性,对分词性能进行 评价,不仅能够在无需人工参与的情况下实现自动评价,还能够更好地评价面向互联网应 用的分词性能,使分词评价更具可靠性,适合应用于大规模的数据测试。附图说明为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于 本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他 的附图。图1是本专利技术实施例一提供的分词评价方法流程图;图2是本专利技术实施例二提供的分词评价方法流程图;图3是本专利技术实施例三提供的分词评价装置结构示意图;图4是本专利技术实施例三提供的分词评价装置中的构建模块结构示意图。具体实施例方式为使本专利技术的目的、技术方案和优点更加清楚,下面将结合附图对本专利技术实施方 式作进一步地详细描述。实施例一参见图1,本实施例提供了一种分词评价方法,该方法流程如下101 从互联网中获取每个测试词语的测试语料,构建每个测试词语的测试语料 集;102 以待评价的分词程序对每个测试词语及其测试语料集进行分词处理;103:将每个测试词语的分词结果与其测试语料集中的分词结果进行比对,根据每 个测试词语的分词结果与其测试语料集中的分词结果的一致性,对待评价的分词程序进行 评价。综上所述,本实施例提供的方法,通过从互联网中获取测试词语的测试语料,构建 测试词语的测试语料集,并根据测试词语的分词结果与其测试语料集中的分词结果的一致 性,进行分词评价,能够在无需人工参与的情况下,更好地评价面向互联网应用的分词性 能,使分词评价更具可靠性,适合应用于大规模的数据测试。实施例二本实施例提供了一种分词评价方法,该方法针对各种各样的分词程序,提供了一 种面向互联网应用的分词性能评价方法,参见图2,方法流程具体如下201 从互联网中获取每个测试词语的测试语料,构建每个测试词语的测试语料 集;针对该步骤,为了使测试词语更具代表性,更能体现出分词性能,可以将网络中点 击频率较高、比较热门的词语作为测试词语,还可以将古今中外的一些名人的人名作为测 试词语,除此之外,还可以将一些具有代表性、确定性的词语作为测试词语,本实施例不对 测试词语的内容及数量进行具体限定。具体地,为了缩小获取的测试语料与网络语料之间的差异性,提供一种面向互联 网应用的分词评价方法,本实施例以面向互联网的搜索引擎为例,将每个测试词语作为搜 索词放入面向互联网的搜索引擎中进行搜索,得到每个测试词语的搜索结果;并在每个测 试词语的搜索结果中提取有效的测试语料,构建每个测试词语的测试语料集。对于每个测试词语,其搜索结果可能是成千上万的,搜索引擎一般会将最相关的、 高质量的搜本文档来自技高网...

【技术保护点】
一种分词评价方法,其特征在于,所述方法包括:从互联网中获取每个测试词语的测试语料,构建所述每个测试词语的测试语料集;以待评价的分词程序对所述每个测试词语及其测试语料集进行分词处理;将所述每个测试词语的分词结果与其测试语料集中的分词结果进行比对,根据所述每个测试词语的分词结果与其测试语料集中的分词结果的一致性,对所述待评价的分词程序进行评价。

【技术特征摘要】
1.一种分词评价方法,其特征在于,所述方法包括从互联网中获取每个测试词语的测试语料,构建所述每个测试词语的测试语料集; 以待评价的分词程序对所述每个测试词语及其测试语料集进行分词处理; 将所述每个测试词语的分词结果与其测试语料集中的分词结果进行比对,根据所述每 个测试词语的分词结果与其测试语料集中的分词结果的一致性,对所述待评价的分词程序 进行评价。2.根据权利要求1所述的方法,其特征在于,所述从互联网中获取每个测试词语的测 试语料,构建所述每个测试词语的测试语料集,具体包括将所述每个测试词语作为搜索词放入面向互联网的搜索引擎中进行搜索,得到所述每 个测试词语的搜索结果;在所述每个测试词语的搜索结果中提取有效的测试语料,构建所述每个测试词语的测 试语料集。3.根据权利要求1所述的方法,其特征在于,所述根据所述每个测试词语的分词结果 与其测试语料集中的分词结果的一致性,对所述待评价的分词程序进行评价,具体包括统计每个测试语料集中的分词结果的个数,并统计所述每个测试语料集中的分词结果 与所述每个测试语料集对应的测试词语的分词结果一致的个数; 根据所述统计出的个数,对所述待评价的分词程序进行评价。4.根据权利要求1所述的方法,其特征在于,所述根据所述每个测试词语的分词结果 与其测试语料集中的分词结果的一致性,对所述待评价的分词程序进行评价,具体包括在所有测试语料集中,统计测试语料集中的所有分词结果均与所述测试语料集对应的 测试词语的分词结果一致的个数;根据统计出的个数,及所有测试词语的个数,对所述待评价的分词程序进行评价。5.一种分词评价装置,其特...

【专利技术属性】
技术研发人员:方高林郑全战
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:94[中国|深圳]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1