一种基于语境进行分词的方法和装置制造方法及图纸

技术编号:10483408 阅读:124 留言:0更新日期:2014-10-03 14:26
发明专利技术实施例提供了一种基于语境进行分词的方法和装置,所述的方法包括:提取搜索资源中网页的文本信息;采用分词词典中的特征词条对所述文本信息进行分词处理,获得一个或多个候选分词;当所述分词处理出现歧义时,统计所述候选分词在所述网页中表征语境的词频数;依据所述词频数调整所述分词词典中特征词条的权重;依据调整权重后的分词词典中的特征词条对所述文本信息进行分词处理,确定目标候选分词。本发明专利技术实施例基于语境辅助分词处理,充分考虑了自然语言的特性,有效降低歧义对分词处理的影响,提升了分词的准确率。

【技术实现步骤摘要】
一种基于语境进行分词的方法和装置
本专利技术涉及分词
,特别是涉及一种基于语境进行分词的方法和一种基于语境进行分词的装置。
技术介绍
随着互联网的高速发展,网络应用趋向多元化,网上的信息量急剧增加。 在各种场合下,用户经常需要输入关键信息进行关联信息的获取。例如,在搜索引擎中输入关键词搜索网页信息、在论坛中输入关键词搜索帖子等等。 分词是进行信息处理、信息检索的基础,所有的信息处理、信息检索工作都是在分词之后进行的。所以分词的错误会被叠加到后续的处理过程中,而且很难被消除。正因为这样所以对分词的准确率的追求是个持续的过程,同时由于中文语言的固有的特性:没有明确的词的定义、词和词之间没有分隔符、新词、专有名词不断涌现等这些因素导致分词很难做到100%的准确。 当前分词系统使用的主要方法是基于统计的分词。从形式上看,词是稳定的字的组合,因此在上下文中,相邻的字同时出现的次数越多,就越有可能构成一个词。因此字与字相邻共现的频率或概率能够较好的反映成词的可信度。可以对语料中相邻共现的各个字的组合的频度进行统计,计算它们的互现信息。定义两个字的互现信息,计算两个汉字X,Y的相邻共现概率。互现信息体现了汉字之间结合关系的紧密程度。当紧密程度高于某一个阈值时,便可认为此字组可能构成了一个词。这种方法只需对语料中的字组频度进行统计,但这种方法也有一定的局限性,会经常抽出一些共现频度高、但并不是词的常用字组,例如“这一”、“之一”、“有的”、“我的”、“许多的”等,并且对常用词的识别精度差,时空开销大。 分词的结果错误致使后期获取的关联信息与当初的预期有很大差别,用户体验十分差,浪费了设备系统资源。
技术实现思路
鉴于上述问题,提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上述问题的一种基于语境进行分词的方法和相应的一种基于语境进行分词的装置。 依据本专利技术的一个方面,提供了一种基于语境进行分词的方法,包括: 提取搜索资源中网页的文本信息; 采用分词词典中的特征词条对所述文本信息进行分词处理,获得一个或多个候选分词; 当所述分词处理出现歧义时,统计所述候选分词在所述网页中表征语境的词频数; 依据所述词频数调整所述分词词典中特征词条的权重; 依据调整权重后的分词词典中的特征词条对所述文本信息进行分词处理,确定目标候选分词。 可选地,所述候选分词包括第一候选分词和第二候选分词中的至少一个; 所述采用分词词典中的特征词条对所述文本信息进行分词处理,获得一个或多个候选分词的步骤包括: 按照第一分词规则对所述文本信息进行与所述特征词条进行匹配; 当所述文本信息进行与所述特征词条进行匹配时,提取所述特征词条作为第一候选分词; 按照第二分词规则对所述文本信息进行与所述特征词条进行匹配; 当所述文本信息进行与所述特征词条进行匹配时,提取所述特征词条作为第二候选分词; 其中,所述第一分词规则为与所述第二分词规则不同的分词规则。 可选地,所述表征语境的词频数包括所述第一候选分词在所述网页的文本语言环境中的第一词频数,所述第二候选分词在所述网页的文本语言环境中的第二词频数; 所述当所述分词处理出现歧义时,统计所述候选分词在所述网页中表征语境的词频数的步骤包括: 当对同一个文本信息进行分词处理所获得的所述第一候选分词和所述第二候选分词不同时,判断所述分词处理出现歧义; 分别统计所述第一候选分词在所述网页中的文本语言环境中的第一词频数,以及,所述第二候选分词在所述网页中的文本语言环境中的第二词频数。 可选地,所述依据所述词频数调整所述分词词典中特征词条的权重的步骤包括: 当所述第一词频数大于所述第二词频数时,提高所述第一候选分词对应的特征词条在所述分词词典中的权重; 当所述第二词频数大于所述第一词频数时,提高所述第二候选分词对应的特征词条在所述分词词典中的权重。 可选地,所述依据调整权重后的分词词典中的特征词条对所述文本信息进行分词处理,确定目标候选分词的步骤包括: 按照指定的分词规则对所述文本信息与提高权重后的所述特征词条进行匹配; 当所述文本信息进行与所述特征词条进行匹配时,提取所述特征词条作为目标候选分词。 根据本专利技术的另一方面,提供了一种基于语境进行分词的装置,包括: 文本信息提取模块,适于提取搜索资源中网页的文本信息; 第一分词处理模块,适于采用分词词典中的特征词条对所述文本信息进行分词处理,获得一个或多个候选分词; 词频数统计模块,适于在所述分词处理出现歧义时,统计所述候选分词在所述网页中表征语境的词频数; 权重调整模块,适于依据所述词频数调整所述分词词典中特征词条的权重; 第二分词处理模块,适于依据调整权重后的分词词典中的特征词条对所述文本信息进行分词处理,确定目标候选分词。 可选地,所述候选分词包括第一候选分词和第二候选分词中的至少一个; 所述第一分词处理模块还适于: 按照第一分词规则对所述文本信息进行与所述特征词条进行匹配; 当所述文本信息进行与所述特征词条进行匹配时,提取所述特征词条作为第一候选分词; 按照第二分词规则对所述文本信息进行与所述特征词条进行匹配; 当所述文本信息进行与所述特征词条进行匹配时,提取所述特征词条作为第二候选分词; 其中,所述第一分词规则为与所述第二分词规则不同的分词规则。 可选地,所述表征语境的词频数包括所述第一候选分词在所述网页的文本语言环境中的第一词频数,所述第二候选分词在所述网页的文本语言环境中的第二词频数; 所述词频数统计模块还适于: 当对同一个文本信息进行分词处理所获得的所述第一候选分词和所述第二候选分词不同时,判断所述分词处理出现歧义; 分别统计所述第一候选分词在所述网页中的文本语言环境中的第一词频数,以及,所述第二候选分词在所述网页中的文本语言环境中的第二词频数。 可选地,所述权重调整模块还适于: 当所述第一词频数大于所述第二词频数时,提高所述第一候选分词对应的特征词条在所述分词词典中的权重; 当所述第二词频数大于所述第一词频数时,提高所述第二候选分词对应的特征词条在所述分词词典中的权重。 [0051 ] 可选地,所述第二分词处理模块还适于: 按照指定的分词规则对所述文本信息与提高权重后的所述特征词条进行匹配; 当所述文本信息进行与所述特征词条进行匹配时,提取所述特征词条作为目标候选分词。 本专利技术实施例在采用分词词典中的特征词条对文本信息进行分词处理出现歧义时,基于候选分词在网页中表征语境的词频数调整分词词典中特征词条的权重,以及依据调整权重后特征词条对文本信息进行分词处理,确定目标候选分词,基于语境辅助分词处理,充分考虑了自然语言的特性,有效降低歧义对分词处理的影响,提升了分词的准确率。 上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本专利技术的【具体实施方式】。 【附图说明】 通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的本文档来自技高网
...

【技术保护点】
一种基于语境进行分词的方法,包括:提取搜索资源中网页的文本信息;采用分词词典中的特征词条对所述文本信息进行分词处理,获得一个或多个候选分词;当所述分词处理出现歧义时,统计所述候选分词在所述网页中表征语境的词频数;依据所述词频数调整所述分词词典中特征词条的权重;依据调整权重后的分词词典中的特征词条对所述文本信息进行分词处理,确定目标候选分词。

【技术特征摘要】
1.一种基于语境进行分词的方法,包括: 提取搜索资源中网页的文本信息; 采用分词词典中的特征词条对所述文本信息进行分词处理,获得一个或多个候选分词; 当所述分词处理出现歧义时,统计所述候选分词在所述网页中表征语境的词频数; 依据所述词频数调整所述分词词典中特征词条的权重; 依据调整权重后的分词词典中的特征词条对所述文本信息进行分词处理,确定目标候选分词。2.如权利要求1所述的方法,其特征在于,所述候选分词包括第一候选分词和第二候选分词中的至少一个; 所述采用分词词典中的特征词条对所述文本信息进行分词处理,获得一个或多个候选分词的步骤包括: 按照第一分词规则对所述文本信息进行与所述特征词条进行匹配; 当所述文本信息 进行与所述特征词条进行匹配时,提取所述特征词条作为第一候选分 词; 按照第二分词规则对所述文本信息进行与所述特征词条进行匹配; 当所述文本信息进行与所述特征词条进行匹配时,提取所述特征词条作为第二候选分词; 其中,所述第一分词规则为与所述第二分词规则不同的分词规则。3.如权利要求1或2所述的方法,其特征在于,所述表征语境的词频数包括所述第一候选分词在所述网页的文本语言环境中的第一词频数,所述第二候选分词在所述网页的文本语言环境中的第二词频数; 所述当所述分词处理出现歧义时,统计所述候选分词在所述网页中表征语境的词频数的步骤包括: 当对同一个文本信息进行分词处理所获得的所述第一候选分词和所述第二候选分词不同时,判断所述分词处理出现歧义; 分别统计所述第一候选分词在所述网页中的文本语言环境中的第一词频数,以及,所述第二候选分词在所述网页中的文本语言环境中的第二词频数。4.如权利要求1或2或3所述的方法,其特征在于,所述依据所述词频数调整所述分词词典中特征词条的权重的步骤包括: 当所述第一词频数大于所述第二词频数时,提高所述第一候选分词对应的特征词条在所述分词词典中的权重; 当所述第二词频数大于所述第一词频数时,提高所述第二候选分词对应的特征词条在所述分词词典中的权重。5.如权利要求1或2或3或4所述的方法,其特征在于,所述依据调整权重后的分词词典中的特征词条对所述文本信息进行分词处理,确定目标候选分词的步骤包括: 按照指定的分词规则对所述文本信息与提高权重后的所述特征词条进行匹配; 当所述文本信...

【专利技术属性】
技术研发人员:项碧波
申请(专利权)人:北京奇虎科技有限公司奇智软件北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1