一种基于语境进行分词的方法和装置制造方法及图纸

技术编号：10483408 阅读：124 留言：0更新日期：2014-10-03 14:26

发明专利技术实施例提供了一种基于语境进行分词的方法和装置，所述的方法包括：提取搜索资源中网页的文本信息；采用分词词典中的特征词条对所述文本信息进行分词处理，获得一个或多个候选分词；当所述分词处理出现歧义时，统计所述候选分词在所述网页中表征语境的词频数；依据所述词频数调整所述分词词典中特征词条的权重；依据调整权重后的分词词典中的特征词条对所述文本信息进行分词处理，确定目标候选分词。本发明专利技术实施例基于语境辅助分词处理，充分考虑了自然语言的特性，有效降低歧义对分词处理的影响，提升了分词的准确率。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于语境进行分词的方法和装置
本专利技术涉及分词
，特别是涉及一种基于语境进行分词的方法和一种基于语境进行分词的装置。
技术介绍
随着互联网的高速发展，网络应用趋向多元化，网上的信息量急剧增加。在各种场合下，用户经常需要输入关键信息进行关联信息的获取。例如，在搜索引擎中输入关键词搜索网页信息、在论坛中输入关键词搜索帖子等等。分词是进行信息处理、信息检索的基础，所有的信息处理、信息检索工作都是在分词之后进行的。所以分词的错误会被叠加到后续的处理过程中，而且很难被消除。正因为这样所以对分词的准确率的追求是个持续的过程，同时由于中文语言的固有的特性:没有明确的词的定义、词和词之间没有分隔符、新词、专有名词不断涌现等这些因素导致分词很难做到100%的准确。当前分词系统使用的主要方法是基于统计的分词。从形式上看，词是稳定的字的组合，因此在上下文中，相邻的字同时出现的次数越多，就越有可能构成一个词。因此字与字相邻共现的频率或概率能够较好的反映成词的可信度。可以对语料中相邻共现的各个字的组合的频度进行统计，计算它们的互现信息。定义两个字的互现信息，计算两个汉字X,Y的相邻共现概率。互现信息体现了汉字之间结合关系的紧密程度。当紧密程度高于某一个阈值时，便可认为此字组可能构成了一个词。这种方法只需对语料中的字组频度进行统计，但这种方法也有一定的局限性，会经常抽出一些共现频度高、但并不是词的常用字组，例如“这一”、“之一”、“有的”、“我的”、“许多的”等，并且对常用词的识别精度差，时空开销大。分词的结果错误致使后期获取...

【技术保护点】
一种基于语境进行分词的方法，包括：提取搜索资源中网页的文本信息；采用分词词典中的特征词条对所述文本信息进行分词处理，获得一个或多个候选分词；当所述分词处理出现歧义时，统计所述候选分词在所述网页中表征语境的词频数；依据所述词频数调整所述分词词典中特征词条的权重；依据调整权重后的分词词典中的特征词条对所述文本信息进行分词处理，确定目标候选分词。

【技术特征摘要】
1.一种基于语境进行分词的方法，包括: 提取搜索资源中网页的文本信息；采用分词词典中的特征词条对所述文本信息进行分词处理，获得一个或多个候选分词；当所述分词处理出现歧义时，统计所述候选分词在所述网页中表征语境的词频数；依据所述词频数调整所述分词词典中特征词条的权重；依据调整权重后的分词词典中的特征词条对所述文本信息进行分词处理，确定目标候选分词。2.如权利要求1所述的方法，其特征在于，所述候选分词包括第一候选分词和第二候选分词中的至少一个；所述采用分词词典中的特征词条对所述文本信息进行分词处理，获得一个或多个候选分词的步骤包括: 按照第一分词规则对所述文本信息进行与所述特征词条进行匹配；当所述文本信息进行与所述特征词条进行匹配时，提取所述特征词条作为第一候选分词；按照第二分词规则对所述文本信息进行与所述特征词条进行匹配；当所述文本信息进行与所述特征词条进行匹配时，提取所述特征词条作为第二候选分词；其中，所述第一分词规则为与所述第二分词规则不同的分词规则。3.如权利要求1或2所述的方法，其特征在于，所述表征语境的词频数包括所述第一候选分词在所述网页的文本语言环境中的第一词频数，所述第二候选分词在所述网页的文本语言环境中的第二词频数；所述当所述分词处理出现歧义时，统计所述候选分词在所述网页中表征语境的词频数的步骤包括: 当对同一个文本信息进行分词处理所获得的所述第一候选分词和所述第二候选分词不同时，判断所述分词处理出现歧义；分别统计所述第一候选分词在所述网页中的文本语言环境中的第一词频数，以及，所述第二候选分词在所述网页中的文本语言环境中的第二词频数。4.如权利要求1或2或3所述的方法，其特征在于，所述依据所述词频数调整所述分词词典中特征词条的权重的步骤包括: 当所述第一词频数大于所述第二词频数时，提高所述第一候选分词对应的特征词条在所述分词词典中的权重；当所述第二词频数大于所述第一词频数时，提高所述第二候选分词对应的特征词条在所述分词词典中的权重。5.如权利要求1或2或3或4所述的方法，其特征在于，所述依据调整权重后的分词词典中的特征词条对所述文本信息进行分词处理，确定目标候选分词的步骤包括: 按照指定的分词规则对所述文本信息与提高权重后的所述特征词条进行匹配；当所述文本信...

【专利技术属性】
技术研发人员：项碧波，
申请(专利权)人：北京奇虎科技有限公司，奇智软件北京有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人