一种个性化并行分词处理系统及其处理方法技术方案

技术编号:8453043 阅读:194 留言:0更新日期:2013-03-21 17:10
本发明专利技术涉及一种个性化并行分词处理系统及其处理方法。本发明专利技术包括分词请求模块、基于个性化分词词典的分词模块、基于总分词词典的分词模块、控制模块、高速分词处理模块,用户的分词请求同时发送给基于个性化分词词典的分词模块和基于总分词词典的分词模块,基于个性化分词词典的分词模块如果命中,则将分词处理结果通过控制模块返回至分词请求模块,同时中断分词请求模块对基于总分词词典的分词模块的分词请求;否则,根据基于总分词词典的分词模块的分词处理结果,通过控制模块按照最早最少使用原则对个性化分词词典进行动态更新。本发明专利技术可在满足分词准确率的同时极大地提高系统的分词效率,满足了移动用户高效的查询需求。

【技术实现步骤摘要】

本专利技术属于移动搜索和中文信息处理领域,具体涉及。
技术介绍
词是具有一定语义的最小单位,所谓分词,就是把一个句子按照其中词的含义进行切分。由于自然语言理解与处理一般是基于词汇进行,而中文文本在书面表达或计算机内部表示时,是以字为基本书写单位,词与词之间没有明确的界限,因此,中文分词是中文信息处理的基本环节,也是文本分类、信息检索、信息过滤、文献自动标引、摘要自动生成等中文信息处理中的关键技术及难点。衡量分词算法性能的优劣主要考虑以下几个方面分词的速度和准确性、歧义识别、新词识别、是否需要语料库或规则库、算法的复杂性、技术的成熟度和实施难度。目前常用的中文分词算法概括起来分为四类基于词典的字符串匹配分词算法、基于统计的分词算法、基于理解的分词算法、组合分词算法。其中,基于词典的字符串匹配分词算法是按照一定的策略将待分词的汉字串与一个充分大的机器词典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功,从而识别出一个词。这类分词算法处理简单,分词速度较快,效率较高,但分词准确性较差,而且对词典结构的依赖性非常强,词典结构的好坏往往直接影响到分词的速度、词典的空间利用率和维护词典的本文档来自技高网...

【技术保护点】
一种个性化并行分词处理系统,其特征在于:包括分词请求模块、基于个性化分词词典的分词模块、基于总分词词典的分词模块、控制模块、高速分词处理模块;分词请求模块是将用户查询内容同步、并行发送至基于个性化分词词典的分词模块和基于总分词词典的分词模块进行分词处理,同时接收控制模块回送的分词结果及开始下次分词处理的相关触发信息;基于个性化分词词典的分词模块是将用户查询内容的子串与个性化分词词典中的词条进行匹配,完成分词处理过程;其中,个性化分词词典中存放用户在一段时间内的查询关键词,于用户第一次使用时创建,随着用户的使用而逐渐增加词条,词条数目少;基于总分词词典的分词模块是将用户查询内容的子串与总分词词典...

【技术特征摘要】

【专利技术属性】
技术研发人员:王忠民贺炎齐静娜张荣宋辉范琳
申请(专利权)人:西安邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1