一种面向中文搜索引擎混杂语言的查询纠错方法及系统技术方案

技术编号:8191002 阅读:272 留言:0更新日期:2013-01-10 01:53
本发明专利技术涉及一种面向中文搜索引擎混杂语言的查询纠错方法及系统。本发明专利技术针对中文搜索引擎混杂语言查询的特点,采用面向混杂语言的异构字符树词典和基于高频或高点击次数用户查询日志构建的语言模型,对用户的查询进行同步切分和纠错尝试,利用状态之间的转移达到对查询进行切分的目的;采用双队列记录每一步编辑后最优的N个完成状态和M个未完成状态,在保障纠错速度的同时获取最佳的切分方式和对应的替代词条组合;利用最终纠错结果侯选集的特征进行判定,输出符合限定条件的纠错结果,有效地提高了准确率。

【技术实现步骤摘要】

本专利技术属于自然语言处理技术,尤其涉及ー种面向中文搜索引擎混杂语言的查询纠错方法及系统
技术介绍
现有的搜索引擎与用户交互的主要方式是由用户输入检索词,搜索引擎针对该检索词给出对应的匹配网页。因而,从用户输入的检索词中正确的理解用户的查询需求是搜索引擎需要不断完善的功能之一。相对于传统的文本,搜索引擎中用户输入的检索词错误概率更高、错误类型更多,这主要是由于搜索引擎用户基数庞大、网络语言新颖多样等原因。据统计,输入英文搜索引擎的查询中有10%_15%含有拼写错误。查询纠错技术是目前已被大多数搜索引擎普遍运用的ー项自然语言处理技术,这ー技术对于提高用户检索效率和检索结果命中率具有十分重要的意义。 此前,英文查询纠错技术的相关研究主要分为两类一种是对单词拼写进行纠错,另ー种是对用词不当进行纠错。前者主要注重基于编辑距离方程的纠错模型的研究,找出在于一定编辑距离内的最合适的替代单词;后者主要利用Ngram语言模型或朴素贝叶斯分类器来检测上下文中使用不当的单词。多数的查询纠错方法都是根据正确的词典,基于噪声信道模型,为查询中的每个词条选取N个最优替代词条,统计最可能的概率组合。其中噪声本文档来自技高网...

【技术保护点】
一种面向中文搜索引擎混杂语言的查询纠错方法,其特征在于,包括:步骤1,构建面向混杂语言的异构字符树词典,建立语言模型;步骤2,获取用户查询的内容,初始化n=1,建立两个空的查询处理队列,分别为完成状态队列Cn和未完成状态队列NCn;步骤3,对所述用户查询中的第n个字或字母进行编辑;步骤4,以编辑后获得的字符串作为状态转移条件,基于完成状态队列Cn?1和未完成状态队列NCn?1中的状态进行状态转移,并获得新的状态;步骤5,判断所述获得新的状态是否为完成状态,如果是,则在该点对查询内容进行一次词语的切分,将所述查询内容切分成多个切分段,并进行纠错尝试,以所述完成状态中对应的词典节点中的词作为该切分...

【技术特征摘要】

【专利技术属性】
技术研发人员:程舒杨熊锦华公帅颛悦张成程学旗廖华明
申请(专利权)人:中国科学院计算技术研究所人民搜索网络股份公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1