一种生成纠错数据库的方法、自动纠错的方法和系统技术方案

技术编号:2826419 阅读:388 留言:0更新日期:2012-04-11 18:40
本发明专利技术提供了一种生成纠错数据库的方法和装置以及一种自动纠错的方法和系统。所述生成纠错数据库的方法可以包括以下步骤:收集日志信息,所述日志信息包括用户的输入历史记录;利用所述输入历史记录的序列信息,从所述日志信息中挖掘获取字符纠错关系;存储所述字符纠错关系,得到纠错数据库。本发明专利技术通过记录和收集包括有用户输入过程信息的日志,从中将用户手动纠错的信息挖掘出来,生成纠错数据库,以用于实现对更多用户更准确的自动纠错,还可以用于实现对该用户的个性化自动纠错。由于本发明专利技术所应用的纠错信息是从包括有用户输入过程信息的日志中得到的,相对于计算机的分析查错而言,本发明专利技术更符合用户需求,更为准确。

【技术实现步骤摘要】

本专利技术涉及计算机字符处理的
,特别是涉及一种生成针对字符数据的纠错数据库的方法和装置,以及一种自动纠错的方法和系统。
技术介绍
目前随着互联网技术应用的越来越广泛,人们很多的日常工作和娱乐都在网络上进行,用户越来越频繁的需要通过计算机输入信息而完成人机交互。但是用户在很多情况下有可能输入了错误信息,需要进行纠错。例如,由于碰触了其他的键盘按键而导致输入错误;由于记忆不准确而导致输入错误(包括中文字符输入和英文字符输入)等等。传统的拼写校正研究早在上个世纪中叶就已开始,但主要是针对文本处理的,给出的建议也往往不只一个,现在的典型应用包括Microsoft Word里的纠错模块等等。但是目前的大部分研究都是基于英文的,英文查询纠错研究主要基于噪音信道模型和一些判别训练模型,使用到的特征包括编辑距离、发音相似度、各种词典资源、语言模型等信息。随着技术发展,现有技术也出现了一些针对中文拼写校正的自动纠错的解决方案。例如,《基于特征与学习的中文文本自动校对方法》(张磊,周明,黄昌宁,鲁明羽;第3届中文智能控制及智能自动化会议论文集)等。由于汉字不是拼音文字,电子文档中汉字的拼写错误主要是由于音近(如“按步就班”中的“步”应为“部”)、形近(如“人”和“入”)、意近(如“既往不究”中的“究”应为“咎”)、输入法的键盘输入序列引起的。上述系统主要是针对混淆集中的单词在上下文搭配上引起的错误,采用歧义消解的思路进行校正。再例如,Google公司所申请的名称为“用于非罗马字符和字的拼写校正系统和方法”,公开号为“CN 101002198A”的中国专利,也公开了一种使用基于规则的分类器和隐马尔可夫模型,通过中间语言的变换来处理和校正非罗马字符的拼写错误。但是现有的各种自动纠错方案主要都是依据预置模型、简单语法分析或者简单词语比对等方式进行的,其存在一定的局限性,准确性无法保证;并且,-->英文(中文)纠错的解决方案一般并不能直接应用在中文(英文)纠错中,解决方案的适用性较差。总之,需要本领域技术人员迫切解决的一个技术问题就是:如何能够创造性的提出一种能够满足对多种语言字符进行自动纠错,并且覆盖面和准确度都较高的自动纠错解决方案。
技术实现思路
本专利技术所要解决的技术问题是提供一种能够满足对多种语言字符进行自动纠错,并且覆盖面和准确度都较高的自动纠错解决方案。相应的,本专利技术还提供了一种生成可用于上述自动纠错过程的纠错数据库的方法和装置。为了解决上述问题,本专利技术公开了一种生成纠错数据库的方法,可以包括:收集日志信息,所述日志信息包括用户的输入历史记录;利用所述输入历史记录的序列信息,从所述日志信息中挖掘获取字符纠错关系;存储所述字符纠错关系,得到纠错数据库。优选的,所述日志信息包括查询日志,所述查询日志包括用户查询关键词的输入历史记录,则采用以下的分析挖掘步骤,获取字符纠错关系:判断一用户相邻查询的关键词的输入时间间隔是否满足预置条件,如果是,则确定该相邻关键词字符串属于字符纠错关系。优选的,所述输入历史记录包括用户输入的编码字符串及相应的输入候选项,则采用以下的分析挖掘步骤,获取字符纠错关系:查找是否存在编码字符串直接相邻的情况,如果是,则确定该相邻编码字符串属于字符纠错关系,并确定最后一个用于输入候选项的编码字符串是正确的。优选的,还可以包括:将所述正确的编码字符串相对应的候选项也纳入所述字符纠错关系中。优选的,所述输入历史记录包括用户输入的编码字符串、相应的输入候选项以及删除操作,则采用以下的分析挖掘步骤,获取字符纠错关系:查找用户在输入过程中是否应用了删除操作,如果是,则确定与所述删除操作相邻的编码字符串属于字符纠错关系,并确定最后一个用于输入候选项的编码字符串是正确的。优选的,还可以包括:将所述正确的编码字符串相对应的候选项也纳入所述字符纠错关系中。-->优选的,所述输入历史记录包括用户输入的编码字符串、相应的输入候选项以及删除操作,则采用以下的分析挖掘步骤,获取字符纠错关系:查找用户在输入候选项的过程中是否应用了删除操作,如果是,则确定与所述删除操作相邻的候选项字符串属于字符纠错关系,并确定最后一个输入的候选项是正确的。优选的,还可以包括:将所述正确的候选项相对应的编码字符串也纳入所述字符纠错关系中。优选的,所述输入历史记录包括用户输入的编码字符串、相应的输入候选项以及编码变换方式,则采用以下的分析挖掘步骤,获取字符纠错关系:如果所述输入历史记录包括:第一编码字符串-第二编码字符串-候选项,并且第一编码字符串和第二编码字符串属于不同的编码变换方式;则获取该候选项在第一编码变换方式下的正确编码字符串,确定所述正确编码字符串和第一编码字符串属于字符纠错关系。优选的,还可以包括:将所述候选项也纳入所述字符纠错关系中。优选的,所述方法在确定字符纠错关系之前还包括:判断所述相邻的编码字符串的输入时间间隔或者相邻候选项的输入时间间隔,是否符合预置条件,如果是,则再作进一步判断。优选的,所述方法在最终确定字符纠错关系之前还包括:判断所述初步确定为具有字符纠错关系的编码字符串之间是否具有一定的相似度或者编辑距离,如果是,则认可该字符纠错关系;或者,判断所述初步确定为具有字符纠错关系的候选项之间是否具有一定的相似度或者编辑距离,如果是,则认可该字符纠错关系。优选的,所述还可以进一步包括:在各个用户的日志信息中统计所述字符纠错关系的出现次数,如果其出现次数大于一定阈值,则确定所述字符纠错关系为通用字符纠错关系,生成通用纠错数据库。依据本专利技术的另一优选实施例,还公开了一种自动纠错的方法,可以包括:收集日志信息,所述日志信息包括用户的输入历史记录;利用所述输入历史记录的序列信息,从所述日志信息中挖掘获取字符纠错关系;接收用户输入信息;依据所述字符纠错关系,向用户返回纠错提示信息。优选的,所述日志信息包括查询日志,所述查询日志包括用户查询关键词-->的输入历史记录,则采用以下的分析挖掘步骤,获取字符纠错关系:判断一用户相邻查询的关键词的输入时间间隔是否满足预置条件,如果是,则确定该相邻关键词字符串属于字符纠错关系。优选的,所述输入历史记录包括用户输入的编码字符串及相应的输入候选项,则采用以下的分析挖掘步骤,获取字符纠错关系:查找是否存在编码字符串直接相邻的情况,如果是,则确定该相邻编码字符串属于字符纠错关系,并确定最后一个用于输入候选项的编码字符串是正确的。优选的,所述输入历史记录包括用户输入的编码字符串、相应的输入候选项以及删除操作,则采用以下的分析挖掘步骤,获取字符纠错关系:查找用户在输入过程中是否应用了删除操作,如果是,则确定与所述删除操作相邻的编码字符串属于字符纠错关系,并确定最后一个用于输入候选项的编码字符串是正确的。优选的,所述输入历史记录包括用户输入的编码字符串、相应的输入候选项以及删除操作,则采用以下的分析挖掘步骤,获取字符纠错关系:查找用户在输入候选项的过程中是否应用了删除操作,如果是,则确定与所述删除操作相邻的候选项字符串属于字符纠错关系,并确定最后一个输入的候选项是正确的。优选的,所述输入历史记录包括用户输入的编码字符串、相应的输入候选项以及编码变换方式,则采用以下的分析挖掘步骤,获取字符纠错关系:如本文档来自技高网
...

【技术保护点】
一种生成纠错数据库的方法,其特征在于,包括:    收集日志信息,所述日志信息包括用户的输入历史记录;    利用所述输入历史记录的序列信息,从所述日志信息中挖掘获取字符纠错关系;    存储所述字符纠错关系,得到纠错数据库。

【技术特征摘要】
1、一种生成纠错数据库的方法,其特征在于,包括:收集日志信息,所述日志信息包括用户的输入历史记录;利用所述输入历史记录的序列信息,从所述日志信息中挖掘获取字符纠错关系;存储所述字符纠错关系,得到纠错数据库。2、如权利要求1所述的方法,其特征在于,所述日志信息包括查询日志,所述查询日志包括用户查询关键词的输入历史记录,则采用以下的分析挖掘步骤,获取字符纠错关系:判断一用户相邻查询的关键词的输入时间间隔是否满足预置条件,如果是,则确定该相邻关键词字符串属于字符纠错关系。3、如权利要求1所述的方法,其特征在于,所述输入历史记录包括用户输入的编码字符串及相应的输入候选项,则采用以下的分析挖掘步骤,获取字符纠错关系:查找是否存在编码字符串直接相邻的情况,如果是,则确定该相邻编码字符串属于字符纠错关系,并确定最后一个用于输入候选项的编码字符串是正确的。4、如权利要求3所述的方法,其特征在于,还包括:将所述正确的编码字符串相对应的候选项也纳入所述字符纠错关系中。5、如权利要求1所述的方法,其特征在于,所述输入历史记录包括用户输入的编码字符串、相应的输入候选项以及删除操作,则采用以下的分析挖掘步骤,获取字符纠错关系:查找用户在输入过程中是否应用了删除操作,如果是,则确定与所述删除操作相邻的编码字符串属于字符纠错关系,并确定最后一个用于输入候选项的编码字符串是正确的。6、如权利要求5所述的方法,其特征在于,还包括:将所述正确的编码字符串相对应的候选项也纳入所述字符纠错关系中。7、如权利要求1所述的方法,其特征在于,所述输入历史记录包括用户输入的编码字符串、相应的输入候选项以及删除操作,则采用以下的分析挖掘步骤,获取字符纠错关系:查找用户在输入候选项的过程中是否应用了删除操作,如果是,则确定与所述删除操作相邻的候选项字符串属于字符纠错关系,并确定最后一个输入的候选项是正确的。8、如权利要求7所述的方法,其特征在于,还包括:将所述正确的候选项相对应的编码字符串也纳入所述字符纠错关系中。9、如权利要求1所述的方法,其特征在于,所述输入历史记录包括用户输入的编码字符串、相应的输入候选项以及编码变换方式,则采用以下的分析挖掘步骤,获取字符纠错关系:如果所述输入历史记录包括:第一编码字符串-第二编码字符串-候选项,并且第一编码字符串和第二编码字符串属于不同的编码变换方式;则;获取该候选项在第一编码变换方式下的正确编码字符串,确定所述正确编码字符串和第一编码字符串属于字符纠错关系。10、如权利要求9所述的方法,其特征在于,还包括:将所述候选项也纳入所述字符纠错关系中。11、如权利要求3-10所述的任一方法,其特征在于,在确定字符纠错关系之前还包括:判断所述相邻的编码字符串的输入时间间隔或者相邻候选项的输入时间间隔,是否符合预置条件,如果是,则再作进一步判断。12、如权利要求2-9所述的任一方法,其特征在于,在最终确定字符纠错关系之前还包括:判断所述初步确定为具有字符纠错关系的编码字符串之间是否具有一定的相似度或者编辑距离,如果是,则认可该字符纠错关系;或者,判断所述初步确定为具有字符纠错关系的候选项之间是否具有一定的相似度或者编辑距离,如果是,则认可该字符纠错关系。13、如权利要求2-9所述的任一方法,其特征在于,还包括:进一步在各个用户的日志信息中统计所述字符纠错关系的出现次数,如果其出现次数大于一定阈值,则确定所述字符纠错关系为通用字符纠错关系,生成通用纠错数据库。14、一种自动纠错的方法,其特征在于,包括:收集日志信息,所述日志信息包括用户的输入历史记录;利用所述输入历史记录的序列信息,从所述日志信息中挖掘获取字符纠错关系;接收用户输入信息;依据所述字符纠错关系,向用户返回纠错提示信息。15、如权利要求14所述的方法,其特征在于,所述日志信息包括查询日志,所述查询日志包括用户查询关键词的输入历史记录,则采用以下的分析挖掘步骤,获取字符纠错关系:判断一用户相邻查询的关键词的输入时间间隔是否满足预置条件,如果是,则确定该相邻关键词字符串属于字符纠错关系。16、如权利要求14所述的方法,其特征在于,所述输入历史记录包括用户输入的编码字符串及相应的输入候选项,则采用以下的分析挖掘步骤,获取字符纠错关系:查找是否存在编码字符串直接相邻的情况,如果是,则确定该相邻编码字符串属于字符纠错关系,并确定最后一个用于输入候选项的编码字符串是正确的。17、如权利要求14所述的方法,其特征在于,所述输入历史记录包括用户输入的编码字符串、相应的输入候选项以及删除操作,则采用以下的分析挖掘步骤,获取字符纠错关系:查找用户在输入过程中是否应用了删除操作,如果是,则确定与所述删除操作相邻的编码字符串属于字符纠错关系,并确定最后一个用于输入候选项的编码字符串是正确的。18、如权利要求14所述的方法,其特征在于,所述输入历史记录包括用户输入的编码字符串、相应的输入候选项以及删除操作,则采用以下的分析挖掘步骤,获取字符纠错关系:查找用户在输入候选项的过程中是否应用了删除操作,如...

【专利技术属性】
技术研发人员:苏雪峰
申请(专利权)人:北京搜狗科技发展有限公司
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1