【技术实现步骤摘要】
本专利技术涉及计算机字符处理的
,特别是涉及一种生成针对字符数据的纠错数据库的方法和装置,以及一种自动纠错的方法和系统。
技术介绍
目前随着互联网技术应用的越来越广泛,人们很多的日常工作和娱乐都在网络上进行,用户越来越频繁的需要通过计算机输入信息而完成人机交互。但是用户在很多情况下有可能输入了错误信息,需要进行纠错。例如,由于碰触了其他的键盘按键而导致输入错误;由于记忆不准确而导致输入错误(包括中文字符输入和英文字符输入)等等。传统的拼写校正研究早在上个世纪中叶就已开始,但主要是针对文本处理的,给出的建议也往往不只一个,现在的典型应用包括Microsoft Word里的纠错模块等等。但是目前的大部分研究都是基于英文的,英文查询纠错研究主要基于噪音信道模型和一些判别训练模型,使用到的特征包括编辑距离、发音相似度、各种词典资源、语言模型等信息。随着技术发展,现有技术也出现了一些针对中文拼写校正的自动纠错的解决方案。例如,《基于特征与学习的中文文本自动校对方法》(张磊,周明,黄昌宁,鲁明羽;第3届中文智能控制及智能自动化会议论文集)等。由于汉字不是拼音文字,电子文档中汉字的拼写错误主要是由于音近(如“按步就班”中的“步”应为“部”)、形近(如“人”和“入”)、意近(如“既往不究”中的“究”应为“咎”)、输入法的键盘输入序列引起的。上述系统主要是针对混淆集中的单词在上下文搭配上引起的错误,采用歧义消解的思路进行校正。再例如,Google公司所申请的名称为“用于非罗马字符和字的拼写校正系统和方法”,公开号为“CN 101002198A”的中国专利,也公开了一 ...
【技术保护点】
一种生成纠错数据库的方法,其特征在于,包括: 收集日志信息,所述日志信息包括用户的输入历史记录; 利用所述输入历史记录的序列信息,从所述日志信息中挖掘获取字符纠错关系; 存储所述字符纠错关系,得到纠错数据库。
【技术特征摘要】
1、一种生成纠错数据库的方法,其特征在于,包括:收集日志信息,所述日志信息包括用户的输入历史记录;利用所述输入历史记录的序列信息,从所述日志信息中挖掘获取字符纠错关系;存储所述字符纠错关系,得到纠错数据库。2、如权利要求1所述的方法,其特征在于,所述日志信息包括查询日志,所述查询日志包括用户查询关键词的输入历史记录,则采用以下的分析挖掘步骤,获取字符纠错关系:判断一用户相邻查询的关键词的输入时间间隔是否满足预置条件,如果是,则确定该相邻关键词字符串属于字符纠错关系。3、如权利要求1所述的方法,其特征在于,所述输入历史记录包括用户输入的编码字符串及相应的输入候选项,则采用以下的分析挖掘步骤,获取字符纠错关系:查找是否存在编码字符串直接相邻的情况,如果是,则确定该相邻编码字符串属于字符纠错关系,并确定最后一个用于输入候选项的编码字符串是正确的。4、如权利要求3所述的方法,其特征在于,还包括:将所述正确的编码字符串相对应的候选项也纳入所述字符纠错关系中。5、如权利要求1所述的方法,其特征在于,所述输入历史记录包括用户输入的编码字符串、相应的输入候选项以及删除操作,则采用以下的分析挖掘步骤,获取字符纠错关系:查找用户在输入过程中是否应用了删除操作,如果是,则确定与所述删除操作相邻的编码字符串属于字符纠错关系,并确定最后一个用于输入候选项的编码字符串是正确的。6、如权利要求5所述的方法,其特征在于,还包括:将所述正确的编码字符串相对应的候选项也纳入所述字符纠错关系中。7、如权利要求1所述的方法,其特征在于,所述输入历史记录包括用户输入的编码字符串、相应的输入候选项以及删除操作,则采用以下的分析挖掘步骤,获取字符纠错关系:查找用户在输入候选项的过程中是否应用了删除操作,如果是,则确定与所述删除操作相邻的候选项字符串属于字符纠错关系,并确定最后一个输入的候选项是正确的。8、如权利要求7所述的方法,其特征在于,还包括:将所述正确的候选项相对应的编码字符串也纳入所述字符纠错关系中。9、如权利要求1所述的方法,其特征在于,所述输入历史记录包括用户输入的编码字符串、相应的输入候选项以及编码变换方式,则采用以下的分析挖掘步骤,获取字符纠错关系:如果所述输入历史记录包括:第一编码字符串-第二编码字符串-候选项,并且第一编码字符串和第二编码字符串属于不同的编码变换方式;则;获取该候选项在第一编码变换方式下的正确编码字符串,确定所述正确编码字符串和第一编码字符串属于字符纠错关系。10、如权利要求9所述的方法,其特征在于,还包括:将所述候选项也纳入所述字符纠错关系中。11、如权利要求3-10所述的任一方法,其特征在于,在确定字符纠错关系之前还包括:判断所述相邻的编码字符串的输入时间间隔或者相邻候选项的输入时间间隔,是否符合预置条件,如果是,则再作进一步判断。12、如权利要求2-9所述的任一方法,其特征在于,在最终确定字符纠错关系之前还包括:判断所述初步确定为具有字符纠错关系的编码字符串之间是否具有一定的相似度或者编辑距离,如果是,则认可该字符纠错关系;或者,判断所述初步确定为具有字符纠错关系的候选项之间是否具有一定的相似度或者编辑距离,如果是,则认可该字符纠错关系。13、如权利要求2-9所述的任一方法,其特征在于,还包括:进一步在各个用户的日志信息中统计所述字符纠错关系的出现次数,如果其出现次数大于一定阈值,则确定所述字符纠错关系为通用字符纠错关系,生成通用纠错数据库。14、一种自动纠错的方法,其特征在于,包括:收集日志信息,所述日志信息包括用户的输入历史记录;利用所述输入历史记录的序列信息,从所述日志信息中挖掘获取字符纠错关系;接收用户输入信息;依据所述字符纠错关系,向用户返回纠错提示信息。15、如权利要求14所述的方法,其特征在于,所述日志信息包括查询日志,所述查询日志包括用户查询关键词的输入历史记录,则采用以下的分析挖掘步骤,获取字符纠错关系:判断一用户相邻查询的关键词的输入时间间隔是否满足预置条件,如果是,则确定该相邻关键词字符串属于字符纠错关系。16、如权利要求14所述的方法,其特征在于,所述输入历史记录包括用户输入的编码字符串及相应的输入候选项,则采用以下的分析挖掘步骤,获取字符纠错关系:查找是否存在编码字符串直接相邻的情况,如果是,则确定该相邻编码字符串属于字符纠错关系,并确定最后一个用于输入候选项的编码字符串是正确的。17、如权利要求14所述的方法,其特征在于,所述输入历史记录包括用户输入的编码字符串、相应的输入候选项以及删除操作,则采用以下的分析挖掘步骤,获取字符纠错关系:查找用户在输入过程中是否应用了删除操作,如果是,则确定与所述删除操作相邻的编码字符串属于字符纠错关系,并确定最后一个用于输入候选项的编码字符串是正确的。18、如权利要求14所述的方法,其特征在于,所述输入历史记录包括用户输入的编码字符串、相应的输入候选项以及删除操作,则采用以下的分析挖掘步骤,获取字符纠错关系:查找用户在输入候选项的过程中是否应用了删除操作,如...
【专利技术属性】
技术研发人员:苏雪峰,
申请(专利权)人:北京搜狗科技发展有限公司,
类型:发明
国别省市:11[中国|北京]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。