文字输入中的候选集合计算方法及装置、文字纠错方法及装置制造方法及图纸

技术编号:15840577 阅读:48 留言:0更新日期:2017-07-18 16:49
本发明专利技术公开了一种文字输入中的候选集合计算方法,包括如下步骤:抽取步骤,用于从用户日志中抽取纠错查询对,并为每个纠错查询对建立纠错字符串对,所述纠错查询对为错误输入的文字内容与正确输入的文字内容之间的对应关系,所述纠错字符串对为所述纠错查询对中错误输入字符串和正确输入字符串之间的对应关系;候选集合计算步骤,用于当输入的单个单词t

Method and apparatus for computing candidate set in character input, text correcting method and apparatus

The invention discloses a text input in the candidate set calculation method, which comprises the following steps: extraction steps for extracting from the user log on and for each query error correction, error correction of error correction on the query string, the error correction for the error of query input text in the corresponding relationship between the text and the correct input the string for the error correction of the error correction queries on the corresponding relationship between the input string and correct errors in the input string; the candidate set calculation procedure is used when the input single word t

【技术实现步骤摘要】
文字输入中的候选集合计算方法及装置、文字纠错方法及装置
本专利技术涉及自然语言处理的
,具体来说,本专利技术涉及一种文字输入中的候选集合计算方法及装置、文字纠错方法及装置。
技术介绍
纠错技术是搜索中一个重要环节。据文献统计,搜索引擎查询中,大约有10%-15%的查询是错误输入的。特别是在某些具有特定语言习惯的群体中,例如印度英语或印度音乐搜索项目中,错误的query更是占到了30%。常用的搜索纠错方法包括噪声信道模型和隐马尔科夫模型。噪声信道模型是通过编辑距离得到候选集,再基于统计求得最大的转化概率,从而求得最优候选纠错;隐马尔科夫模型则是将查询看作一组观察状态,对应的候选集看作一组隐藏状态,观察状态对应各个隐藏状态有相应的输出概率,隐藏状态之间也有相应的转移概率,从而计算出最优隐藏状态序列。上述两种方法,通常都是通过编辑距离来计算候选集及其错误概率,忽略了语言本身规律,实践中很难平衡候选集的精度和覆盖度。举例来说,专利技术人发现在项目实践中,印度人在搜索时,查询输错的问题比普通英语、汉语用户要更为明显。一个很主要的原因是由他们的语言特性决定的。受历史因素影响,印度人在网络上最主要使用的语言是印度英语hinglish(https://en.wikipedia.org/wiki/Hinglish),一种融合了英语和印度本土语言(hindi、Punjabi等)的混生语言。他们会将本土语言(hindi、punjabi)转化为拉丁字母拼写,在这一过程中并无统一严格的规则,只是根据语音上规律,造成一个hindi词往往有多种拉丁字母拼写方式,例如电影名“aashiqui2”也会被拼写成“ashiqui2”。因此,印度本土多语言混杂的特点带来了大量搜索输入错误。现有的隐马尔科夫搜索纠错,对候选集的合理估计是一个重点问题。常见的方法有两种,1)计算单词之间的编辑距离,进一步获得转移概率,这种方式只简单的考虑了字符差异,准确度较差。2)基于日志挖掘纠错单词对之间的关系,进一步获得转移概率。这样的方式依赖于非常全面的用户日志,往往覆盖的纠错范围有限,且无法应对新词。专利技术人发现在实践中上述两种方法在具有特定语言习惯的输入中,例如印度英语hinglish中纠错都不够理想。
技术实现思路
本专利技术的一个目的是提供一种适于对具有特定语言习惯和特性的输入提供候选结合并进行纠错的新技术方案。根据本专利技术的第一方面,提供了一种文字输入中的候选集合计算方法,包括如下步骤:抽取步骤,用于从用户日志中抽取纠错查询对,并为每个纠错查询对建立纠错字符串对,所述纠错查询对为错误输入的文字内容与正确输入的文字内容之间的对应关系,所述纠错字符串对为所述纠错查询对中错误输入字符串和正确输入字符串之间的对应关系;候选集合计算步骤,用于当输入的单个单词ti中的字符串匹配纠错字符串对时,根据纠错字符串对对该单词生成单词的变体集合V={v1,v2,…,vn}作为候选集合C={c1,c2,..,cn}并计算相应的输出概率P={p1,p2,..,pn}。优选地,所述候选集合计算步骤中计算所述集合V的输出概率包括:根据公式pj=r(l-θ)(1-r)θ计算单词vj的输出概率;其中l为输入单词ti的字符串长度;r为单个字符正确输入的概率;θ为0~1之间的常数。优选地,所述抽取步骤还包括选取纠错字符串对中错误输入字符串和正确输入字符串均小于预定编辑距离的纠错字符串对的步骤。优选地,所述抽取步骤还包括对纠错字符串对计算出现次数的步骤,以及将出现次数大于预定阈值的纠错字符串对建立为最终纠错字符串对。优选地,所述方法还包括:改写概率计算步骤,用于根据用户日志挖掘结果,计算各类字符改写的概率Ph,所述字符改写为单个字符的错写、漏写、多写;以及所述候选集合计算步骤,还用于获取所有和单词ti之间小于预定编辑距离的单词集合U={u1,u2,…,um}并计算相应的输出概率P={pn+1,pn+2,..,pn+m},合并所述集合V和所述集合U,从而获得单词ti的候选集合C={c1,c2,..,cn,cn+1,..,cn+m}及相应的输出概率P={p1,p2,..,pn,pn+1,pn+2,..,pn+m}。优选地,所述候选集合计算步骤中计算所述集合U的输出概率包括:根据ti与单词集合U中的单词uj之间的编辑转化路径上的各字符操作所对应的字符改写概率ph计算所述输出概率P={pn+1,pn+2,..,pn+m}。优选地,其中所述候选集合计算步骤中计算单词集合U的输出概率包括:根据公式pj=r(l-k)(1-r)k*∏m=1kphm计算单词uj的输出概率;其中l为单词ti的字符串长度;k为ti到uj的编辑转化步长;ph为相应的字符改写概率;r为单个字符正确输入的概率。根据本专利技术的第二方面,提供一种输入纠错方法,包括如下步骤,转移概率计算步骤,用于计算语料库中句子的状态转移概率P’;输入步骤,用于输入句子;分割步骤,用于将句子分割成单词ti;候选集合计算步骤,用于根据如前述候选集合计算方法计算分割的各所述单词ti的候选集合C及其输出概率P;纠错路径计算步骤,用于根据所述输出概率P以及转移概率P’计算最优纠错路径及其对应的概率pl,以及原始输入路径的概率p0;判断步骤,用于判断所述最优纠错路径是否等于原输入路径,其中如果判断步骤中判断所述最优纠错路径等于原输入路径,返回原输入的句子;以及其中如果判断步骤中判断所述最优纠错路径不等于原输入路径,则计算所述最优纠错路径的概率pl与原始路径的概率p0之间的差值,若差值大于预定差值阈值,则返回最优纠错路径对应的纠错结果,否则,返回原输入的句子。优选地,所述转移概率计算步骤包括:以句子为单位,计算语料库中全部单词两两之间的转移概率P’(ti|tj)。优选地,所述转移概率计算步骤包括:根据公式P’(ti|tj)=(c(ti,tj)+θ)/(c(tj)+v)计算语料库中全部单词两两之间的转移概率;其中θ为0~1之间的常数;c(tj)是单词tj在语料库中出现次数,c(ti,tj)是ti、tj两单词前后相邻出现的次数,v是语料库中全部的相邻单词组合的个数。根据本专利技术的第三方面,提供一种文字输入中的候选集合计算装置,包括:抽取模块,用于从用户日志中抽取纠错查询对,并为每个纠错查询对建立纠错字符串对,所述纠错查询对为错误输入的文字内容与正确输入的文字内容之间的对应关系,所述纠错字符串对为所述纠错查询对中错误输入字符串和正确输入字符串之间的对应关系;候选集合计算模块,用于当输入的单个单词ti中的字符串匹配纠错字符串对时,根据纠错字符串对对该单词生成单词的变体集合V={v1,v2,…,vn}作为候选集合C={c1,c2,..,cn}并计算相应的输出概率P={p1,p2,..,pn}。优选地,所述候选集合计算模块中计算所述集合V的输出概率包括:根据公式pj=r(l-θ)(1-r)θ计算单词vj的输出概率;其中l为输入单词ti的字符串长度;r为单个字符正确输入的概率;θ为0~1之间的常数。优选地,所述抽取模块还用于选取纠错字符串对中错误输入字符串和正确输入字符串均小于预定编辑距离的纠错字符串对。更优选地,所述抽取模块还用于对纠错字符串对计算出现次数,以及将出本文档来自技高网
...
文字输入中的候选集合计算方法及装置、文字纠错方法及装置

【技术保护点】
一种文字输入中的候选集合计算方法,其特征在于,包括如下步骤:抽取步骤,用于从用户日志中抽取纠错查询对,并为每个纠错查询对建立纠错字符串对,所述纠错查询对为错误输入的文字内容与正确输入的文字内容之间的对应关系,所述纠错字符串对为所述纠错查询对中错误输入字符串和正确输入字符串之间的对应关系;候选集合计算步骤,用于当输入的单个单词t

【技术特征摘要】
1.一种文字输入中的候选集合计算方法,其特征在于,包括如下步骤:抽取步骤,用于从用户日志中抽取纠错查询对,并为每个纠错查询对建立纠错字符串对,所述纠错查询对为错误输入的文字内容与正确输入的文字内容之间的对应关系,所述纠错字符串对为所述纠错查询对中错误输入字符串和正确输入字符串之间的对应关系;候选集合计算步骤,用于当输入的单个单词ti中的字符串匹配纠错字符串对时,根据纠错字符串对对该单词生成单词的变体集合V={v1,v2,…,vn}作为候选集合C={c1,c2,..,cn}并计算相应的输出概率P={p1,p2,..,pn}。2.根据权利要求1所述的方法,其特征在于,所述候选集合计算步骤中计算所述集合V的输出概率包括:根据公式pj=r(l-θ)(1-r)θ计算单词vj的输出概率;其中l为输入单词ti的字符串长度;r为单个字符正确输入的概率;θ为0~1之间的常数。3.根据权利要求1所述的方法,其特征在于,所述方法还包括:改写概率计算步骤,用于根据用户日志挖掘结果,计算各类字符改写的概率Ph,所述字符改写为单个字符的错写、漏写、多写;以及所述候选集合计算步骤,还用于获取所有和单词ti之间小于预定编辑距离的单词集合U={u1,u2,…,um}并计算相应的输出概率P={pn+1,pn+2,..,pn+m},合并所述集合V和所述集合U,从而获得单词ti的候选集合C={c1,c2,..,cn,cn+1,..,cn+m}及相应的输出概率P={p1,p2,..,pn,pn+1,pn+2,..,pn+m}。4.一种输入纠错方法,其特征在于,包括如下步骤,转移概率计算步骤,用于计算语料库中句子的状态转移概率P’;输入步骤,用于输入句子;分割步骤,用于将句子分割成单词ti;候选集合计算步骤,用于根据如权利要求1-3中任意一项所述的方法计算分割的各所述单词ti的候选集合C及其输出概率P;纠错路径计算步骤,用于根据所述输出概率P以及转移概率P’计算最优纠错路径及其对应的概率pl,以及原始输入路径的概率p0;判断步骤,用于判断所述最优纠错路径是否等于原输入路径,其中如果判断步骤中判断所述最优纠错路径等于原输入路径,返回原输入的句子;以及其中如果判断步骤中判断所述最优纠错路径不等于原输入路径,则计算所述最优纠错路径的概率pl与原始路径的概率p0之间的差值,若差值大于预定差值阈值,则返回最优纠错路径对应的纠错结果,否则,返回原输入的句子。5.一种文字输入中的候选集合计算装置,包括:抽取模块,用于从用户日志中抽取纠错查询对,并为每个纠错查询对建立纠错字符串对...

【专利技术属性】
技术研发人员:吴岳谢玄亮陈凯成
申请(专利权)人:广州市动景计算机科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1