The invention discloses a text input in the candidate set calculation method, which comprises the following steps: extraction steps for extracting from the user log on and for each query error correction, error correction of error correction on the query string, the error correction for the error of query input text in the corresponding relationship between the text and the correct input the string for the error correction of the error correction queries on the corresponding relationship between the input string and correct errors in the input string; the candidate set calculation procedure is used when the input single word t
【技术实现步骤摘要】
文字输入中的候选集合计算方法及装置、文字纠错方法及装置
本专利技术涉及自然语言处理的
,具体来说,本专利技术涉及一种文字输入中的候选集合计算方法及装置、文字纠错方法及装置。
技术介绍
纠错技术是搜索中一个重要环节。据文献统计,搜索引擎查询中,大约有10%-15%的查询是错误输入的。特别是在某些具有特定语言习惯的群体中,例如印度英语或印度音乐搜索项目中,错误的query更是占到了30%。常用的搜索纠错方法包括噪声信道模型和隐马尔科夫模型。噪声信道模型是通过编辑距离得到候选集,再基于统计求得最大的转化概率,从而求得最优候选纠错;隐马尔科夫模型则是将查询看作一组观察状态,对应的候选集看作一组隐藏状态,观察状态对应各个隐藏状态有相应的输出概率,隐藏状态之间也有相应的转移概率,从而计算出最优隐藏状态序列。上述两种方法,通常都是通过编辑距离来计算候选集及其错误概率,忽略了语言本身规律,实践中很难平衡候选集的精度和覆盖度。举例来说,专利技术人发现在项目实践中,印度人在搜索时,查询输错的问题比普通英语、汉语用户要更为明显。一个很主要的原因是由他们的语言特性决定的。受历史因素影响,印度人在网络上最主要使用的语言是印度英语hinglish(https://en.wikipedia.org/wiki/Hinglish),一种融合了英语和印度本土语言(hindi、Punjabi等)的混生语言。他们会将本土语言(hindi、punjabi)转化为拉丁字母拼写,在这一过程中并无统一严格的规则,只是根据语音上规律,造成一个hindi词往往有多种拉丁字母拼写方式,例如电影名“aas ...
【技术保护点】
一种文字输入中的候选集合计算方法,其特征在于,包括如下步骤:抽取步骤,用于从用户日志中抽取纠错查询对,并为每个纠错查询对建立纠错字符串对,所述纠错查询对为错误输入的文字内容与正确输入的文字内容之间的对应关系,所述纠错字符串对为所述纠错查询对中错误输入字符串和正确输入字符串之间的对应关系;候选集合计算步骤,用于当输入的单个单词t
【技术特征摘要】
1.一种文字输入中的候选集合计算方法,其特征在于,包括如下步骤:抽取步骤,用于从用户日志中抽取纠错查询对,并为每个纠错查询对建立纠错字符串对,所述纠错查询对为错误输入的文字内容与正确输入的文字内容之间的对应关系,所述纠错字符串对为所述纠错查询对中错误输入字符串和正确输入字符串之间的对应关系;候选集合计算步骤,用于当输入的单个单词ti中的字符串匹配纠错字符串对时,根据纠错字符串对对该单词生成单词的变体集合V={v1,v2,…,vn}作为候选集合C={c1,c2,..,cn}并计算相应的输出概率P={p1,p2,..,pn}。2.根据权利要求1所述的方法,其特征在于,所述候选集合计算步骤中计算所述集合V的输出概率包括:根据公式pj=r(l-θ)(1-r)θ计算单词vj的输出概率;其中l为输入单词ti的字符串长度;r为单个字符正确输入的概率;θ为0~1之间的常数。3.根据权利要求1所述的方法,其特征在于,所述方法还包括:改写概率计算步骤,用于根据用户日志挖掘结果,计算各类字符改写的概率Ph,所述字符改写为单个字符的错写、漏写、多写;以及所述候选集合计算步骤,还用于获取所有和单词ti之间小于预定编辑距离的单词集合U={u1,u2,…,um}并计算相应的输出概率P={pn+1,pn+2,..,pn+m},合并所述集合V和所述集合U,从而获得单词ti的候选集合C={c1,c2,..,cn,cn+1,..,cn+m}及相应的输出概率P={p1,p2,..,pn,pn+1,pn+2,..,pn+m}。4.一种输入纠错方法,其特征在于,包括如下步骤,转移概率计算步骤,用于计算语料库中句子的状态转移概率P’;输入步骤,用于输入句子;分割步骤,用于将句子分割成单词ti;候选集合计算步骤,用于根据如权利要求1-3中任意一项所述的方法计算分割的各所述单词ti的候选集合C及其输出概率P;纠错路径计算步骤,用于根据所述输出概率P以及转移概率P’计算最优纠错路径及其对应的概率pl,以及原始输入路径的概率p0;判断步骤,用于判断所述最优纠错路径是否等于原输入路径,其中如果判断步骤中判断所述最优纠错路径等于原输入路径,返回原输入的句子;以及其中如果判断步骤中判断所述最优纠错路径不等于原输入路径,则计算所述最优纠错路径的概率pl与原始路径的概率p0之间的差值,若差值大于预定差值阈值,则返回最优纠错路径对应的纠错结果,否则,返回原输入的句子。5.一种文字输入中的候选集合计算装置,包括:抽取模块,用于从用户日志中抽取纠错查询对,并为每个纠错查询对建立纠错字符串对...
【专利技术属性】
技术研发人员:吴岳,谢玄亮,陈凯成,
申请(专利权)人:广州市动景计算机科技有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。