The present invention provides a search engine typos automatic correction method and server can correct the text more efficient in typos, learning model and high dimension to quantify by depth, each word is mapped to a high space, and through the high dimensional vector to represent the relationship between words, then use context information the word and its role in the sentence to identify whether it is typos. This method does not need to spend a lot of cost to build the corresponding relationship between the correct words and typos, but merely to construct a suitable training model of correcting typos, feature learning typos. The technical scheme of the invention considers context information sentence semantics and syntax, POS and word to sentence the typos are identified and corrected, it can not only identify typos homonym and form words, but also can identify and correct other types of typos, greatly improving the typos the correction efficiency.
【技术实现步骤摘要】
一种搜索引擎中错别字自动更正方法和服务器
本专利技术涉及一种数据更正方法领域,更具体的,涉及一种搜索引擎中错别字自动更正方法和服务器。
技术介绍
文本校对过程中主要技术就是纠正错别字。通常情况下,文本校对过程基本上采用2种方法(人工检查校对和基于错别字词典的校对),其中最主要的是错别字词典校对,通过构建错词和正确词相对应的一个词库。中国专利“CN1116343A中文错别字自动订正方法及装置”提供了一种基于词典的错别字纠正方法。此专利技术通过寻找大量的基于字形、字音或输入码相近的字作为词对来构建错别字词典,再利用评分模型对相应的词进行打分,最后根据打分从词典中选取正确的字。当错别字与正确字的字音相同(同音字)时,中文搜索引擎可以利用同音字的词频对错别字进行纠正。原理就是当拼音相同时,给出的词是出现概率最大的那个词。但在某些情况下,错别字不是同音字,而是形近字或者是顺序颠倒的错别字,当这些情况出现时,搜索引擎一般无法识别错别字。另外,在实际应用中,当用户输入的检索条件很长时,经常会因为出现错别字而无法检测。因此当用户输入的检索条件比较长时,将会出现以下问题:1.当错别字和正确字的字音不同时,即使在拼音字符匹配度较高的情况下,系统也无法识别和纠正错别字。2.当一个词语错误时,如“百度”和“摆渡”,拼音对比法将无法纠正。3.当一个词有多个同音词时,如“手会”和“手绘、受贿、收汇、受惠”,搜索引擎会根据关键词的概率给出搜索结果,而不会依据检索条件的语义给出结果。例如,用户需要搜索有关“手绘”的信息,但输入的是“手会”,最终搜索到的可能是“受贿”信息。4.当检索的内容 ...
【技术保护点】
一种搜索引擎中错别字自动更正方法,其特征在于,包括:步骤1,获取用户输入的搜索文本数据;步骤2,对所述搜索文本数据进行预处理;步骤3,将所述预处理后的文本进行编码,并将编码后的文本中每个字符进行向量化处理,得到相应的第一字符向量;步骤4,采用attention机制和双向LSTM(long short term memory,长短时记忆网络)模型对句子进行识别,并输出其识别结果;步骤5,针对所述识别结果,对其周边的字符进行预测,并与预设的概率阈值进行比较;步骤6,将大于所述概率阈值的结果作为最终更正的结果发送至用户端,供用户进行选择作为最终的搜索文本结果;步骤7,将搜索文本结果作为搜索词进行检索,并发送检索结果至用户端。
【技术特征摘要】
1.一种搜索引擎中错别字自动更正方法,其特征在于,包括:步骤1,获取用户输入的搜索文本数据;步骤2,对所述搜索文本数据进行预处理;步骤3,将所述预处理后的文本进行编码,并将编码后的文本中每个字符进行向量化处理,得到相应的第一字符向量;步骤4,采用attention机制和双向LSTM(longshorttermmemory,长短时记忆网络)模型对句子进行识别,并输出其识别结果;步骤5,针对所述识别结果,对其周边的字符进行预测,并与预设的概率阈值进行比较;步骤6,将大于所述概率阈值的结果作为最终更正的结果发送至用户端,供用户进行选择作为最终的搜索文本结果;步骤7,将搜索文本结果作为搜索词进行检索,并发送检索结果至用户端。2.根据权利要求1所述的一种搜索引擎中错别字自动更正方法,其特征在于,所述步骤6还包括:当大于所述概率阈值的结果为1时,则自动对校对文本进行更正,不需要用户进行选择。3.根据权利要求1所述的一种搜索引擎中错别字自动更正方法,其特征在于,所述预处理为去除掉无意义的符号,将繁体字转换成简体字,全角符号转换成半角符号中的一种或几种。4.根据权利要求1所述的一种搜索引擎中错别字自动更正方法,其特征在于,所述将所述预处理后的文本进行编码中的编码方式为UTF-8编码。5.根据权利要求1所述的一种搜索引擎中错别字自动更正方法,其特征在于,在所述步骤1之前,还包括:服务器针对每个字符都进行向量表示,生成第二字符向量,所述第二字符向量包含了字符特征信息,然后得到一个语言模型规则,将所述第二字符向量和语言模型规则存储到相应的数据库...
【专利技术属性】
技术研发人员:黄威威,潘嵘,张晋斌,
申请(专利权)人:深圳爱拼信息科技有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。