一种搜索引擎中错别字自动更正方法和服务器技术

技术编号:15542662 阅读:91 留言:0更新日期:2017-06-05 11:30
本发明专利技术提供了一种搜索引擎中错别字自动更正方法和服务器,能够更高效的纠正文本中的错别字,通过深度学习模型和高维向量化,将每个字映射到高位空间中,并通过高维向量表示字与字之间的关系,再利用字的上下文信息和其在句子中的作用来识别其是否是错别字。该方法不用花费大量的成本去构建错别字与正确字之间的一一对应关系,而仅仅是构建一个合适的错别字训练纠正模型,学习错别字的特征。本发明专利技术采用的技术方案时考虑了句子的语义和句法、词性和词的上下文信息来对句子中的错别字进行识别和纠正,它能识别的错别字不仅仅只是同音字和形近字,还可以识别和改正其他类型的错别字,大大提高了错别字的纠正效率。

A search engine typos automatic correction method and server

The present invention provides a search engine typos automatic correction method and server can correct the text more efficient in typos, learning model and high dimension to quantify by depth, each word is mapped to a high space, and through the high dimensional vector to represent the relationship between words, then use context information the word and its role in the sentence to identify whether it is typos. This method does not need to spend a lot of cost to build the corresponding relationship between the correct words and typos, but merely to construct a suitable training model of correcting typos, feature learning typos. The technical scheme of the invention considers context information sentence semantics and syntax, POS and word to sentence the typos are identified and corrected, it can not only identify typos homonym and form words, but also can identify and correct other types of typos, greatly improving the typos the correction efficiency.

【技术实现步骤摘要】
一种搜索引擎中错别字自动更正方法和服务器
本专利技术涉及一种数据更正方法领域,更具体的,涉及一种搜索引擎中错别字自动更正方法和服务器。
技术介绍
文本校对过程中主要技术就是纠正错别字。通常情况下,文本校对过程基本上采用2种方法(人工检查校对和基于错别字词典的校对),其中最主要的是错别字词典校对,通过构建错词和正确词相对应的一个词库。中国专利“CN1116343A中文错别字自动订正方法及装置”提供了一种基于词典的错别字纠正方法。此专利技术通过寻找大量的基于字形、字音或输入码相近的字作为词对来构建错别字词典,再利用评分模型对相应的词进行打分,最后根据打分从词典中选取正确的字。当错别字与正确字的字音相同(同音字)时,中文搜索引擎可以利用同音字的词频对错别字进行纠正。原理就是当拼音相同时,给出的词是出现概率最大的那个词。但在某些情况下,错别字不是同音字,而是形近字或者是顺序颠倒的错别字,当这些情况出现时,搜索引擎一般无法识别错别字。另外,在实际应用中,当用户输入的检索条件很长时,经常会因为出现错别字而无法检测。因此当用户输入的检索条件比较长时,将会出现以下问题:1.当错别字和正确字的字音不同时,即使在拼音字符匹配度较高的情况下,系统也无法识别和纠正错别字。2.当一个词语错误时,如“百度”和“摆渡”,拼音对比法将无法纠正。3.当一个词有多个同音词时,如“手会”和“手绘、受贿、收汇、受惠”,搜索引擎会根据关键词的概率给出搜索结果,而不会依据检索条件的语义给出结果。例如,用户需要搜索有关“手绘”的信息,但输入的是“手会”,最终搜索到的可能是“受贿”信息。4.当检索的内容有多个关键词,并且最重要关键词因为出现错误而变得不重要时,搜索引擎会根据关键词的重要性给出搜索结果。5.当检索条件中出现“增字”和“漏字”的错误时,系统不会进行纠正。
技术实现思路
本专利技术旨在至少解决现有技术中存在的技术问题之一。为此,本专利技术的目的在于,提供一种搜索引擎中错别字自动更正方法和服务器,通过设计一种搜索引擎中错别字自动更正方法和服务器,能够更高效的纠正文本中的错别字,通过深度学习模型和高维向量化,将每个字映射到高位空间中,并通过高维向量表示字与字之间的关系,再利用字的上下文信息和其在句子中的作用来识别其是否是错别字。该方法不用花费大量的成本去构建错别字与正确字之间的一一对应关系,而仅仅是构建一个合适的错别字训练语料,搭建一个错别字纠正模型,学习错别字的特征。本专利技术很好的解决了传统方法下的错别字纠正系统缺点。同时,本专利技术采用的技术方案时考虑了句子的语义和句法、词性和词的上下文信息来对句子中的错别字进行识别和纠正。它能识别的错别字不仅仅只是同音字和形近字,还可以识别和改正其他类型的错别字。大大提高了错别字的纠正效率。为实现上述目的,本专利技术提供一种搜索引擎中错别字自动更正方法,其特征在于,包括:步骤1,获取用户输入的搜索文本数据;步骤2,对所述搜索文本数据进行预处理;步骤3,将所述预处理后的文本进行编码,并将编码后的文本中每个字符进行向量化处理,得到相应的第一字符向量;步骤4,采用attention机制和双向LSTM(longshorttermmemory,长短时记忆网络)模型对句子进行识别,并输出其识别结果;步骤5,针对所述识别结果,对其周边的字符进行预测,并与预设的概率阈值进行比较;步骤6,将大于所述概率阈值的结果作为最终更正的结果发送至用户端,供用户进行选择作为最终的搜索文本结果;步骤7,将搜索文本结果作为搜索词进行检索,并发送检索结果至用户端。优选的,所述步骤6还包括:当大于所述概率阈值的结果为1时,则自动对校对文本进行更正,不需要用户进行选择。优选的,所述预处理为去除掉无意义的符号,将繁体字转换成简体字,全角符号转换成半角符号中的一种或几种。优选的,所述将所述预处理后的文本进行编码中的编码方式为UTF-8编码。优选的,在所述步骤1之前,还包括:服务器针对每个字符都进行向量表示,生成第二字符向量,所述第二字符向量包含了字符特征信息,然后得到一个语言模型规则,将所述第二字符向量和语言模型规则存储到相应的数据库中。优选的,所述字符特征信息为词性、语法、语义中的一种或几种。本专利技术另一方面还提供一种搜索引擎中错别字自动更正服务器,包括:预处理模块,用于对需要校对的文本进行预处理;向量生成模块,用于将所述预处理后的文本进行编码,并将编码后的文本中每个字符进行向量化处理,得到相应的第一字符向量;识别模块,用于采用attention机制和双向LSTM(longshorttermmemory,长短时记忆网络)模型对句子进行识别,并输出其识别结果;预测模块,用于针对所述识别结果,对其周边的字符进行预测,并与预设的概率阈值进行比较;发送模块,用于将大于所述概率阈值的结果作为最终更正的结果发送至用户端,供用户进行选择和发送检索结果至用户端。检索模块,根据所述最终更正结果进行检索,输出检索结果。优选的,所述服务器还用于:当大于所述概率阈值的结果为1时,则自动对校对文本进行更正,不需要用户进行选择。优选的,所述预处理模块还用于去除掉无意义的符号,将繁体字转换成简体字,全角符号转换成半角符号中的一种或几种。优选的,在所述服务器还包括:数据库,用于存储第二字符向量和语言模型规则;所述第二字符向量为服务器针对每个字符都进行向量表示生成的第二字符向量,所述第二字符向量包含了字符特征信息,然后得到一个语言模型规则。通过本专利技术设计一种搜索引擎中错别字自动更正方法和服务器,能够更高效的纠正文本中的错别字,通过深度学习模型和高维向量化,将每个字映射到高位空间中,并通过高维向量表示字与字之间的关系,再利用字的上下文信息和其在句子中的作用来识别其是否是错别字。该方法不用花费大量的成本去构建错别字与正确字之间的一一对应关系,而仅仅是构建一个合适的错别字训练语料,搭建一个错别字纠正模型,学习错别字的特征。本专利技术很好的解决了传统方法下的错别字纠正系统缺点。同时,本专利技术采用的技术方案时考虑了句子的语义和句法、词性和词的上下文信息来对句子中的错别字进行识别和纠正。它能识别的错别字不仅仅只是同音字和形近字,还可以识别和改正其他类型的错别字。大大提高了错别字的纠正效率。附图说明图1示出了本专利技术一种搜索引擎中错别字自动更正方法的流程图;图2示出了本专利技术一种搜索引擎中错别字自动更正服务器的结构框图;图3示出了本专利技术一实施例的文本错别字更正方法的流程图。具体实施方式为了能够更清楚地理解本专利技术的上述目的、特征和优点,下面结合附图和具体实施方式对本专利技术进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。在下面的描述中阐述了很多具体细节以便于充分理解本专利技术,但是,本专利技术还可以采用其他不同于在此描述的方式来实施,因此,本专利技术的保护范围并不受下面公开的具体实施例的限制。图1示出了本专利技术一种搜索引擎中错别字自动更正方法的流程图。如图1所示,根据本专利技术一种搜索引擎中错别字自动更正方法,包括以下步骤:步骤1,获取用户输入的搜索文本数据。用户在浏览器或者其他搜索引擎输入搜索文本数据,则浏览器或者搜索引擎获取数据并发送至服务器。例如,用户在浏览器中输入“手绘”,则浏览器则发本文档来自技高网
...
一种搜索引擎中错别字自动更正方法和服务器

【技术保护点】
一种搜索引擎中错别字自动更正方法,其特征在于,包括:步骤1,获取用户输入的搜索文本数据;步骤2,对所述搜索文本数据进行预处理;步骤3,将所述预处理后的文本进行编码,并将编码后的文本中每个字符进行向量化处理,得到相应的第一字符向量;步骤4,采用attention机制和双向LSTM(long short term memory,长短时记忆网络)模型对句子进行识别,并输出其识别结果;步骤5,针对所述识别结果,对其周边的字符进行预测,并与预设的概率阈值进行比较;步骤6,将大于所述概率阈值的结果作为最终更正的结果发送至用户端,供用户进行选择作为最终的搜索文本结果;步骤7,将搜索文本结果作为搜索词进行检索,并发送检索结果至用户端。

【技术特征摘要】
1.一种搜索引擎中错别字自动更正方法,其特征在于,包括:步骤1,获取用户输入的搜索文本数据;步骤2,对所述搜索文本数据进行预处理;步骤3,将所述预处理后的文本进行编码,并将编码后的文本中每个字符进行向量化处理,得到相应的第一字符向量;步骤4,采用attention机制和双向LSTM(longshorttermmemory,长短时记忆网络)模型对句子进行识别,并输出其识别结果;步骤5,针对所述识别结果,对其周边的字符进行预测,并与预设的概率阈值进行比较;步骤6,将大于所述概率阈值的结果作为最终更正的结果发送至用户端,供用户进行选择作为最终的搜索文本结果;步骤7,将搜索文本结果作为搜索词进行检索,并发送检索结果至用户端。2.根据权利要求1所述的一种搜索引擎中错别字自动更正方法,其特征在于,所述步骤6还包括:当大于所述概率阈值的结果为1时,则自动对校对文本进行更正,不需要用户进行选择。3.根据权利要求1所述的一种搜索引擎中错别字自动更正方法,其特征在于,所述预处理为去除掉无意义的符号,将繁体字转换成简体字,全角符号转换成半角符号中的一种或几种。4.根据权利要求1所述的一种搜索引擎中错别字自动更正方法,其特征在于,所述将所述预处理后的文本进行编码中的编码方式为UTF-8编码。5.根据权利要求1所述的一种搜索引擎中错别字自动更正方法,其特征在于,在所述步骤1之前,还包括:服务器针对每个字符都进行向量表示,生成第二字符向量,所述第二字符向量包含了字符特征信息,然后得到一个语言模型规则,将所述第二字符向量和语言模型规则存储到相应的数据库...

【专利技术属性】
技术研发人员:黄威威潘嵘张晋斌
申请(专利权)人:深圳爱拼信息科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1