网络搜索过程中关键词的智能纠错系统及方法技术方案

技术编号:2828920 阅读:499 留言:0更新日期:2012-04-11 18:40
本发明专利技术涉及一种网络搜索过程中关键词的智能纠错系统及方法,在互联网络平台上,首先,通过相关数据信息的训练,建立相关的语言模型、对应的词典和数据索引数据库;然后,输入文本,拼音纠错部分计算音字错误,模糊匹配计算词型纠错;最后,将所有结果进行相关度过滤,对多个结果进行排序,得到最接近的几个结果。通过音字转换和模糊纠错技术手段来纠正用户输入的多音字错误、字型、词型错误,解决用户在输入过程中的字符替换错误、多字/漏字错误和字符位置错误等类型。并在此基础上扩展了基础功能,引入中英文、标点混合纠错,模糊匹配技术,相关提示技术,增强了智能纠错的功能。

【技术实现步骤摘要】

本专利技术涉及网络文本信息的智能处理领域,特别涉及在网络搜索过程中关键词信息的自 动纠错、相关提示技术。
技术介绍
在信息技术时代,通过互联网的手段来获取各种信息的方式在爆炸式增长,并日益成为 人获取时信息和知识的主要途径。在人们获取信息的同时,特别是有目的的去网络寻找自己想得到的信息的时候,都会使 用到网络信息搜索系统,有时会不可避免地遇到一些问题。例如,在搜索系统运行过程中, 用输入的一些关键词得不到査询结果,或者得到的查询结果密切度不大,其导致用户不能搜 到满意的结果。其错误类型可归结为下表的五种情况。在表中,第l、 2情况,可以归结为同 音字错误,如大分歧密码(达芬奇密码)、莫明其妙(莫名其妙);第3种情况属于多字/漏字、字型、词型错误;第4、 5种情况,用户会输入拼音,如chengxusheji (程序设计)、kaoyan2007 (考研2007),在正常情况中,需要提示正确的中文。<table>table see original document page 4</column></row><table>对上述五种情况,目前常规的处理方法不能满足实际应用的需求。如通过预置错误词表 的方法,尽可能把出现错误的词列举出来,并且给出正确的提示结果,但这种方法有其局限 性,因为实际使用中出现的错词不一定都在错词表中,这就使部分词没有正确的提示结果。通过音字转换的方法,对错词只能做同音字的纠错,不能解决漏字、多字、错字情况;同时, 常规的音字转换只做汉字的转换,不能处理拼音、数字和标点等混合情况。这些缺陷就给用 户在网络搜索中因不能输入准确的关键词而导致不能提供想要的信息。
技术实现思路
针对上述问题,本专利技术提供了一种在网络搜索过程中提示正确的或最贴近关键词的系统 及方法,提高了用户获取信息的感受。本专利技术主要通过音字转换和模糊纠错技术手段来纠正用户输入的多音字错误、字型、词 型错误,解决用户在输入过程中的字符替换错误、多字/漏字错误和字符位置错误等类型。并 在此基础上扩展了基础功能,引入中英文、标点混合纠错,模糊匹配技术,相关提示技术, 增强了智能纠错的功能。本专利技术通过如下措施来实现在互联网络平台上,首先,通过相关数据信息的训练,建 立相关的语言模型、对应的词典和数据索引数据库;然后,输入文本,拼音纠错部分计算音 字错误,模糊匹配计算词型纠错;最后,将所有结果进行相关度过滤,对多个结果进行排序, 得到最接近的几个结果。如图1所示,该系统主要包括以下部分文本语料数据库模块对数据库中的数据进行分析、规范和初始化,作为训练语料; 切分字符模块包括初始化相应的训练词典,并对训练文本信息进行分词处理; 统计语言模型模块对切分后的训练文本计算,得到词的概率模型和词间的转移概率模型;建立索引模块建立训练语料中词和文档位置的索引;规范提示信息模块对训练数据进行规范化处理,得到可能作为提示结果的规范化信息; 输入搜索信息模块在输入界面输入相应的文字;拼音纠错模块切分字音转换后的字符串,按照切分单位做拼音到汉字的转换,使用动 态规划的算法,取得概率较大的几个结果;词型匹配模块根据模糊匹配的原理,匹配相关的字词,得到多个相近的结果;相关度过滤模块对拼音纠错结果和词型纠错结果作相关度计算,并使用训练语料计算 的索引过滤结果;最后显示结果模块输出关键词的提示结果。本专利技术系统所使用的主要功能模块包括切分字串(包括中文、拼音、英文字串,及其 混合字串),统计语言模型,建立索引,规范提示信息,拼音纠错,词型匹配和相关度过滤等。 其中的每个部分都是本专利技术得以实现并成功应用的基础并构成了一个技术系统。各功能模块 和所使用的方法具体说明如下-切分字串模块。在处理涉及中文的字符串时,需要进行分词,词能够代表一个有意义的 语言单位。针对不同的应用需求,这里采用了不同的切分方法。如在计算统计语言模型阶段, 对语料数据采用了基于正向最大匹配的切词算法。对拼音纠错阶段的拼音字符串采用全切分 的算法,把一个拼音句子的所有切分可能找出来。统计语言模型模块主要记录词概率结果和词的转移概率结果。词的概率用每个词出现在 语料中的次数表示。词的转移概率为一个词出现在另一个词后面的次数。在得到次数后做规 范化处理,如取次数的对数作为概率数据。具体计算概率时,可用不同的方法,如词的概率 算法可用投篮法,转移概率可用二元语法记录。如图2所示,这个过程主要分三部分初始 化数据、计算语言模型和将计算结果写入文件。建立索引模块对提示信息进行索引,记录相应的词和相应位置,作为之后的结果排序和 过滤的数据。建立索引的过程如图3所示,主要包括读取切分字串的信息,进行分词,建索 引和把数据写入文件等部分。规范提示信息模块,主要对数据信息的进行规范化,以后的词型匹配阶段的分析提供数据。拼音纠错模块。具体过程如图4所示。首先,对输入字符串进行字音转换,规范化为拼 音、数字、英文字母或标点的字符串;其次,进行字符串的切分,构造一个由分割的字符串 组成的一个有向无环图;再次,并对字符串中的拼音转化成中文;最后,使用动态规划算法 求得几条最佳路径,返回转换之后的结果以及相应的概率值。其中纠错过程主要包括三部分对同音错别字的纠正、拼音到汉字的转换和多个同音词 的提示。系统的核心功能是拼音到汉字的转换。目前,解决拼音到汉字主要有基于规则的方 法和基于语料库统计的方法。基于规则的方法可以运用短语规则、模式匹配、模糊匹配等方 法。其应用的范围有限,很难通过制定大量的规则来覆盖所有可能出现的情况。基于统计的 方法运用基于字、词的n-gram模型。这里使用基于统计的转移概率模型,通过对现有的数据 进行分词,计算词的概率和转移概率,获取语言模型,作为转换阶段的后验概率。基于数据信息的统计,构建关于词的概率模型。在训练阶段,通过对大规模数据信息的机 器学习来训练模型参数。在转换阶段通过计算选取后验概率最大者作为转换结果。基于训练模型的中英文、数字、标点混合纠错技术是本专利技术的关键,如€++71173!1可以提示为C十+语言。其混合纠错流程如图5所示。可以看出,转化后的字符串区分情况切分是重 点,切分出以词的拼音串为单位的拼音串、英文串和标点。之后把拼音串转化成相应的汉字 串,汉字串、英文串和标点等切分字符串进行统一的概率计算,这样在纠错的过程中就可以 支持拼音、中英文、标点的混合串的纠错。通过这样的处理,比一般的拼音纠错更细化,更 贴近用户实际的输入情况。词型匹配模块。词型纠错需要计算字串间的相似度,这里主要基于词的模糊匹配思想, 在给定的数据集内挑选最接近的提示,计算两个字符串间的编辑距离。所谓的编辑距离让 两个字符串变成相同字符串需要操作的最小次数。其操作包括把一个字符变成另一个字符; 删除某个字符;插入某个字符等。采用模糊匹配的方式,就可以对用户输入中的漏字/多字/错字进行词型补全纠正。这里 可以词为单位计算两个字符串间的相似度。同时,为每个词建立了索引,计算相似度时,如 只计算有词相关的串,其就能大大加快系统运行的速度。相关度过滤模块。如图6所示,拼音纠错和词型纠错计算后,得到了多个相关的结果。 这些结果与真实结果的相近程度需要通过一定的本文档来自技高网
...

【技术保护点】
一种网络搜索过程中关键词的智能纠错系统,是在互联网络平台上,首先,通过相关数据信息的训练,建立相关的语言模型、对应的词典和数据索引数据库;然后,输入文本,拼音纠错部分计算音字错误,模糊匹配计算词型纠错;最后,将所有结果进行相关度过滤,对多个结果进行排序,得到最接近的几个结果。该系统包括以下部分:文本语料数据库模块:对数据库中的数据进行分析、规范和初始化,作为训练语料;切分字符模块:包括初始化相应的训练词典,并对训练文本信息进行分词处理;统计语言模型模块:对切分后的训练文本计算,得到词的概率模型和词间的转移概率模型;建立索引模块:建立训练语料中词和文档位置的索引;规范提示信息模块:对训练数据进行规范化处理,得到可能作为提示结果的规范化信息;输入搜索信息模块:在输入界面输入相应的文字;拼音纠错模块:切分字音转换后的字符串,按照切分单位做拼音到汉字的转换,使用动态规划的算法,取得概率较大的几个结果;词型匹配模块:根据模糊匹配的原理,匹配相关的字词,得到多个相近的结果;相关度过滤模块:对拼音纠错结果和词型纠错结果作相关度计算,并使用训练语料计算的索引过滤结果;最后显示结果模块:输出关键词的提示结果。...

【技术特征摘要】
1.一种网络搜索过程中关键词的智能纠错系统,是在互联网络平台上,首先,通过相关数据信息的训练,建立相关的语言模型、对应的词典和数据索引数据库;然后,输入文本,拼音纠错部分计算音字错误,模糊匹配计算词型纠错;最后,将所有结果进行相关度过滤,对多个结果进行排序,得到最接近的几个结果。该系统包括以下部分文本语料数据库模块对数据库中的数据进行分析、规范和初始化,作为训练语料;切分字符模块包括初始化相应的训练词典,并对训练文本信息进行分词处理;统计语言模型模块对切分后的训练文本计算,得到词的概率模型和词间的转移概率模型;建立索引模块建立训练语料中词和文档位置的索引;规范提示信息模块对训练数据进行规范化处理,得到可能作为提示结果的规范化信息;输入搜索信息模块在输入界面输入相应的文字;拼音纠错模块切分字音转换后的字符串,按照切分单位做拼音到汉字的转换,使用动态规划的算法,取得概率较大的几个结果;词型匹配模块根据模糊匹配的原理,匹配相关的字词,得到多个相近的结果;相关度过滤模块对拼音纠错结果和词型纠错结果作相关度计算,并使用训练语料计算的索引过滤结果;最后显示结果模块输出关键词的提示结果。2. 如权利要求1所述的网络搜索过程中关键词的智能纠错系统,其特征在于切分字串模 块针对不同的应用需求,采用不同的切分方法在计算统计语言模型阶段,对语料数据采用 了基于正向最大匹配的切词算法;在拼音纠错阶段的拼音字符串采用全切分的算法。3. 如权利要求l所述的网络搜索过程中关键词的智能纠错系统,其特征在于统计语言模型模块对词的概率使用投篮法,对词的转移概率使用二元语法记录。4. 如权利要求1所述的网络搜索过程中...

【专利技术属性】
技术研发人员:庄洪波刘刚刘建国王洪涛张研
申请(专利权)人:北京科文书业信息技术有限公司
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1