网络搜索过程中关键词的智能纠错系统及方法技术方案

技术编号：2828920 阅读：499 留言：0更新日期：2012-04-11 18:40

本发明专利技术涉及一种网络搜索过程中关键词的智能纠错系统及方法，在互联网络平台上，首先，通过相关数据信息的训练，建立相关的语言模型、对应的词典和数据索引数据库；然后，输入文本，拼音纠错部分计算音字错误，模糊匹配计算词型纠错；最后，将所有结果进行相关度过滤，对多个结果进行排序，得到最接近的几个结果。通过音字转换和模糊纠错技术手段来纠正用户输入的多音字错误、字型、词型错误，解决用户在输入过程中的字符替换错误、多字／漏字错误和字符位置错误等类型。并在此基础上扩展了基础功能，引入中英文、标点混合纠错，模糊匹配技术，相关提示技术，增强了智能纠错的功能。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及网络文本信息的智能处理领域，特别涉及在网络搜索过程中关键词信息的自动纠错、相关提示技术。
技术介绍
在信息技术时代，通过互联网的手段来获取各种信息的方式在爆炸式增长，并日益成为人获取时信息和知识的主要途径。在人们获取信息的同时，特别是有目的的去网络寻找自己想得到的信息的时候，都会使用到网络信息搜索系统，有时会不可避免地遇到一些问题。例如，在搜索系统运行过程中，用输入的一些关键词得不到査询结果，或者得到的查询结果密切度不大，其导致用户不能搜到满意的结果。其错误类型可归结为下表的五种情况。在表中，第l、 2情况，可以归结为同音字错误，如大分歧密码(达芬奇密码)、莫明其妙(莫名其妙)；第3种情况属于多字/漏字、字型、词型错误；第4、 5种情况，用户会输入拼音，如chengxusheji (程序设计)、kaoyan2007 (考研2007)，在正常情况中，需要提示正确的中文。<table>table see original document page 4</column></row><table>对上述五种情况，目前常规的处理方法不能满足实际应用的需求。如通过预置错误词表的方法，尽可能把出现错误的词列举出来，并且给出正确的提示结果，但这种方法有其局限性，因为实际使用中出现的错词不一定都在错词表中，这就使部分词没有正确的提示结果。通过音字转换的方法，对错词只能做同音字的纠错，不能解决漏字、多字、错字情况；同时，常规的音字转换只做汉字的转换，不能处理拼音、数字和标点等混合情况。这些缺...

【技术保护点】
一种网络搜索过程中关键词的智能纠错系统，是在互联网络平台上，首先，通过相关数据信息的训练，建立相关的语言模型、对应的词典和数据索引数据库；然后，输入文本，拼音纠错部分计算音字错误，模糊匹配计算词型纠错；最后，将所有结果进行相关度过滤，对多个结果进行排序，得到最接近的几个结果。该系统包括以下部分：文本语料数据库模块：对数据库中的数据进行分析、规范和初始化，作为训练语料；切分字符模块：包括初始化相应的训练词典，并对训练文本信息进行分词处理；统计语言模型模块：对切分后的训练文本计算，得到词的概率模型和词间的转移概率模型；建立索引模块：建立训练语料中词和文档位置的索引；规范提示信息模块：对训练数据进行规范化处理，得到可能作为提示结果的规范化信息；输入搜索信息模块：在输入界面输入相应的文字；拼音纠错模块：切分字音转换后的字符串，按照切分单位做拼音到汉字的转换，使用动态规划的算法，取得概率较大的几个结果；词型匹配模块：根据模糊匹配的原理，匹配相关的字词，得到多个相近的结果；相关度过滤模块：对拼音纠错结果和词型纠错结果作相关度计算，并使用训练语料计算的索引过滤结果；最后显示结果模块：输出关键词的提示结果。...

【技术特征摘要】
1.一种网络搜索过程中关键词的智能纠错系统，是在互联网络平台上，首先，通过相关数据信息的训练，建立相关的语言模型、对应的词典和数据索引数据库；然后，输入文本，拼音纠错部分计算音字错误，模糊匹配计算词型纠错；最后，将所有结果进行相关度过滤，对多个结果进行排序，得到最接近的几个结果。该系统包括以下部分文本语料数据库模块对数据库中的数据进行分析、规范和初始化，作为训练语料；切分字符模块包括初始化相应的训练词典，并对训练文本信息进行分词处理；统计语言模型模块对切分后的训练文本计算，得到词的概率模型和词间的转移概率模型；建立索引模块建立训练语料中词和文档位置的索引；规范提示信息模块对训练数据进行规范化处理，得到可能作为提示结果的规范化信息；输入搜索信息模块在输入界面输入相应的文字；拼音纠错模块切分字音转换后的字符串，按照切分单位做拼音到汉字的转换，使用动态规划的算法，取得概率较大的几个结果；词型匹配模块根据模糊匹配的原理，匹配相关的字词，得到多个相近的结果；相关度过滤模块对拼音纠错结果和词型纠错结果作相关度计算，并使用训练语料计算的索引过滤结果；最后显示结果模块输出关键词的提示结果。2. 如权利要求1所述的网络搜索过程中关键词的智能纠错系统，其特征在于切分字串模块针对不同的应用需求，采用不同的切分方法在计算统计语言模型阶段，对语料数据采用了基于正向最大匹配的切词算法；在拼音纠错阶段的拼音字符串采用全切分的算法。3. 如权利要求l所述的网络搜索过程中关键词的智能纠错系统，其特征在于统计语言模型模块对词的概率使用投篮法，对词的转移概率使用二元语法记录。4. 如权利要求1所述的网络搜索过程中...

【专利技术属性】
技术研发人员：庄洪波，刘刚，刘建国，王洪涛，张研，
申请(专利权)人：北京科文书业信息技术有限公司，
类型：发明
国别省市：11[中国|北京]

全部详细技术资料下载我是这个专利的主人