非正常文本识别方法及其系统技术方案

技术编号:9667373 阅读:129 留言:0更新日期:2014-02-14 05:12
本发明专利技术提供一种非正常文本识别方法及其系统,所述方法包括以下步骤:根据待识别文本中的各个文字,获取各个所述文字输入的首字母所对应的按键;根据各个所述文字输入的首字母所对应的按键在键盘上的分布情况,将所述待识别文本划分为正常文本或者非正常文本。本发明专利技术的非正常文本识别方法及其系统,通过各个文字输入的首字母所对应的按键在键盘上的分布情况,可以有效地识别出大部分随机输入的无意义、非正常文本。并且,因为识别方法并不依赖于词义,文本质量分的计算,使识别结果更加客观准确。

【技术实现步骤摘要】
非正常文本识别方法及其系统
本专利技术涉及文本识别
,特别是涉及一种非正常文本识别方法,以及一种非正常文本识别系统。
技术介绍
垃圾文本过滤一直是搜索引擎中一项重要的技术环节,所述垃圾文本通常指无意义的非正常文本,传统的垃圾文本过滤通过关键词的查找和文本质量分的计算,可以过滤掉一些广告内容、色情内容、政治敏感内容、内容重复的差格式文本、非规范字符过多的差格式文本等等。然而,在微博和空间说说等短文本搜索中,我们发现有一定量的由随机输入产生的非正常文本(也称垃圾文本),例如:“撒娇的拉萨科技大实际道路卡萨军等垃圾哦大搜打碎了均达拉斯加达拉斯加萨顿水等”。这类非正常文本的特性是:内容有一定随机性,重复词条较少;概念词较多,按照以往的文本过滤技术计算的文本质量分通常不低;由于输入法的联想输入特性,相邻词之间往往有一定相关度,难以通过语义分析过滤。基于以上特性,这类非正常文本很难通过传统的文本过滤方法加以区分。
技术实现思路
针对上述
技术介绍
中存在的问题,本专利技术的目的在于提供一种能够有效地识别随机输入产生的非正常文本的非正常文本识别方法,以及一种非正常文本识别系统。一种非正常文本识别方法,包括以下步骤:根据待识别文本中的各个文字,获取各个所述文字输入的首字母所对应的按键;根据各个所述文字输入的首字母所对应的按键在键盘上的分布情况,将所述待识别文本划分为正常文本或者非正常文本。一种非正常文本识别系统,包括:按键获取模块,用于根据待识别文本中的各个文字,获取各个所述文字输入的首字母所对应的按键;识别模块,用于根据各个所述文字输入的首字母所对应的按键在键盘上的分布情况,将所述待识别文本划分为正常文本或者非正常文本。本专利技术的非正常文本识别方法及其系统,通过获取在相应的输入法下,待识别文本中的各个文字输入的首字母所对应的按键,判断所述按键在键盘上的分布情况。因为随机输入的无意义的非正常文本通常是点击在键盘上较集中的区域的若干按键输入的,所以通过所述文字输入时的首字母对应的按键在键盘上的分布情况,可以有效地识别出大部分随机输入的无意义、非正常文本。并且,因为识别方法并不依赖于词义,文本质量分的计算,使识别结果更加客观准确。【附图说明】图1是本专利技术非正常文本识别方法第一实施方式的流程示意图;图2是本专利技术非正常文本识别方法第一实施方式中步骤S102的局部流程示意图;图3为本专利技术的非正常文本识别方法中一种键盘分区的设定方式的示意图;图4是本专利技术非正常文本识别方法第二实施方式中步骤S102的局部流程示意图;图5是本专利技术非正常文本识别方法第三实施方式中步骤S102的局部流程示意图;图6是本专利技术非正常文本识别系统第一实施方式的结构示意图;图7是本专利技术非正常文本识别系统的第一实施方式中识别模块的结构示意图;图8是本专利技术非正常文本识别系统的第二实施方式中识别模块的结构示意图;图9是本专利技术非正常文本识别系统的第三实施方式中识别模块的结构示意图。【具体实施方式】请参阅图1,图1是本专利技术非正常文本识别方法第一实施方式的流程示意图。所述非正常文本识别方法,包括以下步骤SlOl和S102:S101,根据待识别文本中的各个文字,获取各个所述文字输入的首字母所对应的按键;其中,所述待识别文本即是需要进行识别的文本。所述待识别文本中的文字包括中文字,英文字母,数字、符号等,也可以是其中的一种或者多种的组合。特别地,本专利技术对于由中文汉字组成的文本具有较好的识别效果。而所述待识别文本优选为长度大于某预设值的文本,即其包含的文字个数最好超过一定的数量,因为文本越短,包含的文字越少,正常和非正常文本间的界限越模糊,识别的难度越大。因此在实际执行本专利技术的非正常文本识别方法时,可以预先设定对文本要求的最小长度,对文本长度大于所述最小长度的,才执行本专利技术的非正常文本识别方法,否则不执行所述非正常文本识别方法。所述文字输入的首字母所对应的按键,即是在输入每一个所述文字时第一个点击的按键,例如英文字母输入计算机时,首字母对应的按键即为所述英文字母所在的按键。所述文字输入的首字母所对应的按键,可以通过建立查找表的方式获取。优选地,在本步骤SlOl中,根据所述待识别文本中的各个文字,查找预先建立的对应关系表,获取对应的所述按键;其中,所述对应关系表中记录所述文字和所述文字输入的首字母所对应的按键。亦即,在预设的所述对应关系表中,建立输入的文字和对应的所述按键的对应关系。只需要根据文字查找所述对应关系表,即可获得所述待识别文本中各个文字对应的所述按键,这种方式比较直接方便。或者,所述按键也可以根据所述文字输入时所用的输入法的规则获取。例如,对于所述待识别文本中的英文字母,直接获取各个所述英文字母对应的按键,识别为所述英文字母输入的首字母所对应的按键。当所述待识别文本中的各个文字是由拼音输入法输入的汉字时,则可获取所述待识别文本中各个中文汉字的拼音首字母对应的按键,识别为所述中文汉字输入的首字母所对应的按键。由于拼音输入法输入的汉字,第一个点击的按键必然是该汉字的拼音首字母的按键,因此可以通过上述方式获取中文汉字输入计算机时对应的首个按键。根据不同的输入法规则对各种文字输入的首字母所对应的按键进行推导,可以无需建立数据量较大的对应关系表。本领域的技术人员根据本专利技术记载的上述方法,可以自行根据对应的输入法规则,获取其他文字输入的首字母所对应的按键。优选地,在本步骤SlOl中,将计算机键盘上a-z的按键以26个不同的标识标记,例如数字1-26 ;而将标点符号和数字以同一个标识标记,例如数字O。则在获取对应的按键之后,可用相应的标识记录,以便计算机进行统计处理。S102,根据各个所述文字输入的首字母所对应的按键在键盘上的分布情况,将所述待识别文本划分为正常文本或者非正常文本。因为随机输入的、无意义的非正常文本通常是点击在键盘上较集中的区域的若干个按键输入的,亦即,随机输入时通常不会在整个键盘范围内对各个按键平均地点击。所以通过各个所述文字对应的所述按键在键盘上的分布情况,可以有效地识别出大部分随机输入的无意义、非正常文本。例如,如果各个文字对应的所述按键分布较集中,则将所述待识别文本判断为非正常文本;而如果分布较分散,则判断为正常文本。而判断其分布集中或分散的标准可以根据统计数据,或者训练样本和机器学习的方式得到。请参阅图2,图2是本专利技术非正常文本识别方法第一实施方式中步骤S102的局部流程示意图。本实施方式中,可以通过以下方式将所述待识别文本划分为正常文本或者非正常文本,即所述步骤S102包括:S201,根据预设的多个键盘分区,判断获取的所述按键在各个所述键盘分区上的分布比例;S202,将所述分布比例与预设的分布比例阈值比较;如果大于所述分布比例阈值,则执行步骤S203,将所述检测文本划分为非正常文本;否则,执行步骤S204,将所述检测文本划分为正常文本。其中,本专利技术中出现的“多个”指两个或两个以上。所述多个键盘分区是预先设定的,每个所述键盘分区包括若干个依次相邻的按键,具体可根据键盘上各个按键的分布来设定。请参阅图3,图3为本专利技术的非正常文本识别方法中一种键盘分区的设定方式的示意图。该设定方式共分为7个键盘分区:第一个键盘分区包括按键Q、W、E、R、本文档来自技高网...
非正常文本识别方法及其系统

【技术保护点】
一种非正常文本识别方法,其特征在于,包括步骤:根据待识别文本中的各个文字,获取各个所述文字输入的首字母所对应的按键;根据各个所述文字输入的首字母所对应的按键在键盘上的分布情况,将所述待识别文本划分为正常文本或者非正常文本。

【技术特征摘要】
1.一种非正常文本识别方法,其特征在于,包括步骤: 根据待识别文本中的各个文字,获取各个所述文字输入的首字母所对应的按键; 根据各个所述文字输入的首字母所对应的按键在键盘上的分布情况,将所述待识别文本划分为正常文本或者非正常文本。2.如权利要求1所述的非正常文本识别方法,其特征在于,所述根据待识别文本中的各个文字,获取各个所述文字输入的首字母所对应的按键的步骤包括: 根据所述待识别文本中的各个文字,查找预先建立的对应关系表,获取对应的所述按键;其中,所述对应关系表中记录所述文字和所述文字输入的首字母所对应的按键。3.如权利要求1所述的非正常文本识别方法,其特征在于,所述根据待识别文本中的各个文字,获取各个所述文字输入的首字母所对应的按键的步骤包括: 获取所述待识别文本中各个中文汉字的拼音首字母对应的按键,识别为所述中文汉字输入的首字母所对应的按键; 或者, 获取所述待识别文本中各个英文字母对应的按键,识别为所述英文字母输入的首字母所对应的按键。4.如权利要求1所述的非正常文本识别方法,其特征在于,根据各个所述文字输入的首字母所对应的按键在键盘上的分布情况,将所述待识别文本划分为正常文本或者非正常文本的步骤包括: 根据预设的多个键盘分区,判断获取的所述按键在各个所述键盘分区上的分布比例; 将所述分布比例与预设的分布比例阈值比较; 如果大于所述分布比例阈值,则将所述检测文本划分为非正常文本;否则,将所述检测文本划分为正常文本。5.如权利要求1所述的非正常文本识别方法,其特征在于,根据各个所述文字输入的首字母所对应的按键在键盘上的分布情况,将所述待识别文本划分为正常文本或者非正常文本的步骤包括: 计算所述待识别文本中每两个相邻的文字所对应的按键在键盘上的距离,并计算所述距离的平均值; 将所述距离的平均值与预设的平均距离阈值比较; 如果小于所述平均距离阈值,则将所述检测文本划分为非正常文本;否则,将所述检测文本划分为正常文本。6.如权利要求1所述的非正常文本识别方法,其特征在于,根据各个所述文字输入的首字母所对应的按键在键盘上的分布情况,将所述待识别文本划分为正常文本或者非正常文本的步骤包括: 根据预设的多个键盘分区,判断获取的所述按键在各个所述键盘分区上的分布比例; 计算所述待识别文本中每两个相邻的文字所对应的按键在键盘上的距离,并计算所述距离的平均值; 根据所述分布比例和所述距离的平均值,按照各个所述键盘分区分别对应的预设划分标准,将所述待识别文本划分为正常文本或者非正常文本;其中,各个所述键盘分区分别对应的预设划分标准包括预设的分布比例阈值和预设的平均距离阈值。7.如权利要求6所述的非正常文本识别方法,其特征在于,每一所述键盘分区对应的预设划分标准包括预设的多个所述分布比例阈值,以及分别对应每一所述分布比例阈值的多个平均距离阈值。8.如权利要求6所述的非正常文本识别方法,其特征在于,进一步获取所述待识别文本中数字或符号的分布比例; 并且,根据所述分布比例和所述距离的平均值、 以及所述数字或符号的分布比例,按照各个所述键盘分区分别对应的预设划分标准,将所述待识别文本划分为正常文本或者非正常文本;其中,各个所述键盘分区分别对应的预设划分标准包括预设的分布比例阈值、预设的平均距离阈值、以及预设的数字或符号分布比例。9.如权利要求5至8中任意一项所述的非正常文本识别方法,其特征在于,计算所述待识别文本中每两个相邻的文字所对应的按键在键盘上的距离的步骤包括: 根据所述待识别文本中每两个相邻的文字分别对应的所述按键在键盘上的横向距离和纵向距离,按照以下公式计算加权键盘距离:Dist=X+ α.y 其中,Dist为计算的加权键盘距离,X为横向距离,y为...

【专利技术属性】
技术研发人员:何小晨张国强郝志新许春林王长伟
申请(专利权)人:深圳市世纪光速信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1