【技术实现步骤摘要】
非正常文本识别方法及其系统
本专利技术涉及文本识别
,特别是涉及一种非正常文本识别方法,以及一种非正常文本识别系统。
技术介绍
垃圾文本过滤一直是搜索引擎中一项重要的技术环节,所述垃圾文本通常指无意义的非正常文本,传统的垃圾文本过滤通过关键词的查找和文本质量分的计算,可以过滤掉一些广告内容、色情内容、政治敏感内容、内容重复的差格式文本、非规范字符过多的差格式文本等等。然而,在微博和空间说说等短文本搜索中,我们发现有一定量的由随机输入产生的非正常文本(也称垃圾文本),例如:“撒娇的拉萨科技大实际道路卡萨军等垃圾哦大搜打碎了均达拉斯加达拉斯加萨顿水等”。这类非正常文本的特性是:内容有一定随机性,重复词条较少;概念词较多,按照以往的文本过滤技术计算的文本质量分通常不低;由于输入法的联想输入特性,相邻词之间往往有一定相关度,难以通过语义分析过滤。基于以上特性,这类非正常文本很难通过传统的文本过滤方法加以区分。
技术实现思路
针对上述
技术介绍
中存在的问题,本专利技术的目的在于提供一种能够有效地识别随机输入产生的非正常文本的非正常文本识别方法,以及一种非正常文本识别系统。一种非正常文本识别方法,包括以下步骤:根据待识别文本中的各个文字,获取各个所述文字输入的首字母所对应的按键;根据各个所述文字输入的首字母所对应的按键在键盘上的分布情况,将所述待识别文本划分为正常文本或者非正常文本。一种非正常文本识别系统,包括:按键获取模块,用于根据待识别文本中的各个文字,获取各个所述文字输入的首字母所对应的按键;识别模块,用于根据各个所述文字输入的首字母所对应的 ...
【技术保护点】
一种非正常文本识别方法,其特征在于,包括步骤:根据待识别文本中的各个文字,获取各个所述文字输入的首字母所对应的按键;根据各个所述文字输入的首字母所对应的按键在键盘上的分布情况,将所述待识别文本划分为正常文本或者非正常文本。
【技术特征摘要】
1.一种非正常文本识别方法,其特征在于,包括步骤: 根据待识别文本中的各个文字,获取各个所述文字输入的首字母所对应的按键; 根据各个所述文字输入的首字母所对应的按键在键盘上的分布情况,将所述待识别文本划分为正常文本或者非正常文本。2.如权利要求1所述的非正常文本识别方法,其特征在于,所述根据待识别文本中的各个文字,获取各个所述文字输入的首字母所对应的按键的步骤包括: 根据所述待识别文本中的各个文字,查找预先建立的对应关系表,获取对应的所述按键;其中,所述对应关系表中记录所述文字和所述文字输入的首字母所对应的按键。3.如权利要求1所述的非正常文本识别方法,其特征在于,所述根据待识别文本中的各个文字,获取各个所述文字输入的首字母所对应的按键的步骤包括: 获取所述待识别文本中各个中文汉字的拼音首字母对应的按键,识别为所述中文汉字输入的首字母所对应的按键; 或者, 获取所述待识别文本中各个英文字母对应的按键,识别为所述英文字母输入的首字母所对应的按键。4.如权利要求1所述的非正常文本识别方法,其特征在于,根据各个所述文字输入的首字母所对应的按键在键盘上的分布情况,将所述待识别文本划分为正常文本或者非正常文本的步骤包括: 根据预设的多个键盘分区,判断获取的所述按键在各个所述键盘分区上的分布比例; 将所述分布比例与预设的分布比例阈值比较; 如果大于所述分布比例阈值,则将所述检测文本划分为非正常文本;否则,将所述检测文本划分为正常文本。5.如权利要求1所述的非正常文本识别方法,其特征在于,根据各个所述文字输入的首字母所对应的按键在键盘上的分布情况,将所述待识别文本划分为正常文本或者非正常文本的步骤包括: 计算所述待识别文本中每两个相邻的文字所对应的按键在键盘上的距离,并计算所述距离的平均值; 将所述距离的平均值与预设的平均距离阈值比较; 如果小于所述平均距离阈值,则将所述检测文本划分为非正常文本;否则,将所述检测文本划分为正常文本。6.如权利要求1所述的非正常文本识别方法,其特征在于,根据各个所述文字输入的首字母所对应的按键在键盘上的分布情况,将所述待识别文本划分为正常文本或者非正常文本的步骤包括: 根据预设的多个键盘分区,判断获取的所述按键在各个所述键盘分区上的分布比例; 计算所述待识别文本中每两个相邻的文字所对应的按键在键盘上的距离,并计算所述距离的平均值; 根据所述分布比例和所述距离的平均值,按照各个所述键盘分区分别对应的预设划分标准,将所述待识别文本划分为正常文本或者非正常文本;其中,各个所述键盘分区分别对应的预设划分标准包括预设的分布比例阈值和预设的平均距离阈值。7.如权利要求6所述的非正常文本识别方法,其特征在于,每一所述键盘分区对应的预设划分标准包括预设的多个所述分布比例阈值,以及分别对应每一所述分布比例阈值的多个平均距离阈值。8.如权利要求6所述的非正常文本识别方法,其特征在于,进一步获取所述待识别文本中数字或符号的分布比例; 并且,根据所述分布比例和所述距离的平均值、 以及所述数字或符号的分布比例,按照各个所述键盘分区分别对应的预设划分标准,将所述待识别文本划分为正常文本或者非正常文本;其中,各个所述键盘分区分别对应的预设划分标准包括预设的分布比例阈值、预设的平均距离阈值、以及预设的数字或符号分布比例。9.如权利要求5至8中任意一项所述的非正常文本识别方法,其特征在于,计算所述待识别文本中每两个相邻的文字所对应的按键在键盘上的距离的步骤包括: 根据所述待识别文本中每两个相邻的文字分别对应的所述按键在键盘上的横向距离和纵向距离,按照以下公式计算加权键盘距离:Dist=X+ α.y 其中,Dist为计算的加权键盘距离,X为横向距离,y为...
【专利技术属性】
技术研发人员:何小晨,张国强,郝志新,许春林,王长伟,
申请(专利权)人:深圳市世纪光速信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。