文本过滤处理方法及装置制造方法及图纸

技术编号:14512566 阅读:63 留言:0更新日期:2017-02-01 10:31
本申请公开了一种文本过滤处理方法及装置。该方法包括:确定待处理文本中所有的常用汉字,其中,待处理文本为中文文本;分别获取待处理文本的长度和待处理文本中常用汉字的长度;计算长度比率,其中,长度比率为待处理文本中常用汉字的长度与待处理文本的长度的比值;判断长度比率是否小于预设比率;以及当长度比率小于预设比率时,对待处理文本进行过滤处理。通过本申请,解决了相关技术中文本过滤后信息完整性低的问题。

【技术实现步骤摘要】

本申请涉及文本过滤处理
,具体而言,涉及一种文本过滤处理方法及装置。
技术介绍
在实际应用中,许多场合需要展示文本,然而文本中往往有很多的词由于解码方式错误导致呈现为不明语义的乱码。现有技术中,通常采用正则表达式去对文本进行过滤,如果文本中含有非汉字的乱码,则将该文本过滤。然而,很多的乱码都被解析为一些很生僻的汉字,如“鬺”,“蠡”等,这些字会被视为汉字,因此该方案无法过滤含有生僻汉字的文本。通常,对含有生僻汉字的文本不进行处理,直接展示该文本,由于该文本含有由乱码解析出的生僻汉字,该方案将导致文本显示的信息不准确。相关技术中,为了提升文本显示信息的准确性,只要发现含有生僻汉字的文本,都将其进行过滤,这会将含有个别生僻汉字但属于可以正确解析的文本过滤掉,继而导致文本信息完整性低的问题。针对相关技术中文本过滤后信息完整性低的问题,目前尚未提出有效的解决方案。
技术实现思路
本申请的主要目的在于提供一种文本过滤处理方法及装置,以解决相关技术中文本过滤后信息完整性低的问题。为了实现上述目的,根据本申请的一个方面,提供了一种文本过滤处理方法。该方法包括:确定待处理文本中所有的常用汉字,其中,待处理文本为中文文本;分别获取待处理文本的长度和待处理文本中常用汉字的长度;计算长度比率,其中,长度比率为待处理文本中常用汉字的长度与待处理文本的长度的比值;判断长度比率是否小于预设比率;以及当长度比率小于预设比率时,对待处理文本进行过滤处理。进一步地,在确定待处理文本中所有的常用汉字之前,该方法还包括:获取正则表达式,其中,正则表达式为预先存储用于对待处理文本中乱码进行过滤的表达式;以及根据正则表达式对文本进行过滤处理,得到待处理文本。进一步地,确定待处理文本中所有的常用汉字包括:分别判断待处理文本中的每个汉字是否在第一预设数据库中存在,其中,第一预设数据库为预先存储有常用汉字的数据库;当待处理文本中的汉字在第一预设数据库中存在时,将待处理文本中在第一预设数据库中存在的汉字作为待处理文本中的常用汉字。进一步地,分别获取待处理文本的长度和待处理文本中常用汉字的长度包括:获取第一起始位置数据和第二起始位置数据,其中,第一起始位置数据为待处理文本的起始位置的数据,第二起始位置数据为待处理文本中所有的常用汉字起始位置的数据;以及获取第一数值和第二数值,其中,第一数值为根据第一起始位置数据计算出偏移量的数值,第二数值为根据第二起始位置数据计算出偏移量的数值;以及将第一数值作为待处理文本的长度,第二数值作为待处理文本中常用汉字的长度。进一步地,该方法还包括:当长度比率大于或等于预设比率时,将待处理文本存储至第二预设数据库,其中,第二预设数据库用于存储过滤后的文本。为了实现上述目的,根据本申请的另一方面,提供了一种中文文本的过滤处理文本过滤处理装置。该装置包括:确定单元,用于确定待处理文本中所有的常用汉字,其中,待处理文本为中文文本;第一获取单元,用于分别获取待处理文本的长度和待处理文本中常用汉字的长度;计算单元,用于计算长度比率,其中,长度比率为待处理文本中常用汉字的长度与待处理文本的长度的比值;判断单元,用于判断长度比率是否小于预设比率;以及第一处理单元,用于当长度比率小于预设比率时,对待处理文本进行过滤处理。进一步地,该装置还包括:第二获取单元,用于获取正则表达式,其中,正则表达式为预先存储用于对待处理文本中乱码进行过滤的表达式;以及第二处理单元,用于根据正则表达式对文本进行过滤处理,得到待处理文本。进一步地,确定单元包括:判断模块,用于分别判断待处理文本中的每个汉字是否在第一预设数据库中存在,其中,第一预设数据库为预先存储有常用汉字的数据库;以及第一确定模块,用于当待处理文本中的汉字在第一预设数据库中存在时,将待处理文本中在第一预设数据库中存在的汉字作为待处理文本中的常用汉字。进一步地,第一获取单元包括:第一获取模块,用于获取第一起始位置数据和第二起始位置数据,其中,第一起始位置数据为待处理文本的起始位置的数据,第二起始位置数据为待处理文本中所有的常用汉字起始位置的数据;第二获取模块,用于获取第一数值和第二数值,其中,第一数值为根据第一起始位置数据计算出偏移量的数值,第二数值为根据第二起始位置数据计算出偏移量的数值;以及第二确定模块,用于将第一数值作为待处理文本的长度,第二数值作为待处理文本中常用汉字的长度。进一步地,该装置还包括:存储单元,用于当长度比率大于或等于预设比率时,将待处理文本存储至第二预设数据库,其中,第二预设数据库用于存储过滤后的文本。本申请通过确定待处理文本中所有的常用汉字;分别获取待处理文本的长度和待处理文本中常用汉字的长度;计算长度比率;判断长度比率是否小于预设比率;以及当长度比率小于预设比率时,对待处理文本进行过滤处理,避免了将只要含有不常用汉字的待处理文本全部过滤掉,提升了文本过滤后信息的完整性。附图说明构成本申请的一部分的附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:图1是根据本申请第一实施例的文本过滤处理方法的流程图;图2是根据本申请第二实施例的文本过滤处理方法的流程图;以及图3是根据本申请实施例的文本过滤处理装置的示意图。具体实施方式需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。为了使本
的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。根据本申请的实施例,提供了一种文本过滤处理方法。图1是根据本申请第一实施例的文本过滤处理方法的流程图。如图1所示,该方法包括如下步骤:步骤S101,确定待处理文本中所有的常用汉字,其中,待处理文本为中文文本。在一些场合下需要展示一系列的中文文本,然而中文文本中往往有很多的词由于解码方式错误导致很多的乱码都被解析为一些生僻的中文汉字,为了显示信息的准确性,需要对一些生僻的中文汉字进行过滤处理,因此,在多个中文文本中确定需要处理的文本,即待处理文本。中文汉字的总数量将近十万,但是日常所使用的汉字只有3000多字,因此,在本申请实施例中将日常所使用的汉字叫做常用汉字。确定待处理文本中所有的常用汉字有多种方式,例如,逐一判断待处理文本中每个汉字是否为日常所使用的汉字,从而确定出待处理的中文文本中所有本文档来自技高网
...

【技术保护点】
一种文本过滤处理方法,其特征在于,包括:确定待处理文本中所有的常用汉字,其中,所述待处理文本为中文文本;分别获取所述待处理文本的长度和待处理文本中常用汉字的长度;计算长度比率,其中,所述长度比率为所述待处理文本中常用汉字的长度与所述待处理文本的长度的比值;判断所述长度比率是否小于预设比率;以及当所述长度比率小于所述预设比率时,对所述待处理文本进行过滤处理。

【技术特征摘要】
1.一种文本过滤处理方法,其特征在于,包括:确定待处理文本中所有的常用汉字,其中,所述待处理文本为中文文本;分别获取所述待处理文本的长度和待处理文本中常用汉字的长度;计算长度比率,其中,所述长度比率为所述待处理文本中常用汉字的长度与所述待处理文本的长度的比值;判断所述长度比率是否小于预设比率;以及当所述长度比率小于所述预设比率时,对所述待处理文本进行过滤处理。2.根据权利要求1所述的方法,其特征在于,在确定待处理文本中所有的常用汉字之前,所述方法还包括:获取正则表达式,其中,所述正则表达式为预先存储用于对所述待处理文本中乱码进行过滤的表达式;以及根据所述正则表达式对文本进行过滤处理,得到所述待处理文本。3.根据权利要求1或2所述的方法,其特征在于,确定待处理文本中所有的常用汉字包括:分别判断所述待处理文本中的每个汉字是否在第一预设数据库中存在,其中,所述第一预设数据库为预先存储有常用汉字的数据库;当所述待处理文本中的汉字在所述第一预设数据库中存在时,将所述待处理文本中在所述第一预设数据库中存在的汉字作为所述待处理文本中的常用汉字。4.根据权利要求1或2所述的方法,其特征在于,分别获取所述待处理文本的长度和待处理文本中常用汉字的长度包括:获取第一起始位置数据和第二起始位置数据,其中,所述第一起始位置数据为所述待处理文本的起始位置的数据,所述第二起始位置数据为所述待处理文本中所有的常用汉字起始位置的数据;获取第一数值和第二数值,其中,所述第一数值为根据所述第一起始位置数据计算出偏移量的数值,所述第二数值为根据所述第二起始位置数据计算出偏移量的数值;以及将所述第一数值作为所述待处理文本的长度,所述第二数值作为所述待处理文本中常用汉字的长度。5.根据权利要求1所述的方法,其特征在于,所述方法还包括:当所述长度比率大于或等于所述预设比率时,将所述待处理文本存储至第二预设数据库,其中,所述第二预设数据库用于存储过滤后的文本。6.一种文本过滤处理装置,其特征在于,包括:确定单元,用于确...

【专利技术属性】
技术研发人员:张鹏霄于大明
申请(专利权)人:北京国双科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1