文本过滤处理方法及装置制造方法及图纸

技术编号：14512566 阅读：63 留言：0更新日期：2017-02-01 10:31

本申请公开了一种文本过滤处理方法及装置。该方法包括：确定待处理文本中所有的常用汉字，其中，待处理文本为中文文本；分别获取待处理文本的长度和待处理文本中常用汉字的长度；计算长度比率，其中，长度比率为待处理文本中常用汉字的长度与待处理文本的长度的比值；判断长度比率是否小于预设比率；以及当长度比率小于预设比率时，对待处理文本进行过滤处理。通过本申请，解决了相关技术中文本过滤后信息完整性低的问题。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及文本过滤处理
，具体而言，涉及一种文本过滤处理方法及装置。
技术介绍
在实际应用中，许多场合需要展示文本，然而文本中往往有很多的词由于解码方式错误导致呈现为不明语义的乱码。现有技术中，通常采用正则表达式去对文本进行过滤，如果文本中含有非汉字的乱码，则将该文本过滤。然而，很多的乱码都被解析为一些很生僻的汉字，如“鬺”，“蠡”等，这些字会被视为汉字，因此该方案无法过滤含有生僻汉字的文本。通常，对含有生僻汉字的文本不进行处理，直接展示该文本，由于该文本含有由乱码解析出的生僻汉字，该方案将导致文本显示的信息不准确。相关技术中，为了提升文本显示信息的准确性，只要发现含有生僻汉字的文本，都将其进行过滤，这会将含有个别生僻汉字但属于可以正确解析的文本过滤掉，继而导致文本信息完整性低的问题。针对相关技术中文本过滤后信息完整性低的问题，目前尚未提出有效的解决方案。
技术实现思路
本申请的主要目的在于提供一种文本过滤处理方法及装置，以解决相关技术中文本过滤后信息完整性低的问题。为了实现上述目的，根据本申请的一个方面，提供了一种文本过滤处理方法。该方法包括：确定待处理文本中所有的常用汉字，其中，待处理文本为中文文本；分别获取待处理文本的长度和待处理文本中常用汉字的长度；计算长度比率，其中，长度比率为待处理文本中常用汉字的长度与待处理文本的长度的比值；判断长度比率是否小于预设比率；以及当长度比率小于预设比率时，对待处理文本进行过滤处理。进一步地，在确定待处理文本中所有的常用汉字之前，该方法还包括：获取正则表达式，其中，正则表达式为预先存储用于对待处理文本中乱码进行过...

【技术保护点】
一种文本过滤处理方法，其特征在于，包括：确定待处理文本中所有的常用汉字，其中，所述待处理文本为中文文本；分别获取所述待处理文本的长度和待处理文本中常用汉字的长度；计算长度比率，其中，所述长度比率为所述待处理文本中常用汉字的长度与所述待处理文本的长度的比值；判断所述长度比率是否小于预设比率；以及当所述长度比率小于所述预设比率时，对所述待处理文本进行过滤处理。

【技术特征摘要】
1.一种文本过滤处理方法，其特征在于，包括：确定待处理文本中所有的常用汉字，其中，所述待处理文本为中文文本；分别获取所述待处理文本的长度和待处理文本中常用汉字的长度；计算长度比率，其中，所述长度比率为所述待处理文本中常用汉字的长度与所述待处理文本的长度的比值；判断所述长度比率是否小于预设比率；以及当所述长度比率小于所述预设比率时，对所述待处理文本进行过滤处理。2.根据权利要求1所述的方法，其特征在于，在确定待处理文本中所有的常用汉字之前，所述方法还包括：获取正则表达式，其中，所述正则表达式为预先存储用于对所述待处理文本中乱码进行过滤的表达式；以及根据所述正则表达式对文本进行过滤处理，得到所述待处理文本。3.根据权利要求1或2所述的方法，其特征在于，确定待处理文本中所有的常用汉字包括：分别判断所述待处理文本中的每个汉字是否在第一预设数据库中存在，其中，所述第一预设数据库为预先存储有常用汉字的数据库；当所述待处理文本中的汉字在所述第一预设数据库中存在时，将所述待处理文本中在所述第一预设数据库中存在的汉字作为所述待处理文本中的常用汉字。4.根据权利要求1或2所述的方法，其特征在于，分别获取所述待处理文本的长度和待处理文本中常用汉字的长度包括：获取第一起始位置数据和第二起始位置数据，其中，所述第一起始位置数据为所述待处理文本的起始位置的数据，所述第二起始位置数据为所述待处理文本中所有的常用汉字起始位置的数据；获取第一数值和第二数值，其中，所述第一数值为根据所述第一起始位置数据计算出偏移量的数值，所述第二数值为根据所述第二起始位置数据计算出偏移量的数值；以及将所述第一数值作为所述待处理文本的长度，所述第二数值作为所述待处理文本中常用汉字的长度。5.根据权利要求1所述的方法，其特征在于，所述方法还包括：当所述长度比率大于或等于所述预设比率时，将所述待处理文本存储至第二预设数据库，其中，所述第二预设数据库用于存储过滤后的文本。6.一种文本过滤处理装置，其特征在于，包括：确定单元，用于确...

【专利技术属性】
技术研发人员：张鹏霄，于大明，
申请(专利权)人：北京国双科技有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人