文本筛选方法、文本筛选装置及电子设备制造方法及图纸

技术编号:23983689 阅读:11 留言:0更新日期:2020-04-29 12:31
本公开是关于一种文本筛选方法、文本筛选装置、电子设备和计算机可读存储介质。其中文本筛选方法,包括:获取文本,并将文本转换为对应的字符序列;基于字符序列,根据全部字符之间的转移概率,得到文本的平均转移概率;判断平均转移概率是否大于预设阈值;若平均转移概率小于预设阈值,则基于预设白名单,检验字符序列是否存在于白名单中;若字符序列未存在于白名单中,则保存或发送字符序列对应的文本至用户。通过对文本进行转移概率和白名单的检测,从而高效准确的判断文本是否属于垃圾文本,进而对网络中的文字内容进行更好的监管,提高网络用户的体验。

Text filtering method, text filtering device and electronic equipment

【技术实现步骤摘要】
文本筛选方法、文本筛选装置及电子设备
本公开涉及文本处理领域,尤其涉及文本筛选方法、文本筛选装置、电子设备和计算机可读存储介质。
技术介绍
随着互联网发展,网络内容越来越丰富,而对网络内容的监管造成很大难度。传统的文本过滤系统,包含广告文本,色情文本,政治敏感文本,除了以上三类文本之外,在互联网上各种社交平台,购物网站,有很多人为随机输入的垃圾文本,如随意在键盘中敲击的英文字符,也对用户体验造成了严重影响。对互联网针对社区的垃圾内容过滤手段,采用关键词过滤与人工过滤相结合的方式,但无法对垃圾文本进行很好的过滤。
技术实现思路
为克服相关技术中存在的问题,本公开提供一种文本筛选方法、文本筛选装置、电子设备和计算机可读存储介质。根据本公开实施例的第一方面,提供一种文本筛选方法,包括:获取文本,并将文本转换为对应的字符序列;基于字符序列,根据全部字符之间的转移概率,得到文本的平均转移概率;判断平均转移概率是否大于预设阈值;若平均转移概率小于预设阈值,则基于预设白名单,检验字符序列是否存在于白名单中;若字符序列未存在于白名单中,则保存或发送字符序列对应的文本至用户。在一实施例中,基于预设白名单,检验字符序列是否存在于白名单中,通过以下方式检验:预设白名单字典树,判断字符序列是否符合白名单字典树中任一节点信息。在一实施例中,基于字符序列,根据全部字符之间的转移概率,得到文本的平均转移概率,包括:获取多个训练文本;基于训练文本,获取字符之间的转移概率值;基于转移概率值,获取字符序列的全部字符之间的转移概率;基于字符序列的转移概率和字符序列的转移次数,得到平均转移概率。在一实施例中,预设阈值采用以下方式确定:获取正常文本;基于转移概率值,获取正常文本的正常转移概率;基于正常转移概率,确定预设阈值。在一实施例中,预设阈值采用以下方式确定:获取正常文本和异常文本;基于转移概率值,获取正常文本的正常转移概率以及异常文本的异常转移概率;基于正常转移概率以及异常转移概率,确定预设阈值。根据本公开实施例的第二方面,提供一种文本筛选装置,包括:获取单元,用于获取文本,并将文本转换为对应的字符序列;处理单元,用于基于字符序列,根据全部字符之间的转移概率,得到文本的平均转移概率;判断单元,用于判断平均转移概率是否大于预设阈值;白名单检测单元,用于当平均转移概率小于预设阈值时,基于预设白名单,检验字符序列是否存在于白名单中;异常处理单元,用于当字符序列未存在于白名单中时,保存或发送字符序列对应的文本至用户。在一实施例中,白名单检测单元用于:预设白名单字典树,判断字符序列是否符合白名单字典树中任一节点信息。在一实施例中,处理单元用于:获取多个训练文本;基于训练文本,获取字符之间的转移概率值;基于转移概率值,获取字符序列的全部字符之间的转移概率;基于字符序列的转移概率和字符序列的转移次数,得到平均转移概率。在一实施例中,预设阈值采用以下方式确定:获取正常文本;基于转移概率值,获取正常文本的正常转移概率;基于正常转移概率,确定预设阈值。在一实施例中,预设阈值采用以下方式确定:获取正常文本和异常文本;基于转移概率值,获取正常文本的正常转移概率以及异常文本的异常转移概率;基于正常转移概率以及异常转移概率,确定预设阈值。根据本公开实施例的第三方面,提供一种电子设备,包括:存储器,用于存储指令;以及处理器,用于调用存储器存储的指令执行第一方面的文本筛选方法。根据本公开实施例的第四方面,提供一种计算机可读存储介质,存储有指令,指令被处理器执行时,执行第一方面的文本筛选方法。本公开的实施例提供的技术方案可以包括以下有益效果:通过对文本进行转移概率和白名单的检测,从而高效准确的判断文本是否属于垃圾文本,进而对网络中的文字内容进行更好的监管,提高网络用户的体验。应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。附图说明此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本专利技术的实施例,并与说明书一起用于解释本专利技术的原理。图1是根据一示例性实施例示出的一种文本筛选方法的流程示意图;图2是根据一示例性实施例示出的另一种文本筛选方法的流程示意图;图3是根据一示例性实施例示出的一种文本筛选装置的示意框图;图4是根据一示例性实施例示出的一种装置的示意框图。图5是根据一示例性实施例示出的一种电子装置的示意框图。具体实施方式这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本专利技术相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本专利技术的一些方面相一致的装置和方法的例子。目前一些技术中,基于键盘分布识别垃圾文本,该方法根据输入文本的首字母对应按键分布,将文本分为正常文本和非正常文本,该方法依赖于键盘按键的分布情况,但对于键盘布局差异,会影响准确率。同时,随着网络语言快速发展,新生的网络词语越来越多,基于键盘按键分布的识别方法对新生词语会有很大误识别情况。而本公开为解决上述问题,提供一种文本筛选10,参见图1,包括步骤S11-步骤S15,以下详细说明:步骤S11,获取文本,并将文本转换为对应的字符序列。网络监管中,或者其他文字内容的筛查中,将获取到的文本,转换为字符序列,保持字符的顺序和前后关系,方便以字符为元素进行判断,在英文文本中,字符即为单个字母、符号等。步骤S12,基于字符序列,根据全部字符之间的转移概率,得到文本的平均转移概率。在得到文本的字符序列后,得到每个字符的转移概率,及当前字符和下一字符出现的概率,或者说当前字符确定的情况下出现下一字符的概率,其中字符包括文字也包括空格等格式或符号。在得到全部字符之间的转移概率后,进而得到文本的平均转移概率,由于文本长度不同,仅通过转移概率累加的方式获得的文本概率不够准确,因此,可以通过全部字符的转移概率除以转移次数以得到该串字符序列的平均转移概率,以此为判断依据更为准确。并且通过转移概率进行判断,避免了根据键盘位置判断的错误率。在一实施例中,如图2所示,步骤S12还可以包括:步骤S121,获取多个训练文本;步骤S122,基于训练文本,获取字符之间的转移概率值;步骤S123,基于转移概率值,获取字符序列的全部字符之间的转移概率;步骤S124,基于字符序列的转移概率和字符序列的转移次数,得到平均转移概率。预先可以通过一定数量的训练文本,采用马尔可夫链以及统计概率的方式,获取各个字符之间的转移概率值;而后,在对实际文本检测过程中,基于已经确定的各个字符之间的转移概率值,能够得到文本的字符序列中,全部字符之前的转移概率,并再根据字符序列的转移次数再得到该文本的平均转移概率。以一英文语句作为示例,说明上述获得平本文档来自技高网...

【技术保护点】
1.一种文本筛选方法,其特征在于,所述方法包括:/n获取文本,并将所述文本转换为对应的字符序列;/n基于所述字符序列,根据全部所述字符之间的转移概率,得到所述文本的平均转移概率;/n判断所述平均转移概率是否大于预设阈值;/n若所述平均转移概率小于所述预设阈值,则基于预设白名单,检验所述字符序列是否存在于所述白名单中;/n若所述字符序列未存在于所述白名单中,则保存或发送所述字符序列对应的所述文本至用户。/n

【技术特征摘要】
1.一种文本筛选方法,其特征在于,所述方法包括:
获取文本,并将所述文本转换为对应的字符序列;
基于所述字符序列,根据全部所述字符之间的转移概率,得到所述文本的平均转移概率;
判断所述平均转移概率是否大于预设阈值;
若所述平均转移概率小于所述预设阈值,则基于预设白名单,检验所述字符序列是否存在于所述白名单中;
若所述字符序列未存在于所述白名单中,则保存或发送所述字符序列对应的所述文本至用户。


2.根据权利要求1所述的文本筛选方法,其特征在于,所述基于预设白名单,检验所述字符序列是否存在于所述白名单中,通过以下方式检验:
预设白名单字典树,判断所述字符序列是否符合所述白名单字典树中任一节点信息。


3.根据权利要求1所述的文本筛选方法,其特征在于,所述基于所述字符序列,根据全部所述字符之间的转移概率,得到所述文本的平均转移概率,包括:
获取多个训练文本;
基于所述训练文本,获取字符之间的转移概率值;
基于所述转移概率值,获取所述字符序列的全部所述字符之间的转移概率;
基于所述字符序列的转移概率和所述字符序列的转移次数,得到所述平均转移概率。


4.根据权利要求3所述的文本筛选方法,其特征在于,所述预设阈值采用以下方式确定:
获取正常文本;
基于所述转移概率值,获取所述正常文本的正常转移概率;
基于所述正常转移概率,确定所述预设阈值。


5.根据权利要求3所述的文本筛选方法,其特征在于,所述预设阈值采用以下方式确定:
获取正常文本和异常文本;
基于所述转移概率值,获取所述正常文本的正常转移概率以及所述异常文本的异常转移概率;
基于所述正常转移概率以及所述异常转移概率,确定所述预设阈值。


6.一种文本筛选装置,其特征在于,所述装置包括:
获取单元,用于获取文本,并将所述文本转换为对应的字符序列;
处理单元,用于...

【专利技术属性】
技术研发人员:果荣涛王晓红郑钊王宝林
申请(专利权)人:北京小米移动软件有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1