文本处理方法、装置、电子设备及计算机可读存储介质制造方法及图纸

技术编号:34528945 阅读:19 留言:0更新日期:2022-08-13 21:20
本公开关于一种文本处理方法、装置、电子设备、计算机可读存储介质以及计算机程序产品,方法通过获取待审核文本和预设关键词,采用预设关键词对待审核文本进行关键词匹配,得到关键词匹配结果,并从待审核文本的最后字符对应的索引开始往前遍历待审核文本,当关键词匹配结果中存在与遍历索引匹配的目标索引时,获取与目标索引对应的关键词作为目标关键词,将获取的目标关键词存储在第一栈,将与获取的目标关键词数量相同的目标索引存储在第二栈,最后根据当前遍历待审核文本的遍历索引、第一栈以及第二栈对待审核文本中的目标关键词配置显示样式。由于本实施例采用栈概念对待审核文本中匹配的关键词进行样式替换,从而提高了处理的准确性。处理的准确性。处理的准确性。

【技术实现步骤摘要】
文本处理方法、装置、电子设备及计算机可读存储介质


[0001]本公开涉及计算机
,尤其涉及一种文本处理方法、装置、电子设备、计算机可读存储介质以及计算机程序产品。

技术介绍

[0002]随着计算机技术的发展,人们通过网络平台发布信息进行信息交流已逐渐成为常态。通常,为了提高网络平台中发布信息的质量,避免不良信息在网络平台中传播,网络平台会安排审核人员对用户发布的信息进行审核,以打击不良信息,筛选优质内容。
[0003]相关技术中,审核员通过浏览器(Chrome)访问审核系统,对待审文本进行审核。为了辅助审核员对海量信息进行快速审核判断,一般采用正则表达式匹配或暴力匹配的方式对待审文本中的敏感词或关键词进行匹配,并通过浏览器插件配置文本中匹配的敏感词或关键词的颜色,使得浏览器对页面文本中的敏感词或关键词进行高亮显示,从而方便审核员对文本信息进行快速和准确的判断。
[0004]然而,无论是正则表达式匹配还是暴力匹配的方式均存在指数级别的耗时,且当不同的敏感词或关键词之间存在包含关系时,难以准确地对所有匹配的敏感词或关键词进行样式处理,从而导致影响敏感词或关键词的匹配性能和处理的准确性。

技术实现思路

[0005]本公开提供一种文本处理方法、装置、电子设备、计算机可读存储介质以及计算机程序产品,以至少解决相关技术中关键词匹配的准确性问题。本公开的技术方案如下:
[0006]根据本公开实施例的第一方面,提供一种文本处理方法,包括:
[0007]获取待审核文本和预设关键词;
[0008]采用所述预设关键词对所述待审核文本进行关键词匹配,得到关键词匹配结果,所述关键词匹配结果包括匹配的关键词以及所述关键词的最后字符对应的索引,所述索引用于表征所述字符位于所述待审核文本中的位置;
[0009]从所述待审核文本的最后字符对应的索引开始往前遍历所述待审核文本,当所述关键词匹配结果中存在与遍历字符对应的索引匹配的目标索引时,获取与所述目标索引对应的所述关键词作为目标关键词;
[0010]将获取的所述目标关键词存储在第一栈,将与获取的所述目标关键词数量相同的所述目标索引存储在第二栈;
[0011]根据当前遍历所述待审核文本的遍历索引、所述第一栈以及所述第二栈对所述待审核文本中的所述目标关键词配置显示样式,得到配置显示样式后的待审核文本,所述遍历索引为当前遍历所述待审核文本的所述遍历字符所对应的索引。
[0012]在其中一个实施例中,所述根据当前遍历所述待审核文本的遍历索引、所述第一栈以及所述第二栈对所述待审核文本中的所述目标关键词配置显示样式,得到配置显示样式后的待审核文本,包括:获取所述第一栈栈顶位置对应的所述目标关键词的最后一个字
符,将所述最后一个字符和预设的超文本样式标签结束符拼接到拼接字符串之前,拼接的所述超文本样式标签结束符的数量与栈顶位置的所述目标关键词所对应的所述目标索引的数量相同;当根据当前遍历的所述遍历索引、所述第二栈栈顶位置的所述目标索引以及所述第一栈栈顶位置的所述目标关键词的字符长度,确定所述第一栈栈顶位置的所述目标关键词需要出栈时,对所述第一栈栈顶位置的所述目标关键词以及所述第二栈栈顶位置的所述目标索引进行出栈处理,并在所述拼接字符串之前拼接预设的超文本样式标签开始符;返回执行所述往前遍历所述待审核文本的步骤,直到遍历完所述待审核文本的首字符对应的索引,得到目标拼接字符串,将所述目标拼接字符串确定为配置显示样式后的待审核文本。
[0013]在其中一个实施例中,所述方法还包括:当所述关键词匹配结果中不存在与所述遍历字符对应的索引匹配的目标索引时,将所述遍历字符拼接到所述拼接字符串之前;返回执行当根据当前遍历的所述遍历索引、所述第二栈栈顶位置的所述目标索引以及所述第一栈栈顶位置的所述目标关键词的字符长度,确定所述第一栈栈顶位置的所述目标关键词需要出栈时,对所述第一栈栈顶位置的所述目标关键词以及所述第二栈栈顶位置的所述目标索引进行出栈处理的步骤。
[0014]在其中一个实施例中,所述方法还包括:当确定所述第一栈栈顶位置的所述目标关键词不需要出栈时,返回执行所述往前遍历所述待审核文本的步骤。
[0015]在其中一个实施例中,所述根据当前遍历的所述遍历索引、所述第二栈栈顶位置的所述目标索引以及所述第一栈栈顶位置的所述目标关键词的字符长度,确定所述第一栈栈顶位置的所述目标关键词需要出栈,包括:获取所述遍历索引至所述第二栈栈顶位置的所述目标索引之间的字符数;当所述字符数与所述第一栈栈顶位置的所述目标关键词的字符长度相同时,确定所述第一栈栈顶位置的所述目标关键词需要出栈。
[0016]在其中一个实施例中,所述获取所述遍历索引至所述第二栈栈顶位置的所述目标索引之间的字符数之后,所述方法还包括:当所述字符数小于所述第一栈栈顶位置的所述目标关键词的字符长度时,确定所述第一栈栈顶位置的所述目标关键词不需要出栈。
[0017]在其中一个实施例中,所述获取所述遍历索引至所述第二栈栈顶位置的所述目标索引之间的字符数,包括:获取所述第二栈栈顶位置的所述目标索引与所述遍历索引之间的差值,将所述差值与1的和作为所述遍历索引至所述第二栈栈顶位置的所述目标索引之间的字符数。
[0018]在其中一个实施例中,所述采用所述预设关键词对所述待审核文本进行关键词匹配,包括:采用所述预设关键词通过多模式匹配算法对所述待审核文本进行关键词匹配。
[0019]在其中一个实施例中,所述将获取的所述目标关键词存储在第一栈,包括:当获取的与所述目标索引对应的目标关键词存在多个时,获取多个所述目标关键词分别对应的字符长度;根据所述字符长度从大到小对多个所述目标关键词进行排序,将排序后的多个所述目标关键词依次存储到所述第一栈。
[0020]根据本公开实施例的第二方面,提供一种文本处理装置,包括:
[0021]数据获取模块,被配置为执行获取待审核文本和预设关键词;
[0022]关键词匹配模块,被配置为执行采用所述预设关键词对所述待审核文本进行关键词匹配,得到关键词匹配结果,所述关键词匹配结果包括匹配的关键词以及所述关键词的
最后字符对应的索引,所述索引用于表征所述字符位于所述待审核文本中的位置;
[0023]遍历模块,被配置为执行从所述待审核文本的最后字符对应的索引开始往前遍历所述待审核文本,当所述关键词匹配结果中存在与遍历字符对应的索引匹配的目标索引时,获取与所述目标索引对应的所述关键词作为目标关键词;
[0024]栈处理模块,被配置为执行将获取的所述目标关键词存储在第一栈,将与获取的所述目标关键词数量相同的所述目标索引存储在第二栈;
[0025]文本处理模块,被配置为执行根据当前遍历所述待审核文本的遍历索引、所述第一栈以及所述第二栈对所述待审核文本中的所述目标关键词配置显示样式,得到配置显示样式后的待审核文本,所述遍历索引为当前遍历所述待审核文本的所述遍历字符所对应的索引。
[0026]本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本处理方法,其特征在于,所述方法包括:获取待审核文本和预设关键词;采用所述预设关键词对所述待审核文本进行关键词匹配,得到关键词匹配结果,所述关键词匹配结果包括匹配的关键词以及所述关键词的最后字符对应的索引,所述索引用于表征所述字符位于所述待审核文本中的位置;从所述待审核文本的最后字符对应的索引开始往前遍历所述待审核文本,当所述关键词匹配结果中存在与遍历字符对应的索引匹配的目标索引时,获取与所述目标索引对应的所述关键词作为目标关键词;将获取的所述目标关键词存储在第一栈,将与获取的所述目标关键词数量相同的所述目标索引存储在第二栈;根据当前遍历所述待审核文本的遍历索引、所述第一栈以及所述第二栈对所述待审核文本中的所述目标关键词配置显示样式,得到配置显示样式后的待审核文本,所述遍历索引为当前遍历所述待审核文本的所述遍历字符所对应的索引。2.根据权利要求1所述的方法,其特征在于,所述根据当前遍历所述待审核文本的遍历索引、所述第一栈以及所述第二栈对所述待审核文本中的所述目标关键词配置显示样式,得到配置显示样式后的待审核文本,包括:获取所述第一栈栈顶位置对应的所述目标关键词的最后一个字符,将所述最后一个字符和预设的超文本样式标签结束符拼接到拼接字符串之前,拼接的所述超文本样式标签结束符的数量与栈顶位置的所述目标关键词所对应的所述目标索引的数量相同;当根据当前遍历的所述遍历索引、所述第二栈栈顶位置的所述目标索引以及所述第一栈栈顶位置的所述目标关键词的字符长度,确定所述第一栈栈顶位置的所述目标关键词需要出栈时,对所述第一栈栈顶位置的所述目标关键词以及所述第二栈栈顶位置的所述目标索引进行出栈处理,并在所述拼接字符串之前拼接预设的超文本样式标签开始符;返回执行所述往前遍历所述待审核文本的步骤,直到遍历完所述待审核文本的首字符对应的索引,得到目标拼接字符串,将所述目标拼接字符串确定为配置显示样式后的待审核文本。3.根据权利要求2所述的方法,其特征在于,所述方法还包括:当所述关键词匹配结果中不存在与所述遍历字符对应的索引匹配的目标索引时,将所述遍历字符拼接到所述拼接字符串之前;返回执行当根据当前遍历的所述遍历索引、所述第二栈栈顶位置的所述目标索引以及所述第一栈栈顶位置的所述目标关键词的字符长度,确定所述第一栈栈顶位置的所述目标关键词需要出栈时,对所述第一栈栈顶位置的所述目标关键词以及所述第二栈栈顶位置的所述目标索引进行出栈处理的步骤。4.根据权利要求3所述的方法,其特征在于,所述方法还包括:当确定所述第...

【专利技术属性】
技术研发人员:王富康
申请(专利权)人:北京达佳互联信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1