确定目标文本的方法和装置、电子设备、计算机可读介质制造方法及图纸

技术编号:35147014 阅读:20 留言:0更新日期:2022-10-05 10:24
本公开提供了一种确定目标文本的方法和装置,涉及自然语言处理技术领域。具体实现方案为:获取待检测文本;基于预先构建的目标文本向量索引库,对待检测文本进行向量化处理,得到待检文本向量,目标文本向量索引库包括至少一个库文本,库文本通过至少一个目标文本得到;基于待检文本向量,对目标文本向量索引库进行相似文本检索,得到相似文本集,相似文本集包括至少一个相似文本;基于待检测文本,对相似文本集进行目标文本检索,得到对应待检测文本的检索结果。该实施方式提高了目标文本的检测效率。检测效率。检测效率。

【技术实现步骤摘要】
确定目标文本的方法和装置、电子设备、计算机可读介质


[0001]本公开涉及数据处理
,具体涉及自然语言处理
,尤其涉及一种确定目标文本的方法和装置、电子设备、计算机可读介质以及计算机程序产品。

技术介绍

[0002]黑产通过发布垃圾信息来达成引流、广告、欺诈等目标,高额收益已经让黑产成为一个庞大的产业链,黑产试图用各种攻击手段来绕过互联网平台内容风控能力。
[0003]垃圾信息的成功发布具有一定的风险和成本,一旦垃圾信息成功躲过风控拦截之后,黑产为了收益最大化,往往会将成功绕过风控的垃圾文本进行大规模发布,这种大规模发布方式包括将完全相同的文本或者通过进行细微扰动(增加、删除、替换)生成相似文本在互联网平台的各个热点板块/话题/帖子下用不同的账号进行发布。这种发布方式给互联网平台风控能力带来了不小的压力。

技术实现思路

[0004]提供了一种确定目标文本的方法和装置、电子设备、计算机可读介质以及计算机程序产品。
[0005]根据第一方面,提供了一种确定目标文本的方法,该方法包括:获取待检测文本;基于预先构建的目标文本向量索引库,对待检测文本进行向量化处理,得到待检文本向量,目标文本向量索引库包括至少一个库文本,库文本通过至少一个目标文本得到;基于待检文本向量,对目标文本向量索引库进行相似文本检索,得到相似文本集;基于待检测文本,对相似文本集进行目标文本检索,得到对应待检测文本的检索结果。
[0006]根据第二方面,提供了一种确定目标文本的装置,该装置包括:获取单元,被配置成获取待检测文本;处理单元,被配置成基于预先构建的目标文本向量索引库,对待检测文本进行向量化处理,得到待检文本向量,目标文本向量索引库包括至少一个库文本,库文本通过至少一个目标文本得到;相似检索单元,被配置成基于待检文本向量,对目标文本向量索引库进行相似文本检索,得到相似文本集;结果检测单元,被配置成基于待检测文本,对相似文本集进行目标文本检索,得到对应待检测文本的检索结果。
[0007]根据第三方面,提供了一种电子设备,该电子设备包括:至少一个处理器;以及与至少一个处理器通信连接的存储器,其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行如第一方面任一实现方式描述的方法。
[0008]根据第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,计算机指令用于使计算机执行如第一方面任一实现方式描述的方法。
[0009]根据第五方面,提供了一种计算机程序产品,包括计算机程序,计算机程序在被处理器执行时实现如第一方面任一实现方式描述的方法。
[0010]本公开的实施例提供的确定目标文本的方法和装置,首先,获取待检测文本;其
次,基于预先构建的目标文本向量索引库,对待检测文本进行向量化处理,得到待检文本向量,目标文本向量索引库用于表征索引号、库文本以及库文本向量之间的对应关系,库文本通过至少一个目标文本得到;再次,基于待检文本向量,对目标文本向量索引库进行相似文本检索,得到相似文本集,相似文本集包括至少一个相似文本,相似文本是与待检文本相似的库文本;最后,基于待检测文本,对相似文本集进行目标文本检索,得到对应待检测文本的检索结果。由此,通过待检文本向量在预先构建的目标文本向量索引库中检索相似文本集,大大缩小了查询库文本与待检测文本之间的查询时间,实现了超大规模文本库的快速检索;通过对相似文本集的目标文本检索,可以准确地检索到与待检测文本相似的目标文本,从而快速地确定待检测文本是否为目标文本,提升了目标文本检测的准确性。
[0011]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0012]附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0013]图1是根据本公开确定目标文本的方法的一个实施例的流程图;
[0014]图2是根据本公开确定目标文本的方法中查库的一种结构示意图;
[0015]图3是根据本公开建立目标文本向量索引库的方法的一种实施例的流程图;
[0016]图4是根据本公开确定目标文本的装置的一个实施例的结构示意图;
[0017]图5是用来实现本公开实施例的确定目标文本的方法的电子设备的框图。
具体实施方式
[0018]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0019]本实施例中,“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。
[0020]黑产为了将收益最大化,通常会生成一些字面相似的、能绕过反垃圾检测方法的批量文本,这些字面相似的大规模垃圾文本通过发帖机器伪装成不同用户在互联网平台各个角落进行发布。
[0021]字面相似是指这些文本从字面上较相似,例如,字面相似文本集A:1.w每天4新人多8多,工作室安排+q;2.k每天a新人多y多,工作室安排+q;3.s每天b新人多3多,工作室安排+q;4.w每天c新人多t多,工作室安排+q;5.f每天a新人多h多,工作室安排+q。字面相似文本集A中的不同文本是在原始文本“每个新人多多,工作室安排+q”中添加了不同的数字和字母;字面相似文本集B:“1.两小无嫌猜,
各类小程序;2.蟾蜍蚀圆影,
各类小程序”。字面相似文本集B是在原始文本“
各类小程序”前增加了不同的诗句;字面相似文本集C:“1.不骗,不坑,长期可坐,很随便,又自由,最低保底日200+最稳方法,想了解的dd;2.不骗,不坑,长期可坐,很随便,又自由,最低保底日三柏+最稳方法,想了解的dd;3.不骗,不坑,长期
可坐,很随便,又自由,最低保底日两百+最稳方法,想了解的dd”。字面相似文本集C是原始文本“不骗,不坑,长期可坐,很随便,又自由,最低保底日xxx+最稳方法,想了解的dd”中“xxx”替换成不同的数字“200”、“三柏”和“两百”。从而字面相似的机器文本质上是对原始文本随机增加、替换、甚至删除某些字符。
[0022]这些字面相似的文本,会在一段时间内持续、大规模发布在平台的各个角落,模型由于鲁棒性问题可能只能召回其中的部分文本从而进行拦截,其中的大部分字面相似文本可能会被模型遗漏从而在线上展示,垃圾文本的暴露会影响线上用户体验、甚至会造成严重的监管风险。
[0023]现有反垃圾文本方法一般采用词表、规则和模型三种类型,但是它们具有明显的缺陷:
[0024]词表是反垃圾文本常用的手段,能够将包本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种确定目标文本的方法,所述方法包括:获取待检测文本;基于预先构建的目标文本向量索引库,对所述待检测文本进行向量化处理,得到待检文本向量,所述目标文本向量索引库包括至少一个库文本,所述库文本通过至少一个目标文本得到;基于所述待检文本向量,对所述目标文本向量索引库进行相似文本检索,得到相似文本集;基于所述待检测文本,对所述相似文本集进行目标文本检索,得到对应所述待检测文本的检索结果。2.根据权利要求1所述的方法,其中,所述目标文本向量索引库还包括:与所述库文本具有对应关系的库文本向量,所述基于预先构建的目标文本向量索引库,对所述待检测文本进行向量化处理,得到待检文本向量包括:对所述待检测文本进行预处理,得到预处理文本;确定预先构建的目标文本向量索引库中各个库文本向量的向量化算法;采用所述向量化算法对所述预处理文本进行向量化处理,得到待检文本向量。3.根据权利要求1所述的方法,其中,所述目标文本向量索引库还包括:与所述库文本具有对应关系的库文本向量、索引号,所述基于所述待检文本向量,对所述目标文本向量索引库进行相似文本检索,得到相似文本集包括:将所述待检文本向量与所述目标文本向量索引库中的各个库文本向量进行相似度比较,确定与所述待检文本向量相似的设定数目个库文本向量的索引号;获取所述目标文本向量索引库中与各个索引号对应的库文本;组合与所述设定数目个索引号对应的所有库文本,得到相似文本集。4.根据权利要求3所述的方法,其中,所述待检文本向量和所述目标文本向量索引库中的各个库文本向量采用哈希算法得到,所述将所述待检文本向量与所述目标文本向量索引库中的各个库文本向量进行相似度比较,确定与所述待检文本向量相似的设定数目个库文本向量的索引号,包括:计算所述待检文本向量与所述目标文本向量索引库中的各个库文本向量之间的汉明距离;基于所述汉明距离,确定所述待检文本向量与所述目标文本向量索引库中的各个库文本向量的相似度;将所有相似度进行由大到小的排序,得到对应文本向量的排序序列;选取并得到所述排序序列中前设定数目个文本向量对应的索引号。5.根据权利要求1所述的方法,其中,所述基于所述待检测文本,对所述相似文本集进行目标文本检索,得到对应所述待检测文本的检索结果包括:计算所述相似文本集中的各个相似文本与所述待检测文本之间的编辑距离;响应于至少一个编辑距离小于设定距离阈值,确定所述待检测文本属于目标文本。6.根据权利要求5所述的方法,其中,所述基于所述待检测文本,对所述相似文本集进行目标文本检索,得到对应所述待检测文本的检索结果还包括:响应于所述相似文本集的各个相似文本与所述待检测文本之间的编辑距离均大于所
述设定距离阈值,将所述相似文本集与所述待检测文本输入语义检测模型,得到所述语义检测模型输出的所述相似文本集与所述待检测文本的语义特征;响应于所述相似文本集中各个相似文本的语义特征与所述待检测文本的语义特征之间的相似度大于设定相似阈值,确定所述待检测文本属于目标文本。7.根据权利要求1

6之一所述的方法,其中,采用以下步骤建立所述目标文本向量索引库:获取目标文本库的目标文本;对所述目标文本进行预处理,得到库文本;采用向量化算法对所述库文本进行向量化处理,得到所述库文本对应的库文本向量;采用开源的向量检索引擎,为所述库文本向量构建向量索引,得到所述目标文本向量索引库中各个库文本向量的索引号。8.一种确定目标文本的装置,所述装置包括:获取单元,被配置成获取待检测文本;处理单元,被配置成基于预先构建的目标文本向量索引库,对所述待检测文本进行向量化处理,得到待检文本向量,所述目标文本向量...

【专利技术属性】
技术研发人员:吕中厚黄英仁张华正王洋包沉浮田伟娟干逸显
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1