【技术实现步骤摘要】
确定目标文本的方法和装置、电子设备、计算机可读介质
[0001]本公开涉及数据处理
,具体涉及自然语言处理
,尤其涉及一种确定目标文本的方法和装置、电子设备、计算机可读介质以及计算机程序产品。
技术介绍
[0002]黑产通过发布垃圾信息来达成引流、广告、欺诈等目标,高额收益已经让黑产成为一个庞大的产业链,黑产试图用各种攻击手段来绕过互联网平台内容风控能力。
[0003]垃圾信息的成功发布具有一定的风险和成本,一旦垃圾信息成功躲过风控拦截之后,黑产为了收益最大化,往往会将成功绕过风控的垃圾文本进行大规模发布,这种大规模发布方式包括将完全相同的文本或者通过进行细微扰动(增加、删除、替换)生成相似文本在互联网平台的各个热点板块/话题/帖子下用不同的账号进行发布。这种发布方式给互联网平台风控能力带来了不小的压力。
技术实现思路
[0004]提供了一种确定目标文本的方法和装置、电子设备、计算机可读介质以及计算机程序产品。
[0005]根据第一方面,提供了一种确定目标文本的方法,该方法包括:获取待检测文本;基于预先构建的目标文本向量索引库,对待检测文本进行向量化处理,得到待检文本向量,目标文本向量索引库包括至少一个库文本,库文本通过至少一个目标文本得到;基于待检文本向量,对目标文本向量索引库进行相似文本检索,得到相似文本集;基于待检测文本,对相似文本集进行目标文本检索,得到对应待检测文本的检索结果。
[0006]根据第二方面,提供了一种确定目标文本的装置,该装置包括:获取单元, ...
【技术保护点】
【技术特征摘要】
1.一种确定目标文本的方法,所述方法包括:获取待检测文本;基于预先构建的目标文本向量索引库,对所述待检测文本进行向量化处理,得到待检文本向量,所述目标文本向量索引库包括至少一个库文本,所述库文本通过至少一个目标文本得到;基于所述待检文本向量,对所述目标文本向量索引库进行相似文本检索,得到相似文本集;基于所述待检测文本,对所述相似文本集进行目标文本检索,得到对应所述待检测文本的检索结果。2.根据权利要求1所述的方法,其中,所述目标文本向量索引库还包括:与所述库文本具有对应关系的库文本向量,所述基于预先构建的目标文本向量索引库,对所述待检测文本进行向量化处理,得到待检文本向量包括:对所述待检测文本进行预处理,得到预处理文本;确定预先构建的目标文本向量索引库中各个库文本向量的向量化算法;采用所述向量化算法对所述预处理文本进行向量化处理,得到待检文本向量。3.根据权利要求1所述的方法,其中,所述目标文本向量索引库还包括:与所述库文本具有对应关系的库文本向量、索引号,所述基于所述待检文本向量,对所述目标文本向量索引库进行相似文本检索,得到相似文本集包括:将所述待检文本向量与所述目标文本向量索引库中的各个库文本向量进行相似度比较,确定与所述待检文本向量相似的设定数目个库文本向量的索引号;获取所述目标文本向量索引库中与各个索引号对应的库文本;组合与所述设定数目个索引号对应的所有库文本,得到相似文本集。4.根据权利要求3所述的方法,其中,所述待检文本向量和所述目标文本向量索引库中的各个库文本向量采用哈希算法得到,所述将所述待检文本向量与所述目标文本向量索引库中的各个库文本向量进行相似度比较,确定与所述待检文本向量相似的设定数目个库文本向量的索引号,包括:计算所述待检文本向量与所述目标文本向量索引库中的各个库文本向量之间的汉明距离;基于所述汉明距离,确定所述待检文本向量与所述目标文本向量索引库中的各个库文本向量的相似度;将所有相似度进行由大到小的排序,得到对应文本向量的排序序列;选取并得到所述排序序列中前设定数目个文本向量对应的索引号。5.根据权利要求1所述的方法,其中,所述基于所述待检测文本,对所述相似文本集进行目标文本检索,得到对应所述待检测文本的检索结果包括:计算所述相似文本集中的各个相似文本与所述待检测文本之间的编辑距离;响应于至少一个编辑距离小于设定距离阈值,确定所述待检测文本属于目标文本。6.根据权利要求5所述的方法,其中,所述基于所述待检测文本,对所述相似文本集进行目标文本检索,得到对应所述待检测文本的检索结果还包括:响应于所述相似文本集的各个相似文本与所述待检测文本之间的编辑距离均大于所
述设定距离阈值,将所述相似文本集与所述待检测文本输入语义检测模型,得到所述语义检测模型输出的所述相似文本集与所述待检测文本的语义特征;响应于所述相似文本集中各个相似文本的语义特征与所述待检测文本的语义特征之间的相似度大于设定相似阈值,确定所述待检测文本属于目标文本。7.根据权利要求1
‑
6之一所述的方法,其中,采用以下步骤建立所述目标文本向量索引库:获取目标文本库的目标文本;对所述目标文本进行预处理,得到库文本;采用向量化算法对所述库文本进行向量化处理,得到所述库文本对应的库文本向量;采用开源的向量检索引擎,为所述库文本向量构建向量索引,得到所述目标文本向量索引库中各个库文本向量的索引号。8.一种确定目标文本的装置,所述装置包括:获取单元,被配置成获取待检测文本;处理单元,被配置成基于预先构建的目标文本向量索引库,对所述待检测文本进行向量化处理,得到待检文本向量,所述目标文本向量...
【专利技术属性】
技术研发人员:吕中厚,黄英仁,张华正,王洋,包沉浮,田伟娟,干逸显,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。