System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于多层Trie和融合embedding的自媒体内容风控方法及系统技术方案_技高网

一种基于多层Trie和融合embedding的自媒体内容风控方法及系统技术方案

技术编号:40966454 阅读:2 留言:0更新日期:2024-04-18 20:46
本发明专利技术属于大数据处理技术领域,具体涉及一种基于多层Trie和融合embedding的自媒体内容风控方法及系统,根据风险等级不同,构建敏感词库;对绝对敏感词库中的词语进行向量转化,并将其融合作为最终的特征向量存储于分布式向量库中;对于潜在风险词库中的每个风险词,建立倒排索引;基于敏感词库构建多层敏感词Trie树;将待检测文本输入多层敏感词Trie树进行完全匹配检测、融合embedding相似度计算、组合检测得到审核结果。本发明专利技术通过划分风险等级,有效避免漏检潜在的违规语句,基于倒排索引对于风险系数中等的潜在风险词进行组合检测,可以大大降低潜在敏感词的误拦截率,从而减少对用户的打扰,极大地提升了用户体验。

【技术实现步骤摘要】

本专利技术属于大数据处理,具体涉及一种基于多层trie和融合embedding的自媒体内容风控方法及系统。


技术介绍

1、近年来,随着互联网及各种新兴业务的飞速发展,内容创作门槛的大幅降低,自媒体行业迎来爆发式增长,微信公众号、微博、头条、百家号等多个自媒体平台快速发展。自媒体时,每天都有海量内容产出,传播海量信息的良莠不齐,增加了舆论生成的复杂性。由于自媒体属于新兴领域,目前尚缺少专业化的内容把关机制,其传播不良信息而造成的乱象日益成为网络社会治理的一大难题。甚至可以说,互联网内容风控已成为整个互联网行业公认的生存之基。近年来,从中央到地方陆续发布多项针对互联网内容治理的措施,如何保证内容的合规和安全,把控内容的风险,避免内容安全事故的发生,是一个巨大的行业挑战。

2、传统的用于内容风控的方法主要有词库匹配、规则引擎、审核模型等。虽然从早期的词库匹配到现阶段的审核模型,准确率已有较高程度的提高。但垃圾内容升级进化速度太快,演变方式多种多样,如在面对复杂字符重组、特殊符号等变体文本时,现有方法常常束手无策。

3、词库匹配多为强匹配,效果完全依赖于构建的敏感词库,且是完全匹配,无法检测出变体文本且维护成本较高。过规则引擎也是一样,需要根据大量的业务经验建立若干正则表达式,但依旧无法跟上违规内容的演变速度。基于审核模型的方法属于黑盒检测,由于中文存在影射、暗喻等写作手法,分类模型对于语义的理解往往不尽如人意。

4、如专利cn114186567a所提出的基于字典树实现敏感词检测的方法,将每个敏感词表示为字典树中的到达一个末端节点的一条存储路径,这种方法只能进行完全匹配,一旦对敏感词进行同音、近音、形近、干扰字符等变化,则无法实现有效检测。如专利cn114510936a,检测文本每个字符的五笔编码与预设的敏感词的每个字符五笔编码之间的字符编辑距离,虽然可用于形近类变形文本检测,但忽略了同音、近音的变形情况,对于变形违规文本的检测率较低。如专利cn108038190a,基于多层字典树进行敏感词过滤,虽将敏感词划分为主敏感词、并列词以及排除词三类,但未考虑到词语组合的有效距离,只要待检测文本中同时包含主敏感词和排除词,且不包含并列词,即使主敏感词和排除词分别在文章首尾,都会对文本进行拦截,误报概率较高,会给用户带来不好的使用体验。


技术实现思路

1、本专利技术的目的在于提供一种基于多层trie和融合embedding的自媒体内容风控方法及系统,依据风险等级划分词库,构建多层敏感词树,根据不同属性标识采取不同检测策略,以解决上述
技术介绍
中提出现有技术中的问题。

2、为实现上述目的,本专利技术采用了如下技术方案:一种基于多层trie和融合embedding的自媒体内容风控方法,包括:根据风险等级不同,构建敏感词库,所述敏感词库包括绝对敏感词库和潜在风险词库;对所述绝对敏感词库中的词语进行向量转化,并将其融合作为最终的特征向量存储于分布式向量库中;对于所述潜在风险词库中的每个风险词,建立倒排索引;基于所述敏感词库构建多层敏感词trie树,所有节点具备两个属性,分别为该词语的风险属性和有效窗口属性;将待检测文本输入所述多层敏感词trie树进行完全匹配检测、融合embedding相似度计算、组合检测得到审核结果。

3、优选地,所述绝对敏感词库由单个词语组成,所述潜在风险词库由两个风险词构成的词语对组成。

4、优选地,所述敏感词库还包括:每个敏感词对应的属性标识,所述属性标识包括风险属性标识和有效区间属性标识;所述风险属性标识用于指示该词语的风险等级,所述特有效区间属性标识用于标识其该词语的最大字字符间隔。

5、优选地,所述多层敏感词trie树中的每个节点表示一个字符,根节点和该根节点的叶子节点之间的节点形成一个敏感词。

6、优选地,所述对所述绝对敏感词库中的词语进行向量转化,并将其融合作为最终的特征向量存储于分布式向量库中,包括:通过深度学习模型对敏感词进行汉字结构化信息的提取,采用无监督的特征提取方法将每个汉字的结构信息处理成低维的特征向量;对所有字对应的低维特征向量求均值的操作,将得到的均值作为该敏感词的词形embedding;对敏感词进行汉字到拼音的转换,得到该敏感词的拼音序列,将拼音序列输入拼音嵌入模型中,获得其对应的拼音embedding;将词形embedding和拼音embedding进行拼接,作为该敏感词的最终embedding,并存储于分布式向量库中。

7、优选地,所述将待检测文本输入所述多层敏感词trie树进行完全匹配检测、融合embedding相似度计算、组合检测得到审核结果,包括:将待检测文本输入所述多层敏感词trie树进行检测;若所述多层敏感词trie树的根节点的风险属性为绝对敏感,获取该根节点的有效窗口属性window_len,输出检测结果一;若所述多层敏感词trie树的根节点的风险属性为潜在风险,获取该根节点的有效窗口属性window_len,输出检测结果二;对所述输出检测结果一和输出检测结果二进行合并,输出最终审核结果。

8、优选地,所述若所述多层敏感词trie树的根节点的风险属性为绝对敏感,获取该根节点的有效窗口属性window_len,包括:当待检测文本中的第i个字符到第i+n个字符完全匹配到多层敏感词trie树的某个敏感词时,标记该段文本包含违规内容;当待检测文本中的第i个字匹配到多层敏感词trie树的某个根节点时,判断文本性质,获取新的待测文本s1;将新的待测文本s1中进行向量转化,作为该敏感词的最终embedding,在分布式向量库中进行检索,计算存储于向量库中的绝对敏感词的embedding的相似度,若相似度高于阈值threshold,表明该段文本为经过变形的违规文本,标记其包含违规内容。

9、优选地,所述若所述多层敏感词trie树的根节点的风险属性为潜在风险,获取该根节点的有效窗口属性window_len,包括:获取该根节点的有效窗口属性window_len;当待检测文本中的第i个字符到第i+n个字符完全匹配到多层敏感词trie树的某个风险词时,记录其在待检测文本中出现的位置;根据检测到的风险词,计算每个风险词组合在倒排索引中出现的总次数,与该风险词组合所含有的风险词的数量做比较,若相等,且两个风险词的位置差,则标记该段文本异常。

10、优选地,所述获取新的待测文本s1,包括:若第i+1到第i+k个字符均为特殊符号,若k>window_len,跳出该分支;若k<window_len,删除第i+1到第i+k个字符中的数字、标点符号、表情符号这几类特殊符号,保留第i+1到第i+k个字符中为拼音的特殊符号,继续往下遍历多层敏感词trie树分支,直至匹配至终止符,此时对应匹配到待检测文本中的第i+n个字符,将处理后的第i个字符到第i+n个字符直接作为新的待测文本s1。

11、另一方面,本专利技术提出一种基于多层trie和融合embedding的自本文档来自技高网...

【技术保护点】

1.一种基于多层Trie和融合embedding的自媒体内容风控方法,其特征在于,包括:

2.根据权利要求1所述的一种基于多层Trie和融合embedding的自媒体内容风控方法,其特征在于,所述绝对敏感词库由单个词语组成,所述潜在风险词库由两个风险词构成的词语对组成。

3.根据权利要求2所述的一种基于多层Trie和融合embedding的自媒体内容风控方法,其特征在于,所述敏感词库还包括:每个敏感词对应的属性标识,所述属性标识包括风险属性标识和有效区间属性标识;

4.根据权利要求1所述的一种基于多层Trie和融合embedding的自媒体内容风控方法,其特征在于,所述多层敏感词Trie树中的每个节点表示一个字符,根节点和该根节点的叶子节点之间的节点形成一个敏感词。

5.根据权利要求4所述的一种基于多层Trie和融合embedding的自媒体内容风控方法,其特征在于,所述对所述绝对敏感词库中的词语进行向量转化,并将其融合作为最终的特征向量存储于分布式向量库中,包括:

6.根据权利要求1所述的一种基于多层Trie和融合embedding的自媒体内容风控方法,其特征在于,所述将待检测文本输入所述多层敏感词Trie树进行完全匹配检测、融合embedding相似度计算、组合检测得到审核结果,包括:

7.根据权利要求6所述的一种基于多层Trie和融合embedding的自媒体内容风控方法,其特征在于,所述若所述多层敏感词Trie树的根节点的风险属性为绝对敏感,获取该根节点的有效窗口属性window_len,包括:

8.根据权利要求7所述的一种基于多层Trie和融合embedding的自媒体内容风控方法,其特征在于,所述若所述多层敏感词Trie树的根节点的风险属性为潜在风险,获取该根节点的有效窗口属性window_len,包括:

9.根据权利要求7所述的一种基于多层Trie和融合embedding的自媒体内容风控方法,其特征在于:所述获取新的待测文本s1,包括:

10.一种基于多层Trie和融合embedding的自媒体内容风控系统,其特征在于,包括:

...

【技术特征摘要】

1.一种基于多层trie和融合embedding的自媒体内容风控方法,其特征在于,包括:

2.根据权利要求1所述的一种基于多层trie和融合embedding的自媒体内容风控方法,其特征在于,所述绝对敏感词库由单个词语组成,所述潜在风险词库由两个风险词构成的词语对组成。

3.根据权利要求2所述的一种基于多层trie和融合embedding的自媒体内容风控方法,其特征在于,所述敏感词库还包括:每个敏感词对应的属性标识,所述属性标识包括风险属性标识和有效区间属性标识;

4.根据权利要求1所述的一种基于多层trie和融合embedding的自媒体内容风控方法,其特征在于,所述多层敏感词trie树中的每个节点表示一个字符,根节点和该根节点的叶子节点之间的节点形成一个敏感词。

5.根据权利要求4所述的一种基于多层trie和融合embedding的自媒体内容风控方法,其特征在于,所述对所述绝对敏感词库中的词语进行向量转化,并将其融合作为最终的特征向量存储于分布式向量库中,包括:

...

【专利技术属性】
技术研发人员:曹梦佳姚凯赵斌范顺国
申请(专利权)人:天翼云科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1