基于命名实体识别的违法广告词检测方法技术

技术编号:31618755 阅读:16 留言:0更新日期:2021-12-29 18:53
本发明专利技术提供基于命名实体识别的违法广告词检测方法,步骤1)将广告数据转化为文本格式,形成广告文本;步骤2)对广告领域进行分类,利用BERT中文预训练模型将广告文本按领域分类;步骤3)对应不同广告领域类别,根据每个广告领域的广告违法行为编码对广告文本按字粒度进行标注形成标注文本;步骤4)将标注文本分为训练集与验证集,将训练集映射到BERT中文预训练模型中获得动态字向量;步骤5)将动态字向量传入BiLSTM双向长短期记忆网络获取得分向量;步骤6)将得分向量传入条件随机场CRF,CRF获取标签之间的关系,对最终预测的标签加以约束,得到最优标签,本发明专利技术通过深层网络BERT+BiLSTM+CRF结构学习违法词特征,达到提取违法词并匹配违法条例的功能。词并匹配违法条例的功能。词并匹配违法条例的功能。

【技术实现步骤摘要】
基于命名实体识别的违法广告词检测方法


[0001]本专利技术属于信息
,具体涉及基于命名实体识别的违法广告词检测方法。

技术介绍

[0002]近年来,随着各产业的飞速发展,广告的宣传方式所占比重越来越大,我国的广告回报率一直在世界范围内名列前茅,所以各大行业更加重视广告宣传。但是伴随着广告增多,违法广告便泛滥起来,某些行业通过虚假广告来夸大产品,会使公众产成误解,从而对消费者造成欺骗甚至伤害。在一些特殊领域,如医疗行业,虚假的宣传信息会让患者对治疗产生错误认知,以至于耽误病情,所以违法广告的检测成为一个棘手的问题。
[0003]目前大部分的违法广告检测是通过相关技术人员进行人工筛选,效率低下,如何实现自动化检测变得尤为迫切。国内外关于自动化违法广告检测的工作很少,这是一个比较新的领域。近年来,随着深度网络的发展,逐渐有些研究提出使用深度网络解决违法检测的问题,但这些研究大多功能都不够完善,对违法广告的后续处理很难起到帮助。此外,对于广告而言,不同领域的广告有着不同的法律规定,所以很难用一种方法完成对所有类型的广告的检测。

技术实现思路

[0004]针对现有技术中的问题,本专利技术提供基于命名实体识别的违法广告词检测方法,基于命名实体识别的思想,通过深层网络BERT+BiLSTM+CRF结构学习违法词特征,达到提取违法词并匹配违法条例的功能。
[0005]为实现上述目的,本专利技术是通过以下技术方案实现的:本专利技术提供基于命名实体识别的违法广告词检测方法,其特殊之处在于:包括以下步骤:步骤1)对广告数据进行预处理,将广告数据转化为文本格式,形成广告文本;步骤2)对广告领域进行分类,利用BERT中文预训练模型将广告文本按领域分类;步骤3)对应步骤2中的不同广告领域类别,根据每个广告领域的广告违法行为编码对广告文本按字粒度进行标注形成标注文本;将广告文本中的违法词当作特殊实体,违法词对应的违法法条即为特殊实体的特征,不同的违法条例对应不同的标签,违法词通过标签实现标注;步骤4)将标注文本分为训练集与验证集,将训练集映射到BERT中文预训练模型中获得动态字向量,字向量是将标注文本的字词转化成用数学表达的向量,动态指BERT中文预训练模型将每个输出的字向量都包含了字向量对应的字词所在文本的上下文语境信息;步骤5)将步骤4的动态字向量传入BiLSTM双向长短期记忆网络,BiLSTM双向长短期记忆网络结合上下文语境信息得到动态字向量对应的违法条例的特征,结合特征输出每个字的得分向量,得分向量是每个字符对应相应标签概率的向量;
步骤6)将步骤5输出的得分向量传入条件随机场CRF,CRF获取标签之间的关系,对最终预测的标签加以约束,得到最优标签。
[0006]进一步的,广告数据包括图片、视频;违法条例对应的标签包括正常标签、违法标签,不涉及违法的字对应正常标签,违法词对应违法标签。
[0007]进一步的,在步骤5中,BiLSTM获取得分向量的计算流程表示为:
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(4)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(5)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(6)式中,为文本长度,为输入的广告文本的第个字,为sigmod激活函数,、、分别为输入门、遗忘门、输出门,为输入权重矩阵、为输入偏置项, 为当前字的输入权重矩阵,为输入门的输入权重矩阵,为遗忘门的输入权重矩阵,输出门的输入权重矩阵,为当前字的输入权偏置项,为输入门的输入偏置项,为遗忘门的输入偏置项,为输出门的输入偏置项,为记忆细胞,为临时细胞状态,为当前细胞状态,为前一个字细胞状态,为字的隐层状态,为前一个字的隐层状态,每个字的输出和到下一个字参与计算,并且将每个字的保存,包含了每个字结合过上下文语境信息后的特征,用于得到得分向量。
[0008]进一步的,在步骤6中,CRF根据训练集{x
i , y
i
}获得状态转移矩阵,状态转移矩阵结合得分向量得到最优的标签,其中x
i
为广告文本中的字,y
i
为x
i
对应的标签。
[0009]进一步的,状态转移矩阵表示为P
ij
,i、j均为自然数且大于等于2,状态转移矩阵中的概率表示为两个标签前后顺序的概率,P
ij
为标签i后面为标签j的概率。
[0010]进一步的,BERT中文预训练模型为BERT模型、BERT

WWM模型、RoBERTa模型中的任一种。
[0011]进一步的,在步骤5中得分向量通过BiLSTM、BiGRU中的任一种进行获取。
[0012]本专利技术与现有技术相比,其有益之处在于:与现有的违法广告检测方法相比,命名实体识别是识别和分类实体的过程,实体一般指人名、地名、时间等,而在此专利技术中将违法词当作特殊的实体,将违法法条当作实体的特征进行识别。不仅能做到对广告的违法识别,也能提取违法广告中的违法词并关联其触犯的违法条例。与现有的违法广告检测的方法相比,本专利技术的违法广告检测功能更加全面,现有的相关方法只能做到简单的违法识别,本方法可进一步的提取违法词并关联违法法条,对违法广告的后续处理和预防提供了便利。
[0013]本专利技术具有以下显著优点:(1)避免了使用同义词替换混淆违法检测:目前成熟的违法广告检测大都使用检索违法广告字典的方法,而字典里的词终归是有限的,有些不法商家就会利用替换同义词来“钻空子”,比如:“某某中医院痊愈有保障”,这句广告中的“痊愈”在医疗广告法律中属于违法范畴,但如果改成“某某中医院安全送你到家”,就可以逃过检测。本专利技术使用的NER的方法是根据语义来判断的,可以有效的避免这种情况。
[0014](2)对广告进行分类避免了不同领域广告违法的错误判断:面对不同领域的广告,都各自有一套不一样的广告规范,比如:医疗服务领域的广告是不允许出现类似“治愈”、“根治”等词语的,而在别的领域是没有这种规定的,所以不能将所有广告一概而论,否则会出现跨领域之间的错误识别,因此判断是否违法之前对广告领域进行分类是需要且必须的工作。
[0015](3)可具体到违法词并匹配具体条例:现有的违法广告检测功能不完善,有些只能笼统地判断一条广告是否违法,有些能提取到违法的关键词但不能具体到违法条例,有些能匹配违法条例却并不能提取关键词。本方法既能提取违法词,也能匹配违法条例,将多项功能进行了结合。
附图说明
[0016]图1为本专利技术的原理流程图。
[0017]图2为BERT+BiLSTM+CRF总本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于命名实体识别的违法广告词检测方法,其特征在于:包括以下步骤:步骤1)对广告数据进行预处理,将广告数据转化为文本格式,形成广告文本;步骤2)对广告领域进行分类,利用BERT中文预训练模型将广告文本按领域分类;步骤3)对应步骤2中的不同广告领域类别,根据每个广告领域的广告违法行为编码对广告文本按字粒度进行标注形成标注文本;将广告文本中的违法词当作特殊实体,违法词对应的违法法条即为特殊实体的特征,不同的违法条例对应不同的标签,违法词通过标签实现标注;步骤4)将标注文本分为训练集与验证集,将训练集映射到BERT中文预训练模型中获得动态字向量,字向量是将标注文本的字词转化成用数学表达的向量,动态指BERT中文预训练模型将每个输出的字向量都包含了字向量对应的字词所在文本的上下文语境信息;步骤5)将步骤4的动态字向量传入BiLSTM双向长短期记忆网络,BiLSTM双向长短期记忆网络结合上下文语境信息得到动态字向量对应的违法条例的特征,结合特征输出每个字的得分向量,得分向量是每个字符对应相应标签概率的向量;步骤6)将步骤5输出的得分向量传入条件随机场CRF,CRF获取标签之间的关系,对最终预测的标签加以约束,得到最优标签。2.如权利要求1所述的基于命名实体识别的违法广告词检测方法,其特征在于:广告数据包括图片、视频;违法条例对应的标签包括正常标签、违法标签,不涉及违法的字对应正常标签,违法词对应违法标签。3.如权利要求1所述的基于命名实体识别的违法广告词检测方法,其特征在于:在步骤5中,BiLSTM获取得分向量的计算流程表示为:
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(4)...

【专利技术属性】
技术研发人员:闫连山袁子博姚涛蒲桂东
申请(专利权)人:西南交通大学烟台新一代信息技术研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1