基于命名实体识别的违法广告词检测方法技术

技术编号：31618755 阅读：16 留言：0更新日期：2021-12-29 18:53

本发明专利技术提供基于命名实体识别的违法广告词检测方法，步骤1）将广告数据转化为文本格式，形成广告文本；步骤2）对广告领域进行分类，利用BERT中文预训练模型将广告文本按领域分类；步骤3）对应不同广告领域类别，根据每个广告领域的广告违法行为编码对广告文本按字粒度进行标注形成标注文本；步骤4）将标注文本分为训练集与验证集，将训练集映射到BERT中文预训练模型中获得动态字向量；步骤5）将动态字向量传入BiLSTM双向长短期记忆网络获取得分向量；步骤6）将得分向量传入条件随机场CRF，CRF获取标签之间的关系，对最终预测的标签加以约束，得到最优标签，本发明专利技术通过深层网络BERT+BiLSTM+CRF结构学习违法词特征，达到提取违法词并匹配违法条例的功能。词并匹配违法条例的功能。词并匹配违法条例的功能。

全部详细技术资料下载

【技术实现步骤摘要】
基于命名实体识别的违法广告词检测方法

[0001]本专利技术属于信息
，具体涉及基于命名实体识别的违法广告词检测方法。

技术介绍

[0002]近年来，随着各产业的飞速发展，广告的宣传方式所占比重越来越大，我国的广告回报率一直在世界范围内名列前茅，所以各大行业更加重视广告宣传。但是伴随着广告增多，违法广告便泛滥起来，某些行业通过虚假广告来夸大产品，会使公众产成误解，从而对消费者造成欺骗甚至伤害。在一些特殊领域，如医疗行业，虚假的宣传信息会让患者对治疗产生错误认知，以至于耽误病情，所以违法广告的检测成为一个棘手的问题。
[0003]目前大部分的违法广告检测是通过相关技术人员进行人工筛选，效率低下，如何实现自动化检测变得尤为迫切。国内外关于自动化违法广告检测的工作很少，这是一个比较新的领域。近年来，随着深度网络的发展，逐渐有些研究提出使用深度网络解决违法检测的问题，但这些研究大多功能都不够完善，对违法广告的后续处理很难起到帮助。此外，对于广告而言，不同领域的广告有着不同的法律规定，所以很难用一种方法完成对所有类型的广告的检测。

技术实现思路

[0004]针对现有技术中的问题，本专利技术提供基于命名实体识别的违法广告词检测方法，基于命名实体识别的思想，通过深层网络BERT+BiLSTM+CRF结构学习违法词特征，达到提取违法词并匹配违法条例的功能。
[0005]为实现上述目的，本专利技术是通过以下技术方案实现的：本专利技术提供基于命名实体识别的违法广告词检测方法，其特殊之处在于：包括以下...

【技术保护点】

【技术特征摘要】
1.基于命名实体识别的违法广告词检测方法，其特征在于：包括以下步骤：步骤1）对广告数据进行预处理，将广告数据转化为文本格式，形成广告文本；步骤2）对广告领域进行分类，利用BERT中文预训练模型将广告文本按领域分类；步骤3）对应步骤2中的不同广告领域类别，根据每个广告领域的广告违法行为编码对广告文本按字粒度进行标注形成标注文本；将广告文本中的违法词当作特殊实体，违法词对应的违法法条即为特殊实体的特征，不同的违法条例对应不同的标签，违法词通过标签实现标注；步骤4）将标注文本分为训练集与验证集，将训练集映射到BERT中文预训练模型中获得动态字向量，字向量是将标注文本的字词转化成用数学表达的向量，动态指BERT中文预训练模型将每个输出的字向量都包含了字向量对应的字词所在文本的上下文语境信息；步骤5）将步骤4的动态字向量传入BiLSTM双向长短期记忆网络，BiLSTM双向长短期记忆网络结合上下文语境信息得到动态字向量对应的违法条例的特征，结合特征输出每个字的得分向量，得分向量是每个字符对应相应标签概率的向量；步骤6）将步骤5输出的得分向量传入条件随机场CRF，CRF获取标签之间的关系，对最终预测的标签加以约束，得到最优标签。2.如权利要求1所述的基于命名实体识别的违法广告词检测方法，其特征在于：广告数据包括图片、视频；违法条例对应的标签包括正常标签、违法标签，不涉及违法的字对应正常标签，违法词对应违法标签。3.如权利要求1所述的基于命名实体识别的违法广告词检测方法，其特征在于：在步骤5中，BiLSTM获取得分向量的计算流程表示为:
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(4)...

【专利技术属性】
技术研发人员：闫连山，袁子博，姚涛，蒲桂东，
申请(专利权)人：西南交通大学烟台新一代信息技术研究院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人