【技术实现步骤摘要】
一种基于典型特征的可解释文本检测方法
[0001]本专利技术涉及文本检测
,特别是一种基于典型特征的可解释文本检测方法。
技术介绍
[0002]随着网络和自媒体技术的不断发展,人类进入了一个知识爆炸的时代,在享受互联网带来的便捷和自媒体带来的愉悦的同时,也遭受着虚假新闻、谣言的很多困扰。
[0003]通常虚假新闻存在很多明显特征,比如主观动词、语气助词相对较多,感叹句、疑问句占比较高,存在夸张、煽动、引诱、疑惑等语义成分等等。但存在这些特征的文本并不能直接代表其是虚假新闻。如何利用这些典型的虚假新闻必要不充分特征,对新闻、谣言等文本进行综合检测,已经成为迫在眉睫的需求。
[0004]当前的文本检测方法存在以下不足:
[0005](1)基于人工的虚假新闻检测方法会消耗大量的人力、物力、财力,辨识一篇文本需要花费大量的时间,难以做到线上实时辨识。
[0006](2)基于人工智能的辨识方法大多采用黑盒分类模型,缺乏对真伪辨识结果的可解释性。
[0007](3)辨识模型尚没有结合文本的语义特征和属性特征,难以准确对文本真伪情况进行综合辨识。
[0008](4)目前基于人工智能的辨识模型需要在大量训练数据下才能达到较好的效果,而行业目前尚缺少这样的优质数据集。
技术实现思路
[0009]针对上述技术问题,本专利技术提供一种基于典型特征的可解释文本检测方法,能够基于深度学习模型,做到线上实时辨识,降低辨识过程的人工成本;能够对辨识结果进行可解释性分析,做到真伪 ...
【技术保护点】
【技术特征摘要】
1.一种基于典型特征的可解释文本检测方法,其特征在于,包括:步骤1:将待检测文本数据输入文本属性提取模型,得到待检测文本的固有属性;所述固有属性包括字词属性、句子属性、段落属性;步骤2:将所述待检测文本数据输入训练好的语义特征提取模型,得到待检测文本的语义特征;所述语义特征包括夸张、煽动、怀疑、消极、恐慌、中性、积极;步骤3:将待检测文本的固有属性和多类型语义特征以及所述待检测文本数据输入训练好的文本内容辨识模型,得到文本内容的辨识结果;所述辨识结果为真实的概率值。2.根据权利要求1所述的方法,其特征在于,所述字词属性包括问号数量、感叹号数量、主观动词比例、祈使动词比例、语气助词比例;所述句子属性包括句子数量、最长句子字符总数量、最长句子正面情感词比例、最长句子负面情感词比例、平均句子字符数量;所述段落属性包括段落总数量、最长段落句子数量、最长段落字符数量、最长段落反问句比例、最长段落语法错误句子比例、平均段落句子数量、平均段落字符数量;所述步骤1包括:步骤11:基于基础词典和统计方法,对待检测文本数据进行字词属性提取,提取文本中的问号数量、感叹号数量,以及主观动词、祈使动词、语气助词占全文总字符数的比例;步骤12:以典型句子结束标点符号作为依据对待检测文本数据进行分句,结合统计方法进行相关统计,同时参考字词属性提取结果,进行最长句子正面情感词比例、最长句子负面情感词比例的统计运算;其中,所述相关统计包括句子数量、最长句子字符总数量、平均句子字符数量;所述典型句子结束标点符号包括句号、感叹号、问号;步骤13:以典型段落结束标记为依据对待检测文本数据进行段落分割,结合句子属性提取结果,统计段落相关量;其中,所述典型段落结束标记包括换行符;所述段落相关量包括段落总数量、最长段落句子数量、最长段落字符数量、最长段落反问句比例、最长段落语法错误句子比例、平均段落句子数量、平均段落字符数量。3.根据权利要求2所述的方法,其特征在于,所述文本属性提取模型是基于规则的统计模型,以文本内容为输入,以文本的固有属性为输出;所述语义特征提取模型和所述文本内容辨识模型的训练过程为:将文本检测训练数据集输入语义特征提取模型,得到文本的语义特征;将文本的固有属性和语义特征以及文本检测训练数据集输入所述文本内容辨识模型,得到文本内容辨识结果;分别根据语义特征、文本内容辨识结果进行损失值计算及模型参数迭代,然后判断模型收敛性;若语义特征提取模型和文本内容辨识模型均收敛,则模型训练结束;否则继续进行模型训练直到两个模型同时收敛。4.根据权利要求3所述的方法,其特征在于,所述文本检测训练数据集中包含文本内容、语义特征标签、真伪标签,语义特征标签用于训练语义特征提取模型,真伪标签用于训练文本内容辨识模型;每一个检测训练数据对应的语义特征标签为一个m维向量,m为语义特征类别总数量,向量中1表示该条文本数据具有这类语义特征,0表示该条文本数据不具有这类语义特征,向量中允许...
【专利技术属性】
技术研发人员:代翔,高翔,陈伟晴,崔莹,何健军,潘磊,廖泓舟,刘鑫,戴礼灿,王侃,
申请(专利权)人:中国电子科技集团公司第十研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。