一种基于典型特征的可解释文本检测方法技术

技术编号:36704703 阅读:10 留言:0更新日期:2023-03-01 09:25
本发明专利技术公开了一种基于典型特征的可解释文本检测方法,其包括:将待检测文本数据输入文本属性提取模型,得到待检测文本的固有属性;所述固有属性包括字词属性、句子属性、段落属性;将所述待检测文本数据输入训练好的语义特征提取模型,得到待检测文本的语义特征;所述语义特征包括夸张、煽动、怀疑、消极、恐慌、中性、积极;将待检测文本的固有属性和多类型语义特征以及所述待检测文本数据输入训练好的文本内容辨识模型,得到文本内容的辨识结果;所述辨识结果为真实的概率值。本发明专利技术能够基于深度学习模型,能够线上实时辨识,降低辨识过程的人工成本;能够对辨识结果进行可解释性分析,做到真伪辨识的有理有据。做到真伪辨识的有理有据。做到真伪辨识的有理有据。

【技术实现步骤摘要】
一种基于典型特征的可解释文本检测方法


[0001]本专利技术涉及文本检测
,特别是一种基于典型特征的可解释文本检测方法。

技术介绍

[0002]随着网络和自媒体技术的不断发展,人类进入了一个知识爆炸的时代,在享受互联网带来的便捷和自媒体带来的愉悦的同时,也遭受着虚假新闻、谣言的很多困扰。
[0003]通常虚假新闻存在很多明显特征,比如主观动词、语气助词相对较多,感叹句、疑问句占比较高,存在夸张、煽动、引诱、疑惑等语义成分等等。但存在这些特征的文本并不能直接代表其是虚假新闻。如何利用这些典型的虚假新闻必要不充分特征,对新闻、谣言等文本进行综合检测,已经成为迫在眉睫的需求。
[0004]当前的文本检测方法存在以下不足:
[0005](1)基于人工的虚假新闻检测方法会消耗大量的人力、物力、财力,辨识一篇文本需要花费大量的时间,难以做到线上实时辨识。
[0006](2)基于人工智能的辨识方法大多采用黑盒分类模型,缺乏对真伪辨识结果的可解释性。
[0007](3)辨识模型尚没有结合文本的语义特征和属性特征,难以准确对文本真伪情况进行综合辨识。
[0008](4)目前基于人工智能的辨识模型需要在大量训练数据下才能达到较好的效果,而行业目前尚缺少这样的优质数据集。

技术实现思路

[0009]针对上述技术问题,本专利技术提供一种基于典型特征的可解释文本检测方法,能够基于深度学习模型,做到线上实时辨识,降低辨识过程的人工成本;能够对辨识结果进行可解释性分析,做到真伪辨识的有理有据;辨识过程不仅考虑了文本字、词、句、段、篇等固有属性,同时考虑了文本内容的语义特征,能够实现文本的多维度综合辨识;辨识结束后,能够对辨识数据进行优质性判断,从而不断积累和扩充辨识模型的训练数据集,通过对辨识模型进行定期或者定量的训练,使模型不断学习和生长,达到越用越准的效果。
[0010]本专利技术公开了一种基于典型特征的可解释文本检测方法,其包括:
[0011]步骤1:将待检测文本数据输入文本属性提取模型,得到待检测文本的固有属性;所述固有属性包括字词属性、句子属性、段落属性;
[0012]步骤2:将所述待检测文本数据输入训练好的语义特征提取模型,得到待检测文本的语义特征;所述语义特征包括夸张、煽动、怀疑、消极、恐慌、中性、积极;
[0013]步骤3:将待检测文本的固有属性和多类型语义特征以及所述待检测文本数据输入训练好的文本内容辨识模型,得到文本内容的辨识结果;所述辨识结果为真实的概率值。
[0014]进一步地,所述字词属性包括问号数量、感叹号数量、主观动词比例、祈使动词比
例、语气助词比例;所述句子属性包括句子数量、最长句子字符总数量、最长句子正面情感词比例、最长句子负面情感词比例、平均句子字符数量;所述段落属性包括段落总数量、最长段落句子数量、最长段落字符数量、最长段落反问句比例、最长段落语法错误句子比例、平均段落句子数量、平均段落字符数量;
[0015]所述步骤1包括:
[0016]步骤11:基于基础词典和统计方法,对待检测文本数据进行字词属性提取,提取文本中的问号数量、感叹号数量,以及主观动词、祈使动词、语气助词占全文总字符数的比例;
[0017]步骤12:以典型句子结束标点符号作为依据对待检测文本数据进行分句,结合统计方法进行相关统计,同时参考字词属性提取结果,进行最长句子正面情感词比例、最长句子负面情感词比例的统计运算;其中,所述相关统计包括句子数量、最长句子字符总数量、平均句子字符数量;所述典型句子结束标点符号包括句号、感叹号、问号;
[0018]步骤13:以典型段落结束标记为依据对待检测文本数据进行段落分割,结合句子属性提取结果,统计段落相关量;其中,所述典型段落结束标记包括换行符;所述段落相关量包括段落总数量、最长段落句子数量、最长段落字符数量、最长段落反问句比例、最长段落语法错误句子比例、平均段落句子数量、平均段落字符数量。
[0019]进一步地,所述文本属性提取模型是基于规则的统计模型,以文本内容为输入,以文本的固有属性为输出;
[0020]所述语义特征提取模型和所述文本内容辨识模型的训练过程为:
[0021]将文本检测训练数据集输入语义特征提取模型,得到文本的语义特征;
[0022]将文本的固有属性和语义特征以及文本检测训练数据集输入所述文本内容辨识模型,得到文本内容辨识结果;
[0023]分别根据语义特征、文本内容辨识结果进行损失值计算及模型参数迭代,然后判断模型收敛性;
[0024]若语义特征提取模型和文本内容辨识模型均收敛,则模型训练结束;否则继续进行模型训练直到两个模型同时收敛。
[0025]进一步地,所述文本检测训练数据集中包含文本内容、语义特征标签、真伪标签,语义特征标签用于训练语义特征提取模型,真伪标签用于训练文本内容辨识模型;每一个检测训练数据对应的语义特征标签为一个m维向量,m为语义特征类别总数量,向量中1表示该条文本数据具有这类语义特征,0表示该条文本数据不具有这类语义特征,向量中允许出现多个1和多个0;其中,所述文本检测训练数据集由文本训练集、文本评估集和文本测试集构成。
[0026]进一步地,所述语义特征提取模型提取语义特征后输出一个m维向量与文本检测训练数据集的语义特征标签y按照如下公式进行损失值计算:
[0027][0028][0029]其中,表示模型输出概率值,y表示标签值,c表示训练样本总数量,m表示语义特征类别总数量,表示语义特征提取模型输出与标签计算得出的交叉熵,L1表示语义
特征提取模型计算的损失值。
[0030]进一步地,计算语义特征提取模型损失值后,通过文本检测评估数据集进行模型收敛性判断,文本检测评估数据集中包含文本内容、语义特征标签、真伪标签,语义特征标签用于评估语义特征提取模型,真伪标签用于评估文本内容辨识模型;语义特征提取模型的收敛性判断方法如下:
[0031]首先通过如下公式计算评估数据的F1值:
[0032][0033][0034][0035]其中,P表示准确率,R表示召回率,F1是P和R的调和平均数,TP表示模型辨识为真且辨识正确的数量,FP表示模型辨识为假且辨识错误的数量,TP+FP表示模型辨识为真的总数量,FN为模型辨识为假且辨识错误的数量,TP+FN表示实际为真的总数量;
[0036]记录每次模型迭代后,文本评估数据集计算的平均F1值,并保存模型;若本次计算的平均F1值高于上次计算结果则更新模型,否则不更新模型;连续进行预设迭代次数的迭代,若迭代模型未更新,则视为模型收敛。
[0037]进一步地,所述文本内容辨识模型与所述语义特征提取模型的收敛性判断方法相同。
[0038]进一步地,每个所述文本检测训练数据中对应的真伪标签为0或1,1表示该文本检测训练数据真实,0表示该文本检测训练数据虚假;所述文本内容辨识模型进行内容辨识后输出文本的真实的概本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于典型特征的可解释文本检测方法,其特征在于,包括:步骤1:将待检测文本数据输入文本属性提取模型,得到待检测文本的固有属性;所述固有属性包括字词属性、句子属性、段落属性;步骤2:将所述待检测文本数据输入训练好的语义特征提取模型,得到待检测文本的语义特征;所述语义特征包括夸张、煽动、怀疑、消极、恐慌、中性、积极;步骤3:将待检测文本的固有属性和多类型语义特征以及所述待检测文本数据输入训练好的文本内容辨识模型,得到文本内容的辨识结果;所述辨识结果为真实的概率值。2.根据权利要求1所述的方法,其特征在于,所述字词属性包括问号数量、感叹号数量、主观动词比例、祈使动词比例、语气助词比例;所述句子属性包括句子数量、最长句子字符总数量、最长句子正面情感词比例、最长句子负面情感词比例、平均句子字符数量;所述段落属性包括段落总数量、最长段落句子数量、最长段落字符数量、最长段落反问句比例、最长段落语法错误句子比例、平均段落句子数量、平均段落字符数量;所述步骤1包括:步骤11:基于基础词典和统计方法,对待检测文本数据进行字词属性提取,提取文本中的问号数量、感叹号数量,以及主观动词、祈使动词、语气助词占全文总字符数的比例;步骤12:以典型句子结束标点符号作为依据对待检测文本数据进行分句,结合统计方法进行相关统计,同时参考字词属性提取结果,进行最长句子正面情感词比例、最长句子负面情感词比例的统计运算;其中,所述相关统计包括句子数量、最长句子字符总数量、平均句子字符数量;所述典型句子结束标点符号包括句号、感叹号、问号;步骤13:以典型段落结束标记为依据对待检测文本数据进行段落分割,结合句子属性提取结果,统计段落相关量;其中,所述典型段落结束标记包括换行符;所述段落相关量包括段落总数量、最长段落句子数量、最长段落字符数量、最长段落反问句比例、最长段落语法错误句子比例、平均段落句子数量、平均段落字符数量。3.根据权利要求2所述的方法,其特征在于,所述文本属性提取模型是基于规则的统计模型,以文本内容为输入,以文本的固有属性为输出;所述语义特征提取模型和所述文本内容辨识模型的训练过程为:将文本检测训练数据集输入语义特征提取模型,得到文本的语义特征;将文本的固有属性和语义特征以及文本检测训练数据集输入所述文本内容辨识模型,得到文本内容辨识结果;分别根据语义特征、文本内容辨识结果进行损失值计算及模型参数迭代,然后判断模型收敛性;若语义特征提取模型和文本内容辨识模型均收敛,则模型训练结束;否则继续进行模型训练直到两个模型同时收敛。4.根据权利要求3所述的方法,其特征在于,所述文本检测训练数据集中包含文本内容、语义特征标签、真伪标签,语义特征标签用于训练语义特征提取模型,真伪标签用于训练文本内容辨识模型;每一个检测训练数据对应的语义特征标签为一个m维向量,m为语义特征类别总数量,向量中1表示该条文本数据具有这类语义特征,0表示该条文本数据不具有这类语义特征,向量中允许...

【专利技术属性】
技术研发人员:代翔高翔陈伟晴崔莹何健军潘磊廖泓舟刘鑫戴礼灿王侃
申请(专利权)人:中国电子科技集团公司第十研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1