一种基于从文本中检测虚假问题的迁移学习方法技术

技术编号：29087337 阅读：68 留言：0更新日期：2021-06-30 09:52

本发明专利技术属于检测网络虚假信息技术领域，具体涉及一种基于从文本中检测虚假问题的迁移学习方法。包括：数据集采集、数据预处理、模型训练、模型验证评估，所述数据集采集130万个问题文本及其相对应的标签作为训练集；数据预处理运用BertWordPiess标记器通过匹配单词与其内置的词汇表对输入序列进行标记；所述模型训练对BERT,RoBERTa,DistilBERT和ALBERT四种模型进行精细化调整，并使用ADAM优化函数和二进制交叉熵损失函数，将初始学习率设置为1e

全部详细技术资料下载

【技术实现步骤摘要】
一种基于从文本中检测虚假问题的迁移学习方法

[0001]本专利技术属于检测网络虚假信息
，具体涉及一种基于从文本中检测虚假问题的迁移学习方法。

技术介绍

[0002]如今的互联网已经成为日常生活中最重要的信息来源，但是网络上出现的恶意评论和虚假信息的情况也变得日益严重，目前面对互联网中出现的恶意评论和虚假信息的情况，比较直接有效的解决方式是事先发现这些内容，并防止其在网络上传播，之前的技术水平无法实现这一目标，但随着BERT模型在自然语言处理领域的提出，相关方面的迁移学习有望解决这一问题。

技术实现思路

[0003]为了克服现有技术中存在的不足，提供一种在虚假信息进入网络进行传播之前进行有效识别且对虚假信息自主分类基于从文本中检测虚假问题的迁移学习方法
[0004]为了解决上述技术问题，本专利技术采用的技术方案为：
[0005]一种基于从文本中检测虚假问题的迁移学习方法，包括下列步骤；
[0006]S100、数据集采集：采集130万个问题文本及其相对应的标签作为训练集，然后将真诚...

【技术保护点】

【技术特征摘要】
1.一种基于从文本中检测虚假问题的迁移学习方法，其特征在于：包括下列步骤；S100、数据集采集：采集130万个问题文本及其相对应的标签作为训练集，然后将真诚的文本标记为0，虚假的文本标记为1；S200、数据预处理：运用BertWordPiess标记器通过匹配单词与其内置的词汇表对输入序列进行标记，并对单个单词进行分段，直到在词汇表中找不到，并用#完成分段部分；S300、模型训练：对BERT，RoBERTa，DistilBERT和ALBERT四种模型进行精细化调整，并使用ADAM优化函数和二进制交叉熵损失函数，将初始学习率设置为1e
‑
5；S400、模型验证评估：选取AUC评分和F1评分的指标对模型进行验证评估。2.根据权利要求1所述的一种基于从文本中检测虚假问题的迁移学习方法，其特征在于：所述S200数据预处理中，保持每个文本的长度相同，使用192的序列长度，将大于192的序列长度截断，然后将较小的序列长度填充为零，最后对序列进行分块。3.根据权利要求1所述的一种基于从文本中检测虚假问题的迁移学习方法，其特征在于：所述S300模型训练中，运用BERTBase模型和BERTLarge模型两种BERT模型对模型进行从左到右或从右到左的训练，同时使用遮掩语言建模和下文预测两个非监督任务。4.根据权利要求3所述的...

【专利技术属性】
技术研发人员：王小华，令狐彬，焦璐璐，张娜，宋晓晨，
申请(专利权)人：山西三友和智慧信息技术股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人