一种基于RoBERTa模型的长文本信息立场检测方法技术

技术编号：35266067 阅读：23 留言：0更新日期：2022-10-19 10:28

本发明专利技术公开了一种基于RoBERTa模型的长文本信息立场检测方法。本发明专利技术在长文本信息立场检测任务中引入基于文本切割的RoBERTa模型，用于编码各索引片段；引入BiLSTM和CRF模块，用于标记关键证据；引入基于Self

全部详细技术资料下载

【技术实现步骤摘要】
一种基于RoBERTa模型的长文本信息立场检测方法

[0001]本专利技术涉及深度学习和自然语言处理领域，具体涉及一种基于RoBERTa模型的长文本信息立场检测方法。

技术介绍

[0002]移动互联网与社交媒体的快速发展，为信息传播创造了良好环境。一方面，新闻的生产与传播门槛大大降低，使传播途径多元化、内容多样化，人们能获取的信息更加丰富；另一方面，自媒体的崛起使新闻质量良莠不齐，各种博人眼球的假新闻、反转新闻、谣言等信息大肆传播，一定程度上冲击了官方和传统媒体的影响力。基于证据的新闻事实核查，其目的在于辨别真假新闻，拉近人们与新闻事实之间的距离。作为新闻事实核查的子任务，立场检测常涉及到两个数据集：作为证据的长文本，以及待检查的、作为声明的短文本。
[0003]立场检测本质上是一种文本分类问题。目前，解决该问题的主流方法包括：
[0004](1)基于支持向量机(Support vector machine,SVM)、朴素贝叶斯等模型的传统机器学习方法；
[0005](2)基于循环神经网络(Recurrent neural network,RNN)、文本卷积神经网络(Text Convolutinal Neural Network,TextCNN)等模型的深度学习方法；以及
[0006](3)基于BERT(Bidirectional Encoder Representations from Transformers) 等大规模预训练模型的深度学习方法。
[0007]由于立场检测...

【技术保护点】

【技术特征摘要】
1.一种基于RoBERTa模型的长文本信息立场检测方法，其特征在于：将待检测的证据文档和声明句，输入已预先训练的立场检测模型中，对声明的真假进行预测；其中，所述立场检测模型由编码器层、层次注意力机制层、关键句标记层和分类层组成，其中层次注意力机制层包括词(word)级别注意力机制和句(sentence)级别注意力机制；首先，对拼接后的证据文档和声明句进行分词并转换，得到词索引；对所有词索引构成的索引序列进行带重叠的分割，得到一系列索引片段，将其输入编码器层；在编码器层，使用RoBERTa模型对每个索引片段进行编码，得到词向量；对词向量去除重叠部分后进行重新拼接，得到证据文档和声明句中每个句的词向量序列；然后，在层次注意力机制层，对声明句的词向量序列中的所有词向量进行平均融合，得到声明句向量，将其作为层次注意力机制的查询；对证据文档中每个分句的词向量序列进行词级别注意力机制加权融合，得到句向量；对证据文档中每个分句的句向量进行句级别注意力机制加权融合，得到证据文档向量；同时，在关键句标记层，将证据文档中每个分句的句向量标记为关键句或非关键句；对所有关键句的句向量进行加权融合，得到关键句加权平均向量；最后，将拼接后的关键句加权平均向量、证明文档向量和声明句向量输入分类层，输出声明真假的分类结果。2.如权利要求1所述的基于RoBERTa模型的长文本信息立场检测方法，其特征在于，所述立场检测模型的关键句标记层由BiLSTM和CRF模块组成；将证据文档中所有分句的句向量作为序列输入BiLSTM模块，输出每个分句属于关键句或非关键句类别的分数；将该分数输入CRF模块，输出证据文档中分句序列的关键句标记。3.如权利要求2所述的基于RoBERTa模型的长文本信息立场检测方法，其特征在于，当未标记所述证据文档的关键句时，基于Self
‑
training的半监督学习方法，对所述立场检测模型的关键句标记层中的BiLSTM和CRF模块进行迭代训练；每一轮训练的关键句标记，由上一轮训练得到的立场检测模型预测输出，且第一轮...

【专利技术属性】
技术研发人员：冯天，张微，尤宁宁，
申请(专利权)人：浙江大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人