当前位置: 首页 > 专利查询>浙江大学专利>正文

一种基于RoBERTa模型的长文本信息立场检测方法技术

技术编号:35266067 阅读:23 留言:0更新日期:2022-10-19 10:28
本发明专利技术公开了一种基于RoBERTa模型的长文本信息立场检测方法。本发明专利技术在长文本信息立场检测任务中引入基于文本切割的RoBERTa模型,用于编码各索引片段;引入BiLSTM和CRF模块,用于标记关键证据;引入基于Self

【技术实现步骤摘要】
一种基于RoBERTa模型的长文本信息立场检测方法


[0001]本专利技术涉及深度学习和自然语言处理领域,具体涉及一种基于RoBERTa模型的长文本信息立场检测方法。

技术介绍

[0002]移动互联网与社交媒体的快速发展,为信息传播创造了良好环境。一方面,新闻的生产与传播门槛大大降低,使传播途径多元化、内容多样化,人们能获取的信息更加丰富;另一方面,自媒体的崛起使新闻质量良莠不齐,各种博人眼球的假新闻、反转新闻、谣言等信息大肆传播,一定程度上冲击了官方和传统媒体的影响力。基于证据的新闻事实核查,其目的在于辨别真假新闻,拉近人们与新闻事实之间的距离。作为新闻事实核查的子任务,立场检测常涉及到两个数据集:作为证据的长文本,以及待检查的、作为声明的短文本。
[0003]立场检测本质上是一种文本分类问题。目前,解决该问题的主流方法包括:
[0004](1)基于支持向量机(Support vector machine,SVM)、朴素贝叶斯等模型的传统机器学习方法;
[0005](2)基于循环神经网络(Recurrent neural network,RNN)、文本卷积神经网络(Text Convolutinal Neural Network,TextCNN)等模型的深度学习方法;以及
[0006](3)基于BERT(Bidirectional Encoder Representations from Transformers) 等大规模预训练模型的深度学习方法。
[0007]由于立场检测模型需具有捕获语义层面信息的能力,相较于方法(1)(2),利用BERT等深层预训练模型可在短文本领域取得更优秀的效果。然而,实际应用中的文本长度往往较长,超出BERT模型支持的最大文本长度(512个词)。作为BERT模型的改进版本,RoBERTa(A Robustly Optimized BERT)模型依然对文本长度做出了相同限制。因此,新闻事实核查中的立场检测任务主要面临以下三个挑战:
[0008](1)对输入的长文本进行预处理时,大多使用截断法,包括头截断、尾截断、中间截断等,容易导致文本信息的缺失;
[0009](2)由于BERT模型基于多层注意力机制,文本长度的增加导致远程注意力不足,使模型对全局信息的融合产生偏差;
[0010](3)文本过长的文档包含大量噪声,而远程注意力不足可导致关键句周围的短程噪声被赋予更高权重,最终影响模型精度。
[0011]因此,设计一种有效利用长文本信息的立场检测方法,是事实核查任务目前亟待解决的技术问题。

技术实现思路

[0012]本专利技术解决的技术问题,是如何充分利用证据文档的全局信息,进行长文本信息立场检测,包括(1)突破RoBERTa模型对文本长度的限制;(2)设计一种有效的全局信息融合方法;以及(3)设计一种有效的关键证据句标记方法。
[0013]本专利技术所采用的具体技术方案如下:
[0014]一种基于RoBERTa模型的长文本信息立场检测方法,该方法将待检测的证据文档和声明句,输入已预先训练的立场检测模型中,对声明的真假进行预测;
[0015]其中,所述立场检测模型由编码器层、层次注意力机制层、关键句标记层和分类层组成,其中层次注意力机制层包括词(word)级别注意力机制和句(sentence) 级别注意力机制;首先,对拼接后的证据文档和声明句进行分词并转换,得到词索引;对所有词索引构成的索引序列进行带重叠的分割,得到一系列索引片段,将其输入编码器层;在编码器层,使用RoBERTa模型对每个索引片段进行编码,得到词向量;对词向量去除重叠部分后进行重新拼接,得到证据文档和声明句中每个句的词向量序列;然后,在层次注意力机制层,对声明句的词向量序列中的所有词向量进行平均融合,得到声明句向量,将其作为层次注意力机制的查询;对证据文档中每个分句的词向量序列进行词级别注意力机制加权融合,得到句向量;对证据文档中每个分句的句向量进行句级别注意力机制加权融合,得到证据文档向量;同时,在关键句标记层,将证据文档中每个分句的句向量标记为关键句或非关键句;对所有关键句的句向量进行加权融合,得到关键句加权平均向量;最后,将拼接后的关键句加权平均向量、证明文档向量和声明句向量输入分类层,输出声明真假的分类结果。
[0016]作为优选,所述立场检测模型的关键句标记层由BiLSTM和CRF模块组成;将证据文档中所有分句的句向量作为序列输入BiLSTM模块,输出每个分句属于关键句或非关键句类别的分数;将该分数输入CRF模块,输出证据文档中分句序列的关键句标记。
[0017]作为优选,当未标记所述证据文档的关键句时,基于Self

training的半监督学习方法,对所述立场检测模型的关键句标记层中的BiLSTM和CRF模块进行迭代训练;每一轮训练的关键句标记,由上一轮训练得到的立场检测模型预测输出,且第一轮训练仅将声明句作为关键句。
[0018]作为优选,所述索引序列在输入RoBERTa模型进行文本编码前,需先进行等长分割,得到一系列索引片段;每个片段的长度均为RoBERTa模型支持的最大输入长度(即512个词),且任意相邻两个索引片段均具有重叠部分。
[0019]作为优选,所述立场检测模型训练所采用的总损失为关键句标记层损失和分类层损失的加权和,其中关键句标记层所采用的损失函数为负对数似然损失,分类层所采用的损失函数为交叉熵损失函数。
[0020]作为优选,所述词级别注意力机制中,仅使用证据文档的词向量作为Query、 Value和Key进行自注意力融合,得到自注意力句向量;同时,对声明句的词向量序列中所有词向量进行平均融合,得到声明句向量,以声明句向量作为Query,以证据文档中每个分句的词向量序列作为Key和Value,进行外部注意力融合,得到外部注意力句向量。
[0021]作为优选,所述句级别注意力机制中,以声明句向量、自注意力句向量、外部注意力句向量,分别作为Query,Key,Value进行注意力融合,得到证据文档向量。
[0022]作为优选,所述RoBERTa模型为RoBERTa

large模型,各词向量、句向量、文档向量均采用RoBERTa

large的词向量默认输出维度,即1024维。
[0023]作为优选,所述分类层由全连接层和Softmax层组成。
[0024]作为优选,所述Softmax层输出代表声明真假程度的多分类结果。
[0025]相对于现有技术而言,本专利技术的有益效果如下:
[0026]本专利技术在长文本信息立场检测任务中引入基于文本切割的RoBERTa模型,引入BiLSTM和CRF模块用于标记关键证据句,同时引入基于Self

training的半监督学习方法用于训练BiLSTM和CRF模块。与原先传统立场检测技术相比,本专利技术依赖于文本分割的创新过程解决了RoBERTa本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于RoBERTa模型的长文本信息立场检测方法,其特征在于:将待检测的证据文档和声明句,输入已预先训练的立场检测模型中,对声明的真假进行预测;其中,所述立场检测模型由编码器层、层次注意力机制层、关键句标记层和分类层组成,其中层次注意力机制层包括词(word)级别注意力机制和句(sentence)级别注意力机制;首先,对拼接后的证据文档和声明句进行分词并转换,得到词索引;对所有词索引构成的索引序列进行带重叠的分割,得到一系列索引片段,将其输入编码器层;在编码器层,使用RoBERTa模型对每个索引片段进行编码,得到词向量;对词向量去除重叠部分后进行重新拼接,得到证据文档和声明句中每个句的词向量序列;然后,在层次注意力机制层,对声明句的词向量序列中的所有词向量进行平均融合,得到声明句向量,将其作为层次注意力机制的查询;对证据文档中每个分句的词向量序列进行词级别注意力机制加权融合,得到句向量;对证据文档中每个分句的句向量进行句级别注意力机制加权融合,得到证据文档向量;同时,在关键句标记层,将证据文档中每个分句的句向量标记为关键句或非关键句;对所有关键句的句向量进行加权融合,得到关键句加权平均向量;最后,将拼接后的关键句加权平均向量、证明文档向量和声明句向量输入分类层,输出声明真假的分类结果。2.如权利要求1所述的基于RoBERTa模型的长文本信息立场检测方法,其特征在于,所述立场检测模型的关键句标记层由BiLSTM和CRF模块组成;将证据文档中所有分句的句向量作为序列输入BiLSTM模块,输出每个分句属于关键句或非关键句类别的分数;将该分数输入CRF模块,输出证据文档中分句序列的关键句标记。3.如权利要求2所述的基于RoBERTa模型的长文本信息立场检测方法,其特征在于,当未标记所述证据文档的关键句时,基于Self

training的半监督学习方法,对所述立场检测模型的关键句标记层中的BiLSTM和CRF模块进行迭代训练;每一轮训练的关键句标记,由上一轮训练得到的立场检测模型预测输出,且第一轮...

【专利技术属性】
技术研发人员:冯天张微尤宁宁
申请(专利权)人:浙江大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1