多域虚假新闻检测方法技术

技术编号：40905093 阅读：3 留言：0更新日期：2024-04-18 14:36

本发明专利技术提供一种多域虚假新闻检测方法，包括：对给定新闻进行预处理得到情感标签、风格标签、词向量；设定N个新闻领域；根据情感标签、风格标签和词向量分别计算N个单域交互特征向量；根据域标签存储库和给定新闻得到全领域标签信息，将全领域标签信息输入域适配器得到领域标签特征；对领域标签特征和N个单域交互特征向量进行聚合得到融合特征；将融合特征输入变压器得到共享特征；将共享特征输入分类器得到预测结果，整个过程中，能够更好地捕捉文本之间的关系和上下文信息，从而实现更准确的真假二分类结果。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及虚假新闻检测，具体而言，尤其涉及一种多域虚假新闻检测方法。

技术介绍

1、虚假新闻作为一种出于个人或集体利益追求而被故意创作的虚假信息，具有博人眼球、传播速度快的特点，容易引发公众误导。由于新闻领域的数量远远超过1个，不同领域的新闻在高频词汇、情感表达以及写作风格上存在明显差异，虚假新闻检测面临着领域标签不完整和领域转移问题。同时，虚假新闻检测的特征融合网络一般由拼接技术构成，导致重要信息丢失。

2、近年来，与深度学习相关的技术已经成功地应用于多域虚假新闻检测。基于深度学习的虚假新闻检测方法是从新闻数据中学习特征表示，然后使用融合网络和分类器实现虚假信息检测任务。与深度学习相关的技术已经成功地应用于多域虚假新闻检测。为了准确地检测出多个领域的虚假信息，多专家共享架构模型被广泛应用，如mmoe、mose、mdfend。为了应对领域标签不完整和领域转移的挑战，研究学者提出了软共享机制，利用域内先验知识来帮助模型适应新领域并进行迁移学习，如mdfend、m3fend。此外，一些模型使用无监督的方法学习领域特定的表示，如eddfn。

3、然而，这些基于特征提取、融合的多域虚假新闻检测方法存在四个局限性:(1)、软共享机制中的信息具有过时性，无法及时反映当前情况，降低模型了在多域虚假新闻检测中的准确性。(2)、现有方法依赖于存储空间。存储新闻领域相关信息需要大量的存储空间，增加了模型的资源需求，导致运行效率下降。(3)、传统的textcnn模型无法捕捉到节点的全局信息，在训练过程中丢失了大量上下文信息

4、有鉴于此，本专利技术提供了一种多域虚假新闻检测方法。

技术实现思路

1、根据上述提出的不足，而提供一种多域虚假新闻检测方法，能够更好地捕捉文本之间的关系和上下文信息。

2、本专利技术采用的技术手段如下：

3、本专利技术提供了一种多域虚假新闻检测方法，包括：

4、获取给定新闻，所述给定新闻包括语句，所述语句包括单词；

5、对所述给定新闻进行预处理得到情感标签、风格标签、将所述单词转换为词向量；

6、设定n个新闻领域；

7、根据所述情感标签、所述风格标签和所述词向量分别计算n个单域交互特征向量，所述单域交互特征向量与所述新闻领域一一对应；

8、根据域标签存储库和所述给定新闻得到全领域标签信息，将所述全领域标签信息输入域适配器得到领域标签特征；

9、将所述领域标签特征和n个所述单域交互特征向量进行聚合得到融合特征；

10、将所述融合特征输入变压器(transformer)得到共享特征；

11、将所述共享特征输入分类器得到预测结果。

12、优选地，n个所述单域交互特征向量包括第i单域交互特征向量，i为正整数且i≤n，计算所述第i单域交互特征向量，包括：

13、将所述词向量中的语义词向量输入apn-cnn网络计算第i新闻领域的语义特征向量；

14、将所述情感标签输入第一mlp网络计算所述第i新闻领域的情感特征向量；

15、将所述风格标签输入第二mlp网络计算所述第i新闻领域的风格特征向量；

16、将所述第i新闻领域的语义特征向量、所述第i新闻领域的情感特征向量和所述第i新闻领域的风格特征向量进行交互，得到所述第i单域交互特征向量。

17、优选地，所述将所述第i新闻领域的语义特征向量、所述第i新闻领域的情感特征向量和所述第i新闻领域的风格特征向量进行交互，得到所述第i单域交互特征向量，按照以下方式计算：

18、

19、其中，zi为所述第i单域交互特征向量，exp为交互计算函数，ksem为语义通道，aisem为所述第i新闻领域的语义特征学习参数，kemo为情感通道，aiemo为所述第i新闻领域的情感特征学习参数，ksty为风格通道，aisty为所述第i新闻领域的风格特征学习参数，lnrisem为将所述第i新闻领域的语义特征向量映射到特定维度，lnriemo为将所述第i新闻领域的情感特征向量映射到特定维度，lnristy为将所述第i新闻领域的风格特征向量映射到特定维度。

20、优选地，所述根据域标签存储库和所述给定新闻得到全领域标签信息，包括：

21、所述给定新闻还包括域标签；

22、所述域标签存储库包括n个域事件内存矩阵，所述域事件内存矩阵与所述新闻领域一一对应；所述域事件内存矩阵包括至少一个内存单元，一个所述内存单元存储一个新闻片段组；

23、所述域标签存储库还包括域事件存储器，所述域事件存储器对所有所述内存单元进行初始化，计算所述给定新闻与初始化后的所述内存单元的相似性，将第1域事件内存矩阵中，与所述给定新闻具有相似性的所述内存单元聚合为第1域，…，将第n域事件内存矩阵中，与所述给定新闻具有相似性的所述内存单元聚合为第n域，所述第1域至所述第n域构成域集中矩阵；

24、根据所述域集中矩阵计算相似度分布；

25、根据所述相似度分布得到所述给定新闻的隐式域；

26、根据所述域标签在初始化后的所述内存单元查找，得到显式域；

27、将所述显式域与所述隐式域合并得到所述全领域标签信息。

28、优选地，所述域事件存储器对所有所述内存单元进行初始化，包括：

29、将所述内存单元存储的所述新闻片段组按照以下方式进行表示：

30、n＝[g({t1,…,t|t|})；{e1,...,e|ε|}；{s1,…,s|s|}]

31、其中，n为所述新闻片段组，g()为可学习的注意力层，{t1,…,t|t|}为语义特征，{e1,…,e|ε|}为情感特征，{s1,…,s|s|}为风格特征。

32、优选地，在得到所述全领域标签信息之后，还包括：

33、将所述给定新闻更新至与其具有相似性的所述内存单元。

34、优选地，所述将所述领域标签特征和n个所述单域交互特征向量进行聚合得到融合特征，按照以下方式计算：

35、

36、其中，r为所述融合特征，zi为第i单域交互特征向量，wi为所述第i单域交互特征向量的重要性权重。

37、优选地，所述将所述融合特征输入变压器(transformer)得到共享特征，包括：

38、对所述融合特征进行线性映射得到query矩阵、key矩阵和value矩阵；

39、提供2f个自注意力头，f为正整数，将所述query矩阵、所述key矩阵和所述value矩阵输入所述自注意力头得到2f个注意力矩阵；

40、将2f个所述注意力矩阵合并后与所述va本文档来自技高网...

【技术保护点】

1.一种多域虚假新闻检测方法，其特征在于，包括：

2.根据权利要求1所述的多域虚假新闻检测方法，其特征在于，N个所述单域交互特征向量包括第i单域交互特征向量，i为正整数且i≤N，计算所述第i单域交互特征向量，包括：

3.根据权利要求2所述的多域虚假新闻检测方法，其特征在于，所述将所述第i新闻领域的语义特征向量、所述第i新闻领域的情感特征向量和所述第i新闻领域的风格特征向量进行交互，得到所述第i单域交互特征向量，按照以下方式计算：

4.根据权利要求1所述的多域虚假新闻检测方法，其特征在于，所述根据域标签存储库和所述给定新闻得到全领域标签信息，包括：

5.根据权利要求4所述的多域虚假新闻检测方法，其特征在于，所述域事件存储器对所有所述内存单元进行初始化，包括：

6.根据权利要求4所述的多域虚假新闻检测方法，其特征在于，在得到所述全领域标签信息之后，还包括：

7.根据权利要求1所述的多域虚假新闻检测方法，其特征在于，所述将所述领域标签特征和N个所述单域交互特征向量进行聚合得到融合特征，按照以下方式计算：

>8.根据权利要求1所述的多域虚假新闻检测方法，其特征在于，所述将所述融合特征输入变压器得到共享特征，包括：

9.根据权利要求8所述的多域虚假新闻检测方法，其特征在于，所述对所述融合特征进行线性映射得到Query矩阵、Key矩阵和Value矩阵，按照以下方式计算：

10.根据权利要求1所述的多域虚假新闻检测方法，其特征在于，所述将所述共享特征输入分类器得到预测结果，按照以下方式计算：

...

【技术特征摘要】

1.一种多域虚假新闻检测方法，其特征在于，包括：

2.根据权利要求1所述的多域虚假新闻检测方法，其特征在于，n个所述单域交互特征向量包括第i单域交互特征向量，i为正整数且i≤n，计算所述第i单域交互特征向量，包括：

4.根据权利要求1所述的多域虚假新闻检测方法，其特征在于，所述根据域标签存储库和所述给定新闻得到全领域标签信息，包括：

5.根据权利要求4所述的多域虚假新闻检测方法，其特征在于，所述域事件存储器对所有所述内存单元进行初始...

【专利技术属性】
技术研发人员：桑国明，李金金，
申请(专利权)人：大连海事大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人