【技术实现步骤摘要】
引述句和辟谣模式句引导的“谣言
‑
辟谣文章”匹配方法及系统
[0001]本专利技术涉及信息检索领域,特别涉及一种基于引述句和模式句引导的“谣言
‑
辟谣文章”匹配方法。
技术介绍
[0002]目前,国内外应对网络谣言的思路大致有三种:第一类是进行人工事实核查,如Snopes、腾讯新闻“较真”等,它们通过用户主动提交或编辑整理收集需要进行澄清的谣言,聘请拥有专业知识或权威信息的个人或组织撰写辟谣文章,之后针对用户分发辟谣文章实现事实核查;第二类是开发自动检测系统,国内外比较知名的有dEFEND系统、“AI识谣”系统等,它们一般通过主动收集网络上的可疑新闻线索,通过利用新闻内容信息、发布者可信度[6]、网民评论等特征训练机器学习模型,自动输出新闻线索的可信度,将可信度较低的新闻预测为谣言;由于上述方案都忽略了已被辟谣的谣言继续传播的情况,而“旧谣新传”在现实中仍占有一定比例,近年来研究者提出了第三类思路,专门针对已澄清的谣言进行“谣言
‑
辟谣文章”匹配,即以待测消息为检索输入, ...
【技术保护点】
【技术特征摘要】
1.一种引述句和辟谣模式句引导的“谣言
‑
辟谣文章”匹配方法,其特征在于,包括:步骤1、将待测消息q和其对应辟谣文章d中的l个句子S={s1,s2,
…
,s
l
}分别组成包含待测消息q和辟谣句s
i
的l个待测对,并将该l个待测对拼接后输入至嵌入表示层,得到残差嵌入表示r
s,q
;步骤2、分别计算待测对的匹配得分scr
Q
(q,s)和模式
‑
辟谣句的匹配得分scr
P
(q,s),并得出s对q的重要性得分scr(q,s);步骤3、对待测消息q和辟谣文章中所有句子S的重要性得分进行排序,选取得分最高的前k句作为关键句将待测消息q和关键句构成的信息对分别输入第一变换器模块,得到联合表示之后采用第二变换器模块获取的精细表示向量q
′
和s
key
′
;步骤4、选择辟谣模式向量库中与q和s
key
残差嵌入表示距离最近的辟谣模式向量m
u
,拼接q
′
、s
key
′
和m
u
,得到拼接向量v
i
;步骤5、对所有关键句对应的拼接向量进行加权求和后输入全连接神经网络,其中每个拼接向量的权重为归一化之后的重要性得分,全连接神经网络输出结果作为待测消息q和辟谣文章d的匹配度得分根据该匹配度得分判定该辟谣文章d是否匹配该待测消息q。2.如权利要求1所述的引述句和辟谣模式句引导的“谣言
‑
辟谣文章”匹配方法,其特征在于,该步骤1包括:将该l个待测对与分类保留字[CLS]和分隔保留字[SEP]拼接后,输入嵌入表示层,将得到的嵌入r
s,q
表示输入第一变换器模块,得到q和s的联合表示:z
q,s
=Transformer([CLS]q[SEP]s)提取z
q,s
中[CLS]对应的向量z
q,s
([CLS]),并输入全连接神经网络Dense1,得到文本相似度估计向量度估计向量对该估计向量,使用文本相似度指标R(q,s)作为监督信号,计算如下损失函数:其中,第一项是文本相似度指标得分,Δθ代表Transformer模块的参数变化量,λ
R
是代表约束程度的常数;根据该损失函数对该第一变换器模块的权重参数进行调整。3.如权利要求2所述的引述句和辟谣模式句引导的“谣言
‑
辟谣文章”匹配方法,其特征在于,该步骤1包括:对每一对q和s,计算两者的残差嵌入表示r
s,q
:r
s,q
=AvgToken(s)
‑
AvgToken(q)其中AvgToken为词项嵌入表示的平均值,并只保留二范数在一定范围区间内的残差嵌
入表示,即满足:t
low
<||r
s,q
||2<t
high
其中t
low
和t
high
是常数。对符合上述条件的残差嵌入表示进行向量聚类,聚类得到的K个聚类中心向量即初始辟谣模式向量,记为m1,m2,
…
,m
K
,并将上述向量保存到该辟谣模式向量库中。4.如权利要求1或2或3所述的引述句和辟谣模式句引导的“谣言
‑
辟谣文章”匹配方法,其特征在于,在每个训练样本批中使用反向传播优化该“谣言
‑
辟谣文章”匹配方法中的神经网络参数,损失函数为交叉熵损失函数:其中y
q,d
∈0,1是训练集提供的真实标签,在每个训练周期结束后,对辟谣模式向量库中每个模式向量进行更新。5.如权利要求4所述的引述句和辟谣模式句引导的“谣言
‑
辟谣文章”匹配方法,其特征在于,对该辟谣模式向量库中向量m进行更新的步骤包括:对训练集中所有正例构成的“谣言
‑
辟谣句”对进行统计,如果其残差嵌入表示与向量m在向量空间中的欧氏距离小于与该辟谣模式向量库中其它模式向量的距离,则将其残差嵌入表示记录下来,并具体根据匹配结果是否正确,将其残差嵌入表示放入正确集合或放入错误集合其中n
w
是集合中的残差嵌入表示数;分别聚合集合C和集合W中的残差嵌入表示:集合C和集合W中的残差嵌入表示:其中a
ci
和a
wi
分别是权重系数;并通过下式计算方向向量u:u=p
c
(u
c
‑
m)+p
i
(m
‑
u
w
)其中p
c
和p
r
是权重系数p
r
=1
‑
p
c
记更新后的辟谣模式向量为m
new
,更新前的为m
old
,则最终的向量更新计算如下:6.一种引述句和辟谣模式句引...
【专利技术属性】
技术研发人员:曹娟,盛强,张雪遥,钟雷,谢添,
申请(专利权)人:中国科学院计算技术研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。