一种观点验证方法、数据发布方法及装置制造方法及图纸

技术编号:33713558 阅读:17 留言:0更新日期:2022-06-06 08:51
本公开提供了一种观点验证方法、数据发布方法及装置,其中,所述观点验证方法,包括:获取待验证观点,基于所述待验证观点发起搜索,确定与待验证观点对应的第一文档;确定所述第一文档中与所述待验证观点关联的第一文本内容;确定所述第一文本内容中的目标文本内容所在的第一目标文档,并确定所述第一目标文档的关联文档;基于所述待验证观点和所述目标文本内容,确定所述关联文档中与所述待验证观点关联的第二文本内容;基于所述第一文本内容和所述第二文本内容对所述待验证观点的真实性进行验证。行验证。行验证。

【技术实现步骤摘要】
一种观点验证方法、数据发布方法及装置


[0001]本公开涉及信息处理
,具体而言,涉及一种观点验证方法、数据发布方法及装置。

技术介绍

[0002]随着信息时代的到来,互联网上传播的信息种类繁多,信息量也变得越来越大。然后互联网上传播的信息并非全部都是真实的信息,虚假信息的传播可能会造成比较恶劣的社会影响,因此如何检测信息的真实性成为亟待解决的技术问题。

技术实现思路

[0003]本公开实施例至少提供一种观点验证方法、数据发布方法及装置。
[0004]第一方面,本公开实施例提供了一种观点验证方法,包括:
[0005]获取待验证观点,基于所述待验证观点发起搜索,确定与待验证观点对应的第一文档;
[0006]确定所述第一文档中与所述待验证观点关联的第一文本内容;
[0007]确定所述第一文本内容中的目标文本内容所在的第一目标文档,并确定所述第一目标文档的关联文档;
[0008]基于所述待验证观点和所述目标文本内容,确定所述关联文档中与所述待验证观点关联的第二文本内容;
[0009]基于所述第一文本内容和所述第二文本内容对所述待验证观点的真实性进行验证。
[0010]上述方法中,可以基于待验证观点发起搜索,确定与待验证观点相关的粗略文档(即第一文档),然后通过第一文档确定与所述待验证观点相关的精细化文档(即第二文档),再通过第一文档和第二文档中与待验证观点相关的文本内容对待验证观点的真实性进行验证,由此通过多轮迭代检索,可以实现对于待验证观点的全面验证,提高验证的精度和效率。
[0011]一种可能的实施方式中,所述基于所述待验证观点发起搜索,确定与待验证观点对应的第一文档,包括:
[0012]确定所述待验证观点中所包含的关键词;
[0013]基于所述关键词发起搜索,确定包含所述关键词的第一文档。
[0014]通过这种方式,可以实现对于所述待验证观点的相关文档的初步搜索,缩小了所述待验证观点的验证范围,便于通过第一文档中的内容对所述待验证观点的真实性进行验证。
[0015]一种可能的实施方式中,所述确定所述第一文档中与所述待验证观点关联的第一文本内容,包括:
[0016]针对任一第一文档,基于预先训练的编码器对所述待验证观点、该第一文档中的
文本内容以及该第一文档的文档标题进行编码,确定该第一文档对应的第一编码序列;
[0017]将所述第一编码序列输入至预先训练的特征融合网络,确定该第一文档中的各文本内容与所述待验证观点之间的第一相关度;
[0018]基于各第一文档中各文本内容与所述待验证观点之间的第一相关度,确定所述第一文本内容。
[0019]这里,在确定第一编码序列时,结合所述第一文档的文档标题,可以处理编码过程中的指代问题。另外,通过这种方法,可以从第一文档中筛选出与所述待验证观点相关点的第一文本内容,进一步的可以通过第一文本内容对所述待验证观点的真实性进行验证,提高了验证效率和验证精度。
[0020]一种可能的实施方式中,所述确定所述第一文本内容中的目标文本内容所在的第一目标文档,包括:
[0021]将对应的第一相关度满足预设条件的第一文本内容作为所述目标文本内容,并确定所述目标文本内容所在的第一目标文档;
[0022]所述确定所述第一目标文档的关联文档,包括:
[0023]确定所述第一目标文档中的超链接对应的关联文档;或者,
[0024]确定与所述第一目标文档的关联度超过预设值的关联文档。
[0025]通过检索关联文档,可以更加全面的确定与待验证观点相关的文本内容,解决多跳问题,提升了待验证观点验证的准确性。
[0026]一种可能的实施方式中,所述基于所述待验证观点和所述目标文本内容,确定所述关联文档中与所述待验证观点关联的第二文本内容,包括:
[0027]针对任一关联文档,基于预先训练的编码器对所述待验证观点、所述目标文本内容、该关联文档中的文本内容以及该关联文档的文档标题进行编码,确定该关联文档对应的第二编码序列;
[0028]将所述第二编码序列输入至预先训练的特征融合网络,确定该关联文档中的各文本内容与所述待验证观点之间的第二相关度;
[0029]基于各关联文档中各文本内容与所述待验证观点之间的第二相关度,确定所述第二文本内容。
[0030]这里,在确定第二编码序列时,加入目标文本内容的目的在于解决多跳问题,便于更准确的查找出第二文本内容。
[0031]一种可能的实施方式中,所述方法还包括根据以下方法训练所述编码器:
[0032]获取多组样本数据,其中每组样本数据包含样本前提和样本论据,每组样本数据对应有对应的标签,所述标签用于表示所述样本前提和所述样本论据之间的关系;
[0033]基于所述样本数据对待训练的编码器进行预训练,得到预训练的编码器;
[0034]对所述预训练的编码器进行微调处理,得到训练好的编码器。
[0035]通过这种实施方式,可以实现对于编码器的预训练,然而在预训练过程中,重点是训练编码器对于一组数据之间的关系的识别,即一个前提与一个论据之间的关系,而在实际应用中,一个前提往往需要多个论据来支撑,因此需要对编码器再进行微调处理。
[0036]一种可能的实施方式中,所述基于所述样本数据对待训练的编码器进行预训练,得到预训练的编码器,包括:
[0037]将所述样本数据输入至所述待训练的编码器,得到所述样本数据对应的第三编码序列;
[0038]基于第一分类器对所述第三编码序列进行分类处理,得到所述样本数据对应的预测关系;
[0039]基于所述样本数据对应的预测关系和所述样本数据对应的标签,对所述待训练的编码器进行预训练,得到所述预训练的编码器。
[0040]一种可能的实施方式中,所述对所述预训练的编码器进行微调处理,得到训练好的编码器,包括:
[0041]获取样本观点,以及样本观点对应的标签,所述样本观点对应的标签用于表征所述样本观点的真实性;
[0042]基于所述预训练的编码器,确定与所述样本观点关联的样本文本内容;
[0043]将所述样本观点和所述样本观点关联的样本文本内容输入至所述预训练的编码器中,确定第一样本编码序列;
[0044]基于多层级注意力机制对所述第一样本编码序列和所述样本观点进行处理后,基于第二分类器确定所述样本观点对应的分类结果;
[0045]基于所述样本观点对应的分类结果和所述样本观点对应的标签,对所述预训练的编码器进行微调处理,得到训练好的编码器。
[0046]通过对所述预训练的编码器进行微调处理,可以使得编码器能够更好的分辨一个样本观点(相当于预训练过程中的前提)与多个样本文本内容(相当于预训练过程中的论据)之间的关系,编码结果更加精确。
[0047]一种可能的实施方式中,所述基于所述第一文本内容和所述第二文本内容对所述待验证本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种观点验证方法,其特征在于,包括:获取待验证观点,基于所述待验证观点发起搜索,确定与待验证观点对应的第一文档;确定所述第一文档中与所述待验证观点关联的第一文本内容;确定所述第一文本内容中的目标文本内容所在的第一目标文档,并确定所述第一目标文档的关联文档;基于所述待验证观点和所述目标文本内容,确定所述关联文档中与所述待验证观点关联的第二文本内容;基于所述第一文本内容和所述第二文本内容对所述待验证观点的真实性进行验证。2.根据权利要求1所述的方法,其特征在于,所述基于所述待验证观点发起搜索,确定与待验证观点对应的第一文档,包括:确定所述待验证观点中所包含的关键词;基于所述关键词发起搜索,确定包含所述关键词的第一文档。3.根据权利要求1或2所述的方法,其特征在于,所述确定所述第一文档中与所述待验证观点关联的第一文本内容,包括:针对任一第一文档,基于预先训练的编码器对所述待验证观点、该第一文档中的文本内容以及该第一文档的文档标题进行编码,确定该第一文档对应的第一编码序列;将所述第一编码序列输入至预先训练的特征融合网络,确定该第一文档中的各文本内容与所述待验证观点之间的第一相关度;基于各第一文档中各文本内容与所述待验证观点之间的第一相关度,确定所述第一文本内容。4.根据权利要求3所述的方法,其特征在于,所述确定所述第一文本内容中的目标文本内容所在的第一目标文档,包括:将对应的第一相关度满足预设条件的第一文本内容作为所述目标文本内容,并确定所述目标文本内容所在的第一目标文档;所述确定所述第一目标文档的关联文档,包括:确定所述第一目标文档中的超链接对应的关联文档;或者,确定与所述第一目标文档的关联度超过预设值的关联文档。5.根据权利要求1~4任一所述的方法,其特征在于,所述基于所述待验证观点和所述目标文本内容,确定所述关联文档中与所述待验证观点关联的第二文本内容,包括:针对任一关联文档,基于预先训练的编码器对所述待验证观点、所述目标文本内容、该关联文档中的文本内容以及该关联文档的文档标题进行编码,确定该关联文档对应的第二编码序列;将所述第二编码序列输入至预先训练的特征融合网络,确定该关联文档中的各文本内容与所述待验证观点之间的第二相关度;基于各关联文档中各文本内容与所述待验证观点之间的第二相关度,确定所述第二文本内容。6.根据权利要求3或5所述的方法,其特征在于,所述方法还包括根据以下方法训练所述编码器:获取多组样本数据,其中每组样本数据包含样本前提和样本论据,每组样本数据对应
有对应的标签,所述标签用于表示所述样本前提和所述样本论据之间的关系;基于所述样本数据对待训练的编码器进行预训练,得到预训练的编码器;对所述预训练的编码器进行微调处理,得到训练好的编码器。7.根据权利要求6所述的方法,其特征在于,所述基于所述样本数据对待训练的编码器进行预训练,得到预训练的编码器,包括:将所述样本数据输入至所述待训练的编码器,得到所述样本数据对应的第三编码序列;基于第一分类器对所述第三编码序列进行分类处理,得到所述样本数据对应的预测关系;基于所述样本数据对应的...

【专利技术属性】
技术研发人员:李阳光王浩邵婧
申请(专利权)人:北京市商汤科技开发有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1