System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于集成方法和置信度评分的军事新闻事件抽取方法技术_技高网

一种基于集成方法和置信度评分的军事新闻事件抽取方法技术

技术编号:40789101 阅读:2 留言:0更新日期:2024-03-28 19:19
本发明专利技术公开了一种基于集成方法和置信度评分的军事新闻事件抽取方法,包括以下步骤:步骤1:初始化模型输出置信度评分分布;步骤2:评估模型输出的一致性;步骤3:基于先验和一致性的模型输出置信度评分更新;步骤4:选择最优模型输出,在迭代过程中或迭代结束后,选择具有最高模型输出置信度评分的模型输出作为最终输出。本发明专利技术使用正态分布全面表示和估计单个输出的置信度,估计单个输出的置信度,并捕获实际置信度和估计置信度之间的统计离散度;可从大量非结构化文本中准确地提取和分类重要事件。

【技术实现步骤摘要】

本专利技术属于信息处理,尤其涉及一种基于集成方法和置信度评分的军事新闻事件抽取方法


技术介绍

1、在信息化和网络化日益发展的今天,军事新闻作为一种特殊的信息传播手段,其内容涵盖了战略、战术、操作等多个层面的复杂信息。这些信息在国家安全、军事研究和战略决策等方面具有极其重要的价值。因此,如何从大量的非结构化军事新闻文本中准确、高效地抽取出有价值的事件信息,成为了信息处理领域的一个重要课题。

2、军事新闻文本通常包含丰富而复杂的信息,如地点、时间、参与实体、事件类型等,这些信息往往分散在文本的不同部分,且表达方式多样,这给事件抽取带来了极大的挑战。此外,军事新闻的语言风格通常较为正式和规范,可能包含大量的专业术语和缩略语,这也增加了文本处理的复杂性。

3、事件抽取技术在多个领域均有重要的专利技术应用,如申请号cn116628210a的中国专利技术申请提出了一种基于对比学习对智慧楼宇故障事件抽取的故障确定方法;申请号cn116757159a的中国专利技术申请提出了一种端到端的多任务联合篇章级事件抽取方法及系统;申请号cn116631642a的中国专利技术申请提供了一种临床发现事件的抽取方法;申请号cn116579338a的中国专利技术申请提供了一种基于集成联合学习的文档级事件抽取方法和系统。

4、然而,传统的事件抽取方法通常依赖于预定义的规则或模板,这些方法在特定领域和场景下可能表现出色,但在面对多样化和动态变化的军事新闻文本时,其适应性和准确性往往受到限制。此外,这些方法通常忽略了文本中的隐含信息和上下文关系,这在一定程度上限制了事件抽取的深度和广度。集成方法通过整合多个模型的预测结果,旨在提高事件抽取的准确性和稳定性。然而,如何合理地整合多个模型的输出,以及如何评估各个模型输出结果的可靠性,仍然是一个待解决的问题。传统的集成方法通常依赖于硬投票或软投票策略,这些方法在一定程度上能够提高模型的准确性,但在处理模型输出结果的不确定性和可靠性方面仍存在不足。

5、在多模型集成的场景下,置信度评分(confidence score,cs)成为了一个关键的指标,它反映了模型对其输出结果的可靠性和确定性。然而,传统的cs通常是一个固定的数值,无法全面反映模型输出结果的不确定性和可靠性。因此,如何准确地评估和利用cs,以提高事件抽取的准确性和可靠性,成为了一个亟待解决的问题。

6、综上所述,面对军事新闻文本的复杂性和多样性,以及事件抽取中的多种挑战,亟需一种能够准确、高效、可靠地抽取事件信息的新方法。这种方法应该能够充分挖掘文本中的潜在信息,准确识别和分类事件信息,同时能够处理模型输出结果的不确定性和可靠性,以提高事件抽取的整体性能。


技术实现思路

1、有鉴于此,本专利技术旨在提出一种新颖的集成方法来从军事新闻中抽取事件。该方法不仅通过分布的期望来估计单个输出的置信度,而且还通过标准差巧妙地捕捉实际和估计置信度之间的统计分散,从而为置信度评分(cs)提供了一个更全面的表示。此外,本专利技术还揭示了一种全面的cs评估方法,该方法有机地整合了多模型输出的一致性和先验置信度,将模型层面的置信度视为其输出的初始评估。该方法进一步通过迭代更新算法来增强cs评估的准确性。

2、为实现上述专利技术目的,本专利技术公开了一种基于集成方法和置信度评分的军事新闻事件抽取方法,包括以下步骤:

3、输入军事新闻;

4、使用多个新闻事件抽取模型,分别输出一组关于同一事实的模型输出;

5、为每个模型的初始化模型输出分别初始的可信度,并以所述可信度建立置信度评分分布;

6、按照一致性比较规则评估每个模型输出的一致性;

7、基于先验和一致性的模型输出置信度评分更新;

8、在迭代过程中或迭代结束后,选择具有最高模型输出置信度评分的模型,将其抽取的军事新闻事件作为最终输出。

9、进一步地,所述初始化模型输出置信度评分分布,包括:

10、使用第i个独立模型的可信度cpi作为模型,输出mi的初始期望初始化模型输出置信度评分分布其中,i∈{1,2,…,n}是独立模型的索引,n是独立模型的总数,μi和分别是可信度的期望和方差,mi表示独立模型输出的对某一新闻事件f的抽取结果,初始化为0.25。

11、进一步地,所述评估模型输出的一致性,包括:

12、ci=ce∣me∈ei,表示模型输出mi与其外部模型输出集ei之间的一致性集合,输出集ei包含了除mi之外所有描述相同事实f的模型输出,数学上被表达为:ei={me∣me描述f,e≠i},ce由以下方式确定:

13、

14、其中,表示外部模型输出me与mi在一致性比较规则下是一致的,即事件抽取模型输出的事件类型是否一致,其中rule表示一致性比较规则。

15、进一步地,所述基于先验和一致性的模型输出置信度评分更新,包括:

16、迭代更新模型输出mi的模型输出置信度评分q(cri),使用以下公式进行迭代更新:

17、ql(cri)=f({ql―1(cri)∣mi}∪ql―1(cre)∣me∈ei;ci)

18、其中,f(·)表示模型输出置信度评分更新函数,l表示第l次迭代,为自定义参数,f(·)分为两部分,期望更新和方差更新,q(cre)表示不同于模型输出mi的其他模型输出的置信度分布,即质量。

19、进一步地,所述更新期望μi的表达式为:

20、

21、其中,m表示mi的有效外部模型输出的数量,即m=|ei|;

22、

23、是第l-1轮迭代后模型输出me的置信度分布质量的数值化表示。

24、进一步地,所述更新方差的表达式为:

25、

26、其中

27、

28、

29、是第l-1轮迭代后模型输出me的置信度分布的期望,是第l-1轮迭代后模型输出mi的置信度分布的期望;

30、λ为自定义参数,设置为2,通过上述过程,得到每一轮迭代之后的模型输出置信度评分,当到达定义的迭代轮数之后,迭代停止,得到最后的置信度评分评估结果。

31、进一步地,在迭代过程中或迭代结束后,每个模型输出mi的置信度评分由给出。

本文档来自技高网...

【技术保护点】

1.一种基于集成方法和置信度评分的军事新闻事件抽取方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于集成方法和置信度评分的军事新闻事件抽取方法,其特征在于,所述初始化模型输出置信度评分分布,包括:

3.根据权利要求2所述的基于集成方法和置信度评分的军事新闻事件抽取方法,其特征在于,所述评估模型输出的一致性,包括:

4.根据权利要求3所述的基于集成方法和置信度评分的军事新闻事件抽取方法,其特征在于,所述基于先验和一致性的模型输出置信度评分更新,包括:

5.根据权利要求4所述的基于集成方法和置信度评分的军事新闻事件抽取方法,其特征在于,所述更新期望μi的表达式为:

6.根据权利要求5所述的基于集成方法和置信度评分的军事新闻事件抽取方法,其特征在于,所述更新方差的表达式为:

7.根据权利要求6所述的基于集成方法和置信度评分的军事新闻事件抽取方法,其特征在于,在迭代过程中或迭代结束后,每个模型输出mi的置信度评分由给出。

【技术特征摘要】

1.一种基于集成方法和置信度评分的军事新闻事件抽取方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于集成方法和置信度评分的军事新闻事件抽取方法,其特征在于,所述初始化模型输出置信度评分分布,包括:

3.根据权利要求2所述的基于集成方法和置信度评分的军事新闻事件抽取方法,其特征在于,所述评估模型输出的一致性,包括:

4.根据权利要求3所述的基于集成方法和置信度评分的军事新闻事件抽取方法,其特征在于,所述基...

【专利技术属性】
技术研发人员:吴继冰黄宏斌刘丽华王懋葛宁超王吉肖开明
申请(专利权)人:中国人民解放军国防科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1