【技术实现步骤摘要】
一种基于事件抽取的情报态势挖掘方法
[0001]本专利技术属于信息抽取/态势感知领域,具体涉及一种基于事件抽取的情报态势挖掘方法。
技术介绍
[0002]在世界局势日益紧张和冲突风险陡然骤增的背景下,针对事件分析面临的时效性低、定性分析多、态势分析少等突出问题,只有实现对战场态势的深度认知和智能处理,才能从大量态势数据中快速获取重要信息,牢牢掌握“情报信息优势”,以情报态势文本和序列数据为基础,推进事件分析技术发展,改进事件处置模式,为指挥决策提供支撑服务,所以亟需研究出一种基于事件抽取的情报态势挖掘方法及分析系统。情报态势的挖掘需要对各类信息源产生的文本或态势序列进行判断或遴选,并从已有信息中发现新线索,再将活动的信息组合起来,并借助分析思维对信息背后的情报主题给予感知与刻画,目前这些重要的情报环节都需要借助繁琐的人工实现。此外,现有方法复杂度普遍较高,难以应对互联网海量的情报态势信息。
[0003]针对上述存在的不足,本专利技术提出了一种基于事件抽取的情报态势挖掘方法及分析系统,针对情报态势文本数据和序列数据建立 ...
【技术保护点】
【技术特征摘要】
1.一种基于事件抽取的情报态势挖掘方法,其特征在于,该方法包括如下步骤:S1、事件场景分类:通过已有的情报态势文本数据,抽取其中情报领域相关词汇,依据领域词的类别和频次,将情报态势文本数据分类为事件场景类型库;S2、事件要素抽取:针对不同事件场景类型,设计事件模板,依据事件模板抽取情报态势文本数据中的事件要素,形成事件列表;S3、情报态势关联融合:依据事件要素对情报态势序列数据进行检索,关联匹配相似属性,形成情报态势库。2.如权利要求1所述的基于事件抽取的情报态势挖掘方法,其特征在于,所述步骤S1具体包括如下步骤:S11、数据预处理针对情报态势文本数据,首先通过正则表达式进行数据清洗操作,然后使用分词工具进行分词处理;S12、领域词抽取领域词包含了事件的主体和领域信息,领域词抽取时,使用命名实体识别提取原文本数据中的领域词,包括武器装备型号、任务类型和作战单元;S13、事件场景类型体系构建依据情报态势文本中的主体、环境、任务目标特点,人工制定事件场景类型体系;S14、文本分类将带有领域词标签的情报态势文本,通过单词和领域词编码、事件场景类型编码和场景类型分类,完成情报态势的事件场景分类。3.如权利要求2所述的基于事件抽取的情报态势挖掘方法,其特征在于,所述数据清洗包括:将英文字符转换为小写和将日期、将经纬度替换为标准的统一格式。4.如权利要求2所述的基于事件抽取的情报态势挖掘方法,其特征在于,所述步骤S14具体包括如下步骤:S141、单词和领域词编码使用情报态势文本数据的分词结果和领域词抽取结果,采用语言模型Skip
‑
gram模型初始化单词编码d
w
和领域词编码d
e
,从情报态势语料中学习词向量,为每个词生成一个向量,其中包含词和词的类型;S142、事件场景类型编码情报态势文本的事件场景类型编码采用两个随机初始化的编码向量t1和t2表示,t1用于捕获局部信息,t2用于捕获全局信息;S143、场景类型分类采用长短期记忆网络LSTM对情报态势文本的单词和领域词编码进行处理,用h
i
表示每一层LSTM后的结果,采用注意力机制评估情报态势文本中每个词对事件场景类型判断的影响,其中α
k
为第k个词的注意力分数;
由此可得到,情报态势文本的表示为S
att
=α
T
H,其中α=[α1,...,α
n
]为词的注意力向量,表示词在句子中的重要程度,H=[h1,...,h
n
]表示每层LSTM的输出;S144、用表示领域词的文本局部特征,用表示情报态势文本的全局特征,h
n
是第n层LSTM的输出,两者加权求和后经过Sigmoid函数计算事件场景分类得到的事件场景类型:o=σ(λ
·
v
att
+(1
‑
λ)
·
v
global
)其中σ表示Sigmoid函数,λ是用于平衡文本局部特征和全局特征的超参数;S145、通过不断地训练,调整t1和t2,使得事件场景类型符合S13制定的事件场景类型体系。5.如权利要...
【专利技术属性】
技术研发人员:赵勤博,杨雨婷,王瑞,王又辰,栾真,
申请(专利权)人:北京计算机技术及应用研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。