一种面向威胁情报的实体识别方法及系统技术方案

技术编号:21299451 阅读:25 留言:0更新日期:2019-06-12 07:53
本发明专利技术涉及一种面向威胁情报的实体识别方法及系统。该方法包括:1)对作为训练语料的威胁情报文本进行粗分词;2)构建威胁情报实体常用词词典库与规则库,对粗分词的结果进行词典匹配与规则匹配;3)基于匹配结果,为每个词标注实体标签,形成训练集;4)构建特征模板,同时建立指示词库来完善特征模板的筛选形式,使用特征模板为训练集生成其上下文特征并筛选,将筛选后得到的特征输入机器学习模型进行参数迭代训练;5)对待识别的威胁情报文本进行粗分词、词典匹配和规则匹配,利用训练完成的机器学习模型进行实体识别。本发明专利技术采用了规则、词典、模型相结合的手段完成威胁情报实体抽取,显著提高了威胁情报的实体识别精度。

An Entity Recognition Method and System for Threat Intelligence

The invention relates to an entity identification method and system for threat intelligence. The method includes: (1) rough segmentation of threatening intelligence text as training corpus; (2) building dictionary and rule base of common words in threatening intelligence entities, matching dictionary and rule base of rough segmentation results; (3) labeling entity labels for each word based on matching results, forming training set; (4) building feature templates, and establishing indicator thesaurus to improve the screening of feature templates. In the form, feature templates are used to generate context features for training set and filter them. The filtered features are input into machine learning model for parameter iteration training. 5) Threat information text is roughly segmented, dictionary matched and rule matched, and entity recognition is carried out using machine learning model completed by training. The method adopts the method of combining rules, dictionaries and models to extract threat information entities, and significantly improves the identification accuracy of threat information entities.

【技术实现步骤摘要】
一种面向威胁情报的实体识别方法及系统
本专利技术提出一种面向威胁情报的实体识别方法及系统,它引用了威胁情报领域的语言学标准,涵盖自然语言处理的规则提取、词典提取与机器学习方法,一共可以抽取28种相关实体,属于计算机科学与网络安全学的交叉学科。
技术介绍
当前我国的网民规模已经达到了7.72个亿,与此同时,我国不断遭受着严重的网络攻击,大规模安全事件的爆发,急剧危及网络空间安全态势。为适应网络威胁的快速演变,各国网络安全分析人员正积极从各威胁情报公共来源(例如博客,论坛,软件厂商公告栏,官方新闻等)统计网络安全指标(IndicatorsofCompromise,IOC)(例如恶意软件签名,僵尸网络IP等)及数据,并依靠威胁情报文档来了解各方面漏洞,确定补丁的优先级以及追踪漏洞线索等,以提高国家网络的安全系数。随着网络威胁情报数据在不断涌现,在大量知识产出过程中,建立一个有知识整理、检索与知识发现能力以及开放互联、有语义处理能力的威胁情报知识库具有重大意义。它能够及时从海量非结构化文本中抽取出机器可读的有价值的结构化知识,以便系统自动分析和快速部署到入侵检测系统等各种安全机制。建立该知识库的数据基础即从威胁情报中抽取出的有效信息。实体识别技术的研究是威胁情报信息抽取的一项子任务,旨在识别文本中的威胁情报实体,在此基础上可以进一步展开威胁情报中的关系属性识别、图谱可视化与知识推理等工作。根据中国科学院国家网络空间威胁情报共享开放平台(ChineseCyberspaceThreatIntelligenceCollaboration,CNTIC)的文件《CNTIC数据分类与接入规范》标准以及参考网络威胁情报语言学研究的相关文献,可以了解到威胁情报的有效实体类别约有30种,根据以往经验,纯粹由人工提取这些有效实体基本已经无法满足国家网络安全部门对于新型威胁分析速度的需要。一方面,人工对于威胁情报实体的判断需要大量专业经验的积累方能完成,对一次威胁攻击的解读也需要花费较多精力,对于情报的利用水平受限于分析人员对网络安全时间的掌握水平;另一方面,网络数据库整理与有效信息消化必然伴随着大量人力与时间的消耗,随着成千上万的网络威胁的涌入,IOC数据的体积越发不可估量,人工管理已成为一大难题。因此,计算机的辅助分析就显得尤为必要。目前,国内在中文自有文本实体抽取的研究上面已有较大的进展,创造了许多自然语言处理(NaturalLanguageProcessing,NLP)工具,其中代表性的有中国科学院计算技术研究所ICTCLAS、商用BosonNLP、清华大学THULAC等,其在军事、娱乐、方面的通用实体“人名、机构名、时间、地点”识别准确率均在90%以上。但虽然各种实体抽取方法在技术实现上千差万别,但它们的抽取效果往往对特定资源(人工词表或人工分词语料)具有较强依赖,导致现有实体抽取方法虽在各类开放测评中表现优异,在语料资源稀缺的网络威胁情报领域中的表现仍是不尽如人意,即当下技术并不能满足IOC预期的高标准(主要为精确率、召回率)的输入,尤其是威胁情报专业领域,经试验其实体抽取F1值仅在0%-30%,因此在专业领域方面的实体抽取研究仍有较大空间。在国外,命名实体识别技术同样正处于发展的黄金时期,但中文语句具有特殊性与复杂性,不像英文词语间有空格分隔直接完成分词,也没有大小写标识与词形变换特征,因此中文威胁情报实体识别只能参考而不能直接引用国外的威胁情报实体识别工具。综上所述,目前对于威胁情报的人工实体抽取仍然需要经验丰富的分析员花费大量精力完成,不能满足需求,而自动化分析虽然已经有一些初步的应用,但是大都是十分基础的走势呈现,对于特定资源往往有较强依赖,目前国内尚不存在在威胁情报领域方面的成熟的实体抽取技术,是对国内网络安全威胁无法做出应急判断的阻碍之一。
技术实现思路
针对现有技术中存在的技术问题,本专利技术的目的在于提供一种较为全面的威胁情报领域实体识别方法及系统。通过网络安全术语相关调查工作,可以发现威胁情报的部分实体类型是存在一定规律的,例如IP、URL、MD5等,可以通过一定语言规则直接进行匹配;另有一些较为常见的单词专业术语实体(如厂商Microsoft、Google;常用服务InternetExplorer、Java等),可以通过开源数据网站Freebase、百度百科词库纳入数据,进而根据词性分别构建词典进行实体抽取;但对于其他一些多词组合且占比较大的中文长实体名(例如网络安全分析报告名、网络战役名称、黑客组织名称等),基本不能直接识别,其组成部分在经过分词器处理后在非专业领域也常常是未登录词,因此需要结合语言规则的统计学方法来预测有效实体。因此共产生了三种实体识别方法:基于规则的方法、基于词典的方法和基于统计机器学习的方法。其中,规则对于同类型数据识别精确率与召回率很高,词典对于常用词具有更好匹配效果,基于机器学习的方法对于新词具有很好预测效果,并且机器学习可以识别规则不能匹配的实体,词典可以作为前两者未识别实体的补充。将三种方法结合,可以起到相互铺垫、多次检查、提高识别效果的作用,实验结果也证明了多方法结合的识别效果后比单一方法更优异。本专利技术采用的技术方案如下:一种面向威胁情报的实体识别方法,包括以下步骤:1)对作为训练语料的威胁情报文本进行粗分词;2)构建威胁情报实体常用词词典库与规则库,对粗分词的结果进行词典匹配与规则匹配;3)基于词典匹配与规则匹配的结果,为每个词标注实体标签,形成训练集;4)构建特征模板,同时建立指示词库来完善特征模板的筛选形式,使用特征模板为训练集生成其上下文特征并筛选,将筛选后得到的特征输入机器学习模型进行参数迭代训练;5)对待识别的威胁情报文本进行粗分词、词典匹配和规则匹配,并利用训练完成的机器学习模型进行实体识别。进一步地,步骤1)所述粗分词包括:1.1)输入待处理字符串S=word1word2word3...wordn,其中S代表字符串,wordi表示词语,S由连续的wordi组成;1.2)从字符串S生成词序列L=List<Term>,其中Termi使用三大属性值<wordi,posi,tagi>来表示,posi表示词性,wordi与posi均在粗分词后得到初值,tagi表示标签,与机器学习时人工词性标注有关。进一步地,步骤2)采用双数组Trie树构建Aho-Corasick自动机数据结构,形成所述词典库;所述词典匹配和所述规则匹配使用试探性联合方法进行匹配。进一步地,步骤3)采用4-tags标注文法半自动化地标注实体标签,标注的实体包括机构名、人名、地名、黑客组织名、攻击名、事件名、报告名、会议名、病毒名。进一步地,步骤4)所述机器学习模型为条件随机场模型,并使用IIS训练参数,得到能够预测实体的最终模型。进一步地,步骤4)根据特征模板匹配得到各词的上下文特征,并设定阈值进行特征筛选,最后将词汇和特征组合转换为词向量注入所述机器学习模型进行训练。进一步地,步骤4)所述特征模板包括下列模板中的一种或多种:a)原子特征模板:将粗分词后得到的词形和词性所组成的特征作为原子特征模板。b)组合特征模板:由原子特征模板进行两两组合,形成组合特征模板;c)标记特征模板:取上下文特征本文档来自技高网
...

【技术保护点】
1.一种面向威胁情报的实体识别方法,其特征在于,包括以下步骤:1)对作为训练语料的威胁情报文本进行粗分词;2)构建威胁情报实体常用词词典库与规则库,对粗分词的结果进行词典匹配与规则匹配;3)基于词典匹配与规则匹配的结果,为每个词标注实体标签,形成训练集;4)构建特征模板,同时建立指示词库来完善特征模板的筛选形式,使用特征模板为训练集生成其上下文特征并筛选,将筛选后得到的特征输入机器学习模型进行参数迭代训练;5)对待识别的威胁情报文本进行粗分词、词典匹配和规则匹配,并利用训练完成的机器学习模型进行实体识别。

【技术特征摘要】
1.一种面向威胁情报的实体识别方法,其特征在于,包括以下步骤:1)对作为训练语料的威胁情报文本进行粗分词;2)构建威胁情报实体常用词词典库与规则库,对粗分词的结果进行词典匹配与规则匹配;3)基于词典匹配与规则匹配的结果,为每个词标注实体标签,形成训练集;4)构建特征模板,同时建立指示词库来完善特征模板的筛选形式,使用特征模板为训练集生成其上下文特征并筛选,将筛选后得到的特征输入机器学习模型进行参数迭代训练;5)对待识别的威胁情报文本进行粗分词、词典匹配和规则匹配,并利用训练完成的机器学习模型进行实体识别。2.根据权利要求1所述的方法,其特征在于,步骤1)所述粗分词包括:1.1)输入待处理字符串S=word1word2word3...wordn,其中S代表字符串,wordi表示词语,S由连续的wordi组成;1.2)从字符串S生成词序列L=List<Term>,其中Termi使用三大属性值<wordi,posi,tagi>来表示,posi表示词性,wordi与posi均在粗分词后得到初值,tagi表示标签,与机器学习时人工词性标注有关。3.根据权利要求1所述的方法,其特征在于,步骤2)采用双数组Trie树构建Aho-Corasick自动机数据结构,形成所述词典库;所述词典匹配和所述规则匹配使用试探性联合方法进行匹配。4.根据权利要求1所述的方法,其特征在于,步骤3)采用4-tags标注文法半自动化地标注实体标签,标注的实体包括机构名、人名、地名、黑客组织名、攻击名、事件名、报告名、会议名、病毒名。5.根据权利要求1所述的方法,其特征在于,步骤4)所述机器学习模型为条件随机场模型,并使用IIS训练参数,得到能够预测实体的最终模型。6.根据权利要求1所述的方法,其特征在于,步骤4)根据...

【专利技术属性】
技术研发人员:王璐姜波杜翔宇姜政伟卢志刚
申请(专利权)人:中国科学院信息工程研究所
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1