一种面向威胁情报的实体识别方法及系统技术方案

技术编号：21299451 阅读：25 留言：0更新日期：2019-06-12 07:53

本发明专利技术涉及一种面向威胁情报的实体识别方法及系统。该方法包括：1)对作为训练语料的威胁情报文本进行粗分词；2)构建威胁情报实体常用词词典库与规则库，对粗分词的结果进行词典匹配与规则匹配；3)基于匹配结果，为每个词标注实体标签，形成训练集；4)构建特征模板，同时建立指示词库来完善特征模板的筛选形式，使用特征模板为训练集生成其上下文特征并筛选，将筛选后得到的特征输入机器学习模型进行参数迭代训练；5)对待识别的威胁情报文本进行粗分词、词典匹配和规则匹配，利用训练完成的机器学习模型进行实体识别。本发明专利技术采用了规则、词典、模型相结合的手段完成威胁情报实体抽取，显著提高了威胁情报的实体识别精度。

An Entity Recognition Method and System for Threat Intelligence

The invention relates to an entity identification method and system for threat intelligence. The method includes: (1) rough segmentation of threatening intelligence text as training corpus; (2) building dictionary and rule base of common words in threatening intelligence entities, matching dictionary and rule base of rough segmentation results; (3) labeling entity labels for each word based on matching results, forming training set; (4) building feature templates, and establishing indicator thesaurus to improve the screening of feature templates. In the form, feature templates are used to generate context features for training set and filter them. The filtered features are input into machine learning model for parameter iteration training. 5) Threat information text is roughly segmented, dictionary matched and rule matched, and entity recognition is carried out using machine learning model completed by training. The method adopts the method of combining rules, dictionaries and models to extract threat information entities, and significantly improves the identification accuracy of threat information entities.

全部详细技术资料下载

【技术实现步骤摘要】
一种面向威胁情报的实体识别方法及系统
本专利技术提出一种面向威胁情报的实体识别方法及系统，它引用了威胁情报领域的语言学标准，涵盖自然语言处理的规则提取、词典提取与机器学习方法，一共可以抽取28种相关实体，属于计算机科学与网络安全学的交叉学科。
技术介绍
当前我国的网民规模已经达到了7.72个亿，与此同时，我国不断遭受着严重的网络攻击，大规模安全事件的爆发，急剧危及网络空间安全态势。为适应网络威胁的快速演变，各国网络安全分析人员正积极从各威胁情报公共来源(例如博客，论坛，软件厂商公告栏，官方新闻等)统计网络安全指标(IndicatorsofCompromise,IOC)(例如恶意软件签名，僵尸网络IP等)及数据，并依靠威胁情报文档来了解各方面漏洞，确定补丁的优先级以及追踪漏洞线索等，以提高国家网络的安全系数。随着网络威胁情报数据在不断涌现，在大量知识产出过程中，建立一个有知识整理、检索与知识发现能力以及开放互联、有语义处理能力的威胁情报知识库具有重大意义。它能够及时从海量非结构化文本中抽取出机器可读的有价值的结构化知识，以便系统自动分析和快速部署到入侵检测系统等各种安全机制。建立该知识库的数据基础即从威胁情报中抽取出的有效信息。实体识别技术的研究是威胁情报信息抽取的一项子任务，旨在识别文本中的威胁情报实体，在此基础上可以进一步展开威胁情报中的关系属性识别、图谱可视化与知识推理等工作。根据中国科学院国家网络空间威胁情报共享开放平台(ChineseCyberspaceThreatIntelligenceCollaboration，CNTIC)的文件《CNTIC数...

【技术保护点】
1.一种面向威胁情报的实体识别方法，其特征在于，包括以下步骤：1)对作为训练语料的威胁情报文本进行粗分词；2)构建威胁情报实体常用词词典库与规则库，对粗分词的结果进行词典匹配与规则匹配；3)基于词典匹配与规则匹配的结果，为每个词标注实体标签，形成训练集；4)构建特征模板，同时建立指示词库来完善特征模板的筛选形式，使用特征模板为训练集生成其上下文特征并筛选，将筛选后得到的特征输入机器学习模型进行参数迭代训练；5)对待识别的威胁情报文本进行粗分词、词典匹配和规则匹配，并利用训练完成的机器学习模型进行实体识别。

【技术特征摘要】
1.一种面向威胁情报的实体识别方法，其特征在于，包括以下步骤：1)对作为训练语料的威胁情报文本进行粗分词；2)构建威胁情报实体常用词词典库与规则库，对粗分词的结果进行词典匹配与规则匹配；3)基于词典匹配与规则匹配的结果，为每个词标注实体标签，形成训练集；4)构建特征模板，同时建立指示词库来完善特征模板的筛选形式，使用特征模板为训练集生成其上下文特征并筛选，将筛选后得到的特征输入机器学习模型进行参数迭代训练；5)对待识别的威胁情报文本进行粗分词、词典匹配和规则匹配，并利用训练完成的机器学习模型进行实体识别。2.根据权利要求1所述的方法，其特征在于，步骤1)所述粗分词包括：1.1)输入待处理字符串S＝word1word2word3...wordn，其中S代表字符串，wordi表示词语，S由连续的wordi组成；1.2)从字符串S生成词序列L＝List＜Term＞，其中Termi使用三大属性值＜wordi,posi,tagi＞来表示，posi表示词性，wordi与posi均在粗分词后得到初值，tagi表示标签，与机器学习时人工词性标注有关。3.根据权利要求1所述的方法，其特征在于，步骤2)采用双数组Trie树构建Aho-Corasick自动机数据结构，形成所述词典库；所述词典匹配和所述规则匹配使用试探性联合方法进行匹配。4.根据权利要求1所述的方法，其特征在于，步骤3)采用4-tags标注文法半自动化地标注实体标签，标注的实体包括机构名、人名、地名、黑客组织名、攻击名、事件名、报告名、会议名、病毒名。5.根据权利要求1所述的方法，其特征在于，步骤4)所述机器学习模型为条件随机场模型，并使用IIS训练参数，得到能够预测实体的最终模型。6.根据权利要求1所述的方法，其特征在于，步骤4)根据...

【专利技术属性】
技术研发人员：王璐，姜波，杜翔宇，姜政伟，卢志刚，
申请(专利权)人：中国科学院信息工程研究所，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人