一种基于事件抽取的敏感信息监控方法技术

技术编号:11362546 阅读:70 留言:0更新日期:2015-04-29 13:06
本发明专利技术公开了一种基于事件抽取的敏感信息监控方法。本方法为:1)构建一触发词词典和一事件元素角色词典;2)对于已标注训练语料,采用机器学习的方法训练模型,获取判断事件类别的最大熵模型MT和用于从事件句子中抽取事件元素的最大熵模型MR;3)根据触发词对需要抽取事件的语料进行过滤,将匹配到设定触发词的句子作为候选事件;4)通过最大熵模型MT对所述候选事件进行分类,获取属于设定事件类别的事件句子;5)根据事件元素角色词典和最大熵模型MR从步骤4)所得事件句子中抽取事件的各个元素词语,完成事件抽取;将抽取到的事件与被监控事件匹配,若相同,则判定抽取到的事件为敏感信息。本发明专利技术大大提高了敏感信息的监控效率。

【技术实现步骤摘要】

本专利技术属于信息
,涉及一种基于事件抽取的敏感信息监控方法,主要应用于自然语言处理、数据挖掘、信息检索、食品安全等领域。
技术介绍
随着互联网的迅速普及和发展,大量数据信息在网络中产生和传播,信息总量以指数级的增速迅猛增长。数据量大,结构不统一,冗余度较高是这些信息的特点,传统的信息获取方式已经难以满足要求,如何从浩瀚的数据海洋中快速的选取出自己感兴趣的信息成为迫切的问题。信息抽取的研究就是在这种背景下产生的。信息抽取的目的是指通过自然语言处理的方法从文档中识别抽取出人们感兴趣的信息,将无结构的文本转化为结构化或者半结构化的信息,供用户查询和进一步的分析处理。事件抽取是信息抽取的一个重要的研究方向,是将文本中人们感兴趣的事件以结构化的形式展现出来。事件是指在某个特定的时间片段和地域范围内发生的,由一个或者多个角色参与的,由一个或者多个动作组成的一件事情。目前对于事件抽取的研究主要有两种方法:模式匹配和机器学习的方法。模式匹配的方法接近人的思维方式,更关注于事件模式的定义,通过定义抽取模板进行事件抽取,准确率较高,知识表示直观、自然。但是这种方式依赖于具体的领域和格式,可移植行差,手工编写规则专业性较强,编制过程比较耗时并且难以覆盖所有的情况。基于机器学习的方法灵活性好,不需要太多的人工干预和领域知识,召回率较高,但是机器学习的方法比较依赖语料,如果语料不合适可能会对抽取结果有影响。当前机器学习的方法主要基于统计模型,目前常用的统计模型有隐马尔科夫模型(Hidden Markov Model,HMM)、最大熵模型(Maximum Entropy Model,ME)、支持向量机(Support Vector Machine,SVM)、条件随机场(Conditional Random Field,CRF)等。但是此种方法存在着因为语料本身问题造成的数据稀疏的问题,同时特征选取以及中文本身的复杂性影响着最终的抽取结果,实际中经常出现把非事件信息错当成事件信息抽取出来,已抽取的事件元素不完整的情形。
技术实现思路
本专利技术的目的在于提出一种基于事件抽取的敏感信息监控方法,该方法可以应用于食品安全、信息检索等领域方面的敏感信息监控工作。本专利技术首先进行事件类别判断,通过触发词对事件做初步判断,触发词直接引发事件的产生,是决定事件类别的重要特征,将匹配到触发词的句子称作候选事件。通过最大熵模型对候选事件进行多分类判断,预测概率满足阈值的成为真正的事件。之后对事件进行元素识别,通过命名实体识别、句法分析以及最大熵模型抽取出句子中的各个事件元素,最终完成事件的抽取工作。其特征是所述方法包括:步骤1:语料预处理。以食品安全领域为例,搜集食品安全相关的文本语料,对收集的设定领域的训练语料进行标注。步骤2:构建触发词词典。词典中每一行的内容包括触发词以及触发词对应的事件类别。步骤3:构建事件元素角色词典。该词典中的每一行内容包括事件中的词语以及词语对应的事件角色。比如:2014.12.25:事件时间;国家质检总局:事件发起者;词典名称叫做:事件元素角色词典即可。步骤4:对于标注的训练语料,采用机器学习的方法训练模型,获取判断事件类别的最大熵模型MT。步骤5:对于已标注的训练语料中的事件句中的每一个词语,提取词语和句子特征,训练最大熵模型MR用于从事件句子中抽取事件元素。步骤6:对于需要抽取事件的未标注语料,通过匹配触发词来判断是否是候选事件。步骤7:对于候选事件,通过应用最大熵模型MT进一步判断,获取真正的事件句子,即属于设定事件类别的事件句子。步骤8:对于真正的事件句,应用最大熵模型MR抽取事件的各个元素词语,完成事件抽取任务。步骤9:将抽取到的事件与待监控事件进行匹配,若事件元素均相同,则为同一事件,即判定抽取到的事件为敏感信息。所述步骤2具体包括:步骤201:手工制定种子触发词词典,词典中的每一行包括种子触发词以及触发词对应的事件类别,事件类别涵盖需要预测的所有类别。步骤202:对于每一个种子触发词T,通过匹配同义词典获取其所有同义、近义词语,根据一定规则进行种子触发词词典的扩充。步骤203:循环处理每一个种子触发词,直至遍历结束,构建完成触发词词典。所述步骤3具体包括:步骤301:手工制定种子事件元素角色词典,词典中的每一行包括事件中的元素词语以及词语对应的角色类别。词典中的角色类别涵盖常见事件中所有的角色类别。步骤302:对于每一个元素词语R,通过匹配同义词典获取其所有同义、近义词语,根据一定规则进行词典的扩充。步骤303:循环处理每一个种子事件元素角色词语,直至遍历结束构建完成事件元素角色词典。所述步骤4具体包括:步骤401:读取训练语料,对于每一篇语料进行分段、分句处理。步骤402:对于每一个句子,通过标签判断是否包括事件信息。步骤403:对于包含事件信息的句子,对句子进行分词和词性识别。获取事件的触发词、事件类型。不包含事件信息的句子没有事件特征,抛弃不做处理。步骤404:对包含事件信息的句子分词后提取事件实体的特征,所选的特征包括触发词、触发词的词性、触发词前面P个词语的词形以及词性、触发词后面P个词语的词形以及词性、事件类别等特征。步骤405:将所有事件的特征生成统一格式的输入文件,通过机器学习的方法训练获取最大熵模型MT。所述步骤5具体包括:步骤501:对于事件中的每一个元素词语,提取元素词语的基本特征和上下文环境特征。步骤502:将事件句中所有元素词语的特征生成统一格式的输入文件,通过机器学习的方法进行模型训练获取最大熵模型MR。所述步骤6具体包括:步骤601:读取待抽取的语料,对语料进行分段、分句处理。步骤602:对于每一个句子进行分词处理,判断词语中是否包含触发词,如果包含触发词则将句子归为候选事件句。所述步骤7具体包括:步骤701:对于候选事件句,分词后获取词语对应的词性。提取候选事件句的特征,具体特征如步骤404所述。步骤702:将提取的所有特征,生成统一格式的输入文件,应用步骤4中的最大熵模型MT进行预测,将预测概率与设定的阈值做比较,超过阈值则将候选事件划为真正的事件。所述步骤8具体包括:步骤801:对于真正的事件句进行分词、词性识别、命名实体识别以及句法分析工作。步骤802:判断分词后的每一个词语是否出现在事件角色词典中,标注事件角色特征。步骤803:提本文档来自技高网
...

【技术保护点】
一种基于事件抽取的敏感信息监控方法,其步骤为:1)构建一触发词词典和一事件元素角色词典;其中,触发词词典中每一触发词对应一事件类别,事件元素角色词典中记录每一事件中的事件元素对应的角色名称;2)对于已标注训练语料,采用机器学习的方法训练模型,获取判断事件类别的最大熵模型MT和用于从事件句子中抽取事件元素的最大熵模型MR;3)根据触发词对需要抽取事件的语料进行过滤,将匹配到设定触发词的句子作为候选事件;4)通过最大熵模型MT对所述候选事件进行分类,获取属于设定事件类别的事件句子;5)根据事件元素角色词典和最大熵模型MR从步骤4)所得事件句子中抽取事件的各个元素词语,完成事件抽取;6)将抽取到的事件与待监控事件进行匹配,若事件元素均相同,则为同一事件,即判定抽取到的事件为敏感信息。

【技术特征摘要】
1.一种基于事件抽取的敏感信息监控方法,其步骤为:
1)构建一触发词词典和一事件元素角色词典;其中,触发词词典中每一触发词对应一事
件类别,事件元素角色词典中记录每一事件中的事件元素对应的角色名称;
2)对于已标注训练语料,采用机器学习的方法训练模型,获取判断事件类别的最大熵模
型MT和用于从事件句子中抽取事件元素的最大熵模型MR;
3)根据触发词对需要抽取事件的语料进行过滤,将匹配到设定触发词的句子作为候选事
件;
4)通过最大熵模型MT对所述候选事件进行分类,获取属于设定事件类别的事件句子;
5)根据事件元素角色词典和最大熵模型MR从步骤4)所得事件句子中抽取事件的各个
元素词语,完成事件抽取;
6)将抽取到的事件与待监控事件进行匹配,若事件元素均相同,则为同一事件,即判定
抽取到的事件为敏感信息。
2.如权利要求1所述的方法,其特征在于,所述触发词词典的构建方法为:
21)初始设置一种子触发词词典,词典中的每一行包括种子触发词以及触发词对应的事
件类别,所述事件类别为涵盖需要预测的多个类别;
22)对于每一个种子触发词T,通过匹配同义词典得到其所有同义、近义词语,进行种
子触发词词典的扩充,得到所述触发词词典。
3.如权利要求1所述的方法,其特征在于,所述事件元素角色词典的构建方法为:
31)初始设置种子事件元素角色词典,词典中的每一行包括事件中的元素词语以及词语
对应的角色类别;所述角色类别涵盖每一设定事件中的多个角色类别;
32)对于每一元素词语R,通过匹配同义词典获取其所有同义、近义词语,进行事件元
素角色词典的扩充。
4.如权利要求1或2或3所述的方法,其特征在于,获取所述最大熵模型MT的方法为:
41)读取已标注训练语料,对于每一篇语料进行分段、分句处理;
42)对于得到的每一句子,通过标签判断是否包括事件信息;对于包含事件信息的句子,
对句子进行分词和词性识别,获取事件的触发词、事件类型;
43)提取事件实体的特征,然后将所提取特征生成统一格式的输入文件,通过机器学习
的方法...

【专利技术属性】
技术研发人员:杨风雷崔现鹏黎建辉王鹏尧汪海燕周昊
申请(专利权)人:中国科学院计算机网络信息中心
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1