一种基于事件抽取的敏感信息监控方法技术

技术编号：11362546 阅读：70 留言：0更新日期：2015-04-29 13:06

本发明专利技术公开了一种基于事件抽取的敏感信息监控方法。本方法为：1)构建一触发词词典和一事件元素角色词典；2)对于已标注训练语料，采用机器学习的方法训练模型，获取判断事件类别的最大熵模型MT和用于从事件句子中抽取事件元素的最大熵模型MR；3)根据触发词对需要抽取事件的语料进行过滤，将匹配到设定触发词的句子作为候选事件；4)通过最大熵模型MT对所述候选事件进行分类，获取属于设定事件类别的事件句子；5)根据事件元素角色词典和最大熵模型MR从步骤4)所得事件句子中抽取事件的各个元素词语，完成事件抽取；将抽取到的事件与被监控事件匹配，若相同，则判定抽取到的事件为敏感信息。本发明专利技术大大提高了敏感信息的监控效率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于信息
，涉及一种基于事件抽取的敏感信息监控方法，主要应用于自然语言处理、数据挖掘、信息检索、食品安全等领域。
技术介绍
随着互联网的迅速普及和发展，大量数据信息在网络中产生和传播，信息总量以指数级的增速迅猛增长。数据量大，结构不统一，冗余度较高是这些信息的特点，传统的信息获取方式已经难以满足要求，如何从浩瀚的数据海洋中快速的选取出自己感兴趣的信息成为迫切的问题。信息抽取的研究就是在这种背景下产生的。信息抽取的目的是指通过自然语言处理的方法从文档中识别抽取出人们感兴趣的信息，将无结构的文本转化为结构化或者半结构化的信息，供用户查询和进一步的分析处理。事件抽取是信息抽取的一个重要的研究方向，是将文本中人们感兴趣的事件以结构化的形式展现出来。事件是指在某个特定的时间片段和地域范围内发生的，由一个或者多个角色参与的，由一个或者多个动作组成的一件事情。目前对于事件抽取的研究主要有两种方法：模式匹配和机器学习的方法。模式匹配的方法接近人的思维方式，更关注于事件模式的定义，通过定义抽取模板进行事件抽取，准确率较高，知识表示直观、自然。但是这种方式依赖于具体的领域和格式，可移植行差，手工编写规则专业性较强，编制过程比较耗时并且难以覆盖所有的情况。基于机器学习的方法灵活性好，不需要太多的人工干预和领域知识，召回率较高，但是机器学习的方法比较依赖语料，如果语料不合适可能会对抽取结果有影响。当前机器学习的方...

【技术保护点】
一种基于事件抽取的敏感信息监控方法，其步骤为：1)构建一触发词词典和一事件元素角色词典；其中，触发词词典中每一触发词对应一事件类别，事件元素角色词典中记录每一事件中的事件元素对应的角色名称；2)对于已标注训练语料，采用机器学习的方法训练模型，获取判断事件类别的最大熵模型MT和用于从事件句子中抽取事件元素的最大熵模型MR；3)根据触发词对需要抽取事件的语料进行过滤，将匹配到设定触发词的句子作为候选事件；4)通过最大熵模型MT对所述候选事件进行分类，获取属于设定事件类别的事件句子；5)根据事件元素角色词典和最大熵模型MR从步骤4)所得事件句子中抽取事件的各个元素词语，完成事件抽取；6)将抽取到的事件与待监控事件进行匹配，若事件元素均相同，则为同一事件，即判定抽取到的事件为敏感信息。

【技术特征摘要】
1.一种基于事件抽取的敏感信息监控方法，其步骤为：
1)构建一触发词词典和一事件元素角色词典；其中，触发词词典中每一触发词对应一事
件类别，事件元素角色词典中记录每一事件中的事件元素对应的角色名称；
2)对于已标注训练语料，采用机器学习的方法训练模型，获取判断事件类别的最大熵模
型MT和用于从事件句子中抽取事件元素的最大熵模型MR；
3)根据触发词对需要抽取事件的语料进行过滤，将匹配到设定触发词的句子作为候选事
件；
4)通过最大熵模型MT对所述候选事件进行分类，获取属于设定事件类别的事件句子；
5)根据事件元素角色词典和最大熵模型MR从步骤4)所得事件句子中抽取事件的各个
元素词语，完成事件抽取；
6)将抽取到的事件与待监控事件进行匹配，若事件元素均相同，则为同一事件，即判定
抽取到的事件为敏感信息。
2.如权利要求1所述的方法，其特征在于，所述触发词词典的构建方法为：
21)初始设置一种子触发词词典，词典中的每一行包括种子触发词以及触发词对应的事
件类别，所述事件类别为涵盖需要预测的多个类别；
22)对于每一个种子触发词T，通过匹配同义词典得到其所有同义、近义词语，进行种
子触发词词典的扩充，得到所述触发词词典。
3.如权利要求1所述的方法，其特征在于，所述事件元素角色词典的构建方法为：
31)初始设置种子事件元素角色词典，词典中的每一行包括事件中的元素词语以及词语
对应的角色类别；所述角色类别涵盖每一设定事件中的多个角色类别；
32)对于每一元素词语R，通过匹配同义词典获取其所有同义、近义词语，进行事件元
素角色词典的扩充。
4.如权利要求1或2或3所述的方法，其特征在于，获取所述最大熵模型MT的方法为：
41)读取已标注训练语料，对于每一篇语料进行分段、分句处理；
42)对于得到的每一句子，通过标签判断是否包括事件信息；对于包含事件信息的句子，
对句子进行分词和词性识别，获取事件的触发词、事件类型；
43)提取事件实体的特征，然后将所提取特征生成统一格式的输入文件，通过机器学习
的方法...

【专利技术属性】
技术研发人员：杨风雷，崔现鹏，黎建辉，王鹏尧，汪海燕，周昊，
申请(专利权)人：中国科学院计算机网络信息中心，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人