一种面向特定领域的中文事件抽取方法技术

技术编号:19634968 阅读:22 留言:0更新日期:2018-12-01 15:42
本发明专利技术一种面向特定领域的中文事件抽取方法,包括:预处理:对原始数据信息去除冗余标签、分句、分词;字典构建:人工对大规模新闻语料分析,对特定领域常见角色总结,构建角色字典;对报道特定领域事件的常见句型进行总结,构建基于触发词的句型字典;句法分析:对给定的中文新闻报道语句,进行句法解析得到句法解析树;句型匹配:根据句型字典在句法树上进行句型匹配;事件要素抽取:根据角色字典在句法树上进行角色抽取,根据时间和地点要素的句法特征在句法树上进行时间和地点抽取。本发明专利技术解决了大数据环境下快速获取中文新闻资讯信息的难题,通过自动化处理,用户根据自己输入关键词即可得到关键词相关的新闻事件,为信息获取提供极大便利。

A Domain-Oriented Chinese Event Extraction Method

The invention provides a domain-oriented Chinese event extraction method, which includes: preprocessing: removing redundant tags, clauses and participles from original data information; dictionary construction: analyzing large-scale news corpus manually, summarizing common roles in specific fields, and constructing role dictionary; and common sentence patterns for reporting events in specific fields. Summarize and construct a sentence pattern dictionary based on trigger words; syntactic analysis: parsing a given Chinese news report sentence to get a syntactic parsing tree; sentence pattern matching: matching on the syntactic tree according to the sentence pattern dictionary; event element extraction: role extraction on the syntactic tree according to the role dictionary, and root extraction. According to the syntactic features of time and place elements, time and place are extracted from the syntactic tree. The invention solves the problem of fast acquisition of Chinese news information in large data environment. By automatic processing, users can get news events related to keywords according to their input keywords, thus providing great convenience for information acquisition.

【技术实现步骤摘要】
一种面向特定领域的中文事件抽取方法
本专利技术涉及一种面向特定领域的中文事件抽取方法,属于自然语言处理

技术介绍
随着互联网的快速发展,互联网上的资源呈现了爆炸式的增长。在这些资源中,新闻资讯占据了重要的一块,人们获取新闻资讯的途径得到了极大的扩展,但是,面对如此多的资讯,怎样才能让人们快速地获取感兴趣的内容,这已经成为了研究者需要面对的首要问题。在这样的需求指引下,研究者投入了大量的精力到信息抽取中。信息抽取(InformationExtraction)是指从非结构化来源中自动地抽取出结构化的信息,这些信息可以是实体、实体关系、实体属性等。事件抽取(EventExtraction)是一种更复杂的信息抽取形式,它能够提供更高层次的内容处理抽象能力。事件通常是指某个特定的时间片段和地域范围内发生的,由一个或者多个角色参与,由一个或者多个动作组成的一件事情。事件抽取就是指从非结构化的信息中抽取用户感兴趣的事件,并以结构化的形式呈现给用户。目前主流的事件抽取方法主要使用基于机器学习的方法。基于机器学习方法的健壮性和灵活性较好,且比较客观,不需要太多的人工干预和领域知识。但机器学习的方法依赖大规模的语料库进行训练,且受到语料库规模的影响,数据稀疏问题比较严重,准确率较低,无法满足工业要求。因此,本专利技术实现了基于模式匹配的中文事件抽取方法。该方法接近人的思维方式,知识表示直观、自然,便于推理。通过针对中文语法和语义精心设计匹配模式,本专利技术能够高效准确地对特定领域的事件进行抽取,具有一定的工业实用价值。
技术实现思路
本专利技术技术解决问题:针对特定领域的中文新闻资讯,提供一种面向特定领域的中文事件抽取方法。对于互联网上发布的新闻资讯,利用自然语言处理相关技术,对资讯进行结构化的事件信息抽取,为高效获取新闻内容,资讯新闻聚合智能分析提供了基础。本专利技术技术解决方案:一种面向特定领域的中文事件抽取方法,包括:预处理、字典构建、句法分析、句型匹配、事件要素抽取。其中:S1.预处理:该中文事件抽取方法所面对的输入数据来自通用网络爬虫得到的中文新闻语料,预处理的工作为对爬虫获取到的数据进行初步处理,适应后续模块的处理。在预处理步骤中,对原始数据进行的操作包括:去除冗余标签,分句、分词、词性标注、去停用词、建索引等操作;S2.字典构建:依靠人工对大规模新闻语料进行分析,对特定领域内常见角色进行总结,并构建角色字典;对报道特定领域的事件的常见句型进行总结,构建基于触发词的句型模版字典;S2.1句型模板字典构建句型模板以触发词为核心,围绕该触发词的常见搭配进行模板构建。具体如下:S2.1.1:同义词归类。本步骤将含义相近的触发词进行归类,并对该类触发词指定标签。S2.1.2:归纳句型。对含有特定事件的新闻语句进行分析,总结句子的中心成分并进行模板化。S2.2角色字典构建进行事件抽取时,除了抽取事件类别,也要对事件的参与者进行抽取,通过总结分析,事件参与者主要分为:国家名,人名和组织名;同时对事件参与者进行归类,属于同一国家或者组织的参与者赋予相同的角色编码。S3.句法分析:对于给定的中文新闻报道语句,依靠成熟的自然语言处理技术进行句法解析,得到句法解析树;S4.句型匹配:根据步骤S2构建的句型模板字典在步骤S3得到的句法解析树上进行句型匹配;S4.1:从根节点遍历句法解析树;S4.2:若当前节点是动词词组节点,则寻找该节点下的核心动词作为触发词;S4.3:根据步骤S2获取该触发词匹配的句型模板;S4.4:从当前节点向上遍历,直到到达一个简单从句节点;在该简单从句表示的子树上,使用句型模板进行模板匹配,并获得对应的事件编码。S5.事件要素抽取:根据步骤S2构建的角色字典在步骤S3得到的句法解析树上进行角色抽取,根据时间和地点要素的句法特征在句法解析树上进行时间和地点抽取。具体如下:S5.1:从根节点遍历语法树S5.2:若当前节点是动词词组节点,按照句型匹配算法进行模板匹配,并获得事件编码;S5.3:对当前节点的每个兄弟节点,若该兄弟节点是名词短语,则对该兄弟节点上用角色字典进行匹配,匹配成功则返回事件参与者之施事者。S5.4:对当前节点的每个子节点,若该子节点是名词短语,则对该子节点上用角色字典进行匹配,匹配成功则返回事件参与者之受事者。S5.5:对当前节点的每个兄弟节点,若该兄弟节点含有时间名词,则返回该时间名词作为事件发生时间。S5.6:对当前节点的每个子节点,若该子节点含有时间名词,则返回该时间名词作为事件发生时间。S5.7:对当前节点的每个兄弟节点,若该兄弟节点是介词短语,则返回介词短语包含的地理名词作为事件发生地点。S5.8:对当前节点的每个子节点,若该子节点是介词短语,则返回介词短语包含的地理名词作为事件发生地点。本专利技术一种面向特定领域的中文事件抽取方法,其优点和功效在于:解决了大数据环境下快速获取中文新闻资讯信息的难题,通过自动化的处理,实时从互联网上获取特定领域的热点事件和重要信息。用户只需根据关键词进行索引即可获取相关信息,为信息获取提供了极大的便利。附图说明图1为本专利技术系统的组成框图。图2为本专利技术预处理流程。图3为本专利技术构建的句型模板样例。图4为本专利技术句法解析样例。图5为本专利技术句型匹配算法流程图。图6为本专利技术事件要素抽取流程图。具体实施方式下面结合附图,对本专利技术的技术方案做进一步的说明。如图1所示,本专利技术包括:预处理模块、字典构建模块、句法分析模块、句型匹配模块、事件要素抽取模块。预处理模块:对原始数据信息进行预处理,包括去除冗余标签、分句、分词等内容;字典构建模块:依靠人工对大规模新闻语料进行分析,对特定领域内常见角色进行总结,并构建角色字典;对报道特定领域的事件的常见句型进行总结,构建基于触发词的句型模版字典;句法分析模块:对于给定的中文新闻报道语句,依靠成熟的自然语言处理技术进行句法解析,得到句法解析树;句型匹配模块:根据字典构建模块构建的句型模版字典在句法树上进行句型匹配;事件要素抽取模块:根据字典构建模块构建的角色字典在句法树上进行角色抽取,根据时间和地点要素的句法特征在句法树上进行时间和地点抽取。本专利技术一种面向特定领域的中文事件抽取方法,具体步骤如下:S1.预处理整个预处理模块主要对原始数据进行预处理工作,包括去除冗余标签、分词、分句、词性标注等工作,下面逐一介绍。如图2所示,整个预处理模块过程的流程如下:S1.1去除冗余标签原始数据直接来自爬虫获取到的数据,这些数据中可能存在html标签、js代码等内容,在预处理部分,需要去除掉这些内容,否则将影响整个系统的结果。S1.2分句、分词、词性标注原始数据出去冗余标签之后,得到原始的数据文档,但是原始的数据文档包含新闻的整个部分,本系统中,需要以句子、词一级的单位进行分析建模,在这里的预处理工作中,需要对原始的数据文档进行分句、分词、词性标注的工作。S2.字典构建该模块主要构建句型字典和事件角色字典,下面具体介绍该模块的实现。对于大规模的中文新闻进行分析总结,构建基于触发词的句型模板字典;分析新闻中的重要国家,组织和人物,构建角色字典。S2.1句型模板字典构建句型模板以触发词为核心,围绕该触发词的常见搭配进行模板构建。具体如下:S2.1.1:本文档来自技高网...

【技术保护点】
1.一种面向特定领域的中文事件抽取方法,其特征在于:该方法步骤具体如下:S1.预处理:中文事件抽取方法所面对的输入数据来自通用网络爬虫得到的中文新闻语料,预处理的工作为对爬虫获取到的数据进行初步处理,适应后续模块的处理;在预处理步骤中,对原始数据进行的操作包括:去除冗余标签,分句、分词、词性标注、去停用词、建索引;S2.字典构建:依靠人工对大规模新闻语料进行分析,对特定领域内常见角色进行总结,并构建角色字典;对报道特定领域的事件的常见句型进行总结,构建基于触发词的句型模版字典;S3.句法分析:对于给定的中文新闻报道语句,依靠成熟的自然语言处理技术进行句法解析,得到句法解析树;S4.句型匹配:根据步骤S2构建的句型模板字典在步骤S3得到的句法解析树上进行句型匹配;S5.事件要素抽取:根据步骤S2构建的角色字典在步骤S3得到的句法解析树上进行角色抽取,根据时间和地点要素的句法特征在句法解析树上进行时间和地点抽取。

【技术特征摘要】
1.一种面向特定领域的中文事件抽取方法,其特征在于:该方法步骤具体如下:S1.预处理:中文事件抽取方法所面对的输入数据来自通用网络爬虫得到的中文新闻语料,预处理的工作为对爬虫获取到的数据进行初步处理,适应后续模块的处理;在预处理步骤中,对原始数据进行的操作包括:去除冗余标签,分句、分词、词性标注、去停用词、建索引;S2.字典构建:依靠人工对大规模新闻语料进行分析,对特定领域内常见角色进行总结,并构建角色字典;对报道特定领域的事件的常见句型进行总结,构建基于触发词的句型模版字典;S3.句法分析:对于给定的中文新闻报道语句,依靠成熟的自然语言处理技术进行句法解析,得到句法解析树;S4.句型匹配:根据步骤S2构建的句型模板字典在步骤S3得到的句法解析树上进行句型匹配;S5.事件要素抽取:根据步骤S2构建的角色字典在步骤S3得到的句法解析树上进行角色抽取,根据时间和地点要素的句法特征在句法解析树上进行时间和地点抽取。2.根据权利要求1所述的一种面向特定领域的中文事件抽取方法,其特征在于:所述步骤S2具体如下:S2.1句型模板字典构建句型模板以触发词为核心,围绕该触发词的常见搭配进行模板构建,具体如下:S2.1.1:同义词归类:将含义相近的触发词进行归类,并对该类触发词指定标签;S2.1.2:归纳句型:对含有特定事件的新闻语句进行分析,总结句子的中心成分并进行模板化;S2.2角色字典构建进行事件抽取时,除了抽取事件类别,也要对事件的参与者进行抽取,通过总结分析,事件参与者主要分为:国家名,人名和组织...

【专利技术属性】
技术研发人员:赵忠华李舟军王昌宝孙小宁李欣万欣欣
申请(专利权)人:国家计算机网络与信息安全管理中心北京航空航天大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1