The invention provides a domain-oriented Chinese event extraction method, which includes: preprocessing: removing redundant tags, clauses and participles from original data information; dictionary construction: analyzing large-scale news corpus manually, summarizing common roles in specific fields, and constructing role dictionary; and common sentence patterns for reporting events in specific fields. Summarize and construct a sentence pattern dictionary based on trigger words; syntactic analysis: parsing a given Chinese news report sentence to get a syntactic parsing tree; sentence pattern matching: matching on the syntactic tree according to the sentence pattern dictionary; event element extraction: role extraction on the syntactic tree according to the role dictionary, and root extraction. According to the syntactic features of time and place elements, time and place are extracted from the syntactic tree. The invention solves the problem of fast acquisition of Chinese news information in large data environment. By automatic processing, users can get news events related to keywords according to their input keywords, thus providing great convenience for information acquisition.
【技术实现步骤摘要】
一种面向特定领域的中文事件抽取方法
本专利技术涉及一种面向特定领域的中文事件抽取方法,属于自然语言处理
技术介绍
随着互联网的快速发展,互联网上的资源呈现了爆炸式的增长。在这些资源中,新闻资讯占据了重要的一块,人们获取新闻资讯的途径得到了极大的扩展,但是,面对如此多的资讯,怎样才能让人们快速地获取感兴趣的内容,这已经成为了研究者需要面对的首要问题。在这样的需求指引下,研究者投入了大量的精力到信息抽取中。信息抽取(InformationExtraction)是指从非结构化来源中自动地抽取出结构化的信息,这些信息可以是实体、实体关系、实体属性等。事件抽取(EventExtraction)是一种更复杂的信息抽取形式,它能够提供更高层次的内容处理抽象能力。事件通常是指某个特定的时间片段和地域范围内发生的,由一个或者多个角色参与,由一个或者多个动作组成的一件事情。事件抽取就是指从非结构化的信息中抽取用户感兴趣的事件,并以结构化的形式呈现给用户。目前主流的事件抽取方法主要使用基于机器学习的方法。基于机器学习方法的健壮性和灵活性较好,且比较客观,不需要太多的人工干预和领域知识。但机器学习的方法依赖大规模的语料库进行训练,且受到语料库规模的影响,数据稀疏问题比较严重,准确率较低,无法满足工业要求。因此,本专利技术实现了基于模式匹配的中文事件抽取方法。该方法接近人的思维方式,知识表示直观、自然,便于推理。通过针对中文语法和语义精心设计匹配模式,本专利技术能够高效准确地对特定领域的事件进行抽取,具有一定的工业实用价值。
技术实现思路
本专利技术技术解决问题:针对特定领域 ...
【技术保护点】
1.一种面向特定领域的中文事件抽取方法,其特征在于:该方法步骤具体如下:S1.预处理:中文事件抽取方法所面对的输入数据来自通用网络爬虫得到的中文新闻语料,预处理的工作为对爬虫获取到的数据进行初步处理,适应后续模块的处理;在预处理步骤中,对原始数据进行的操作包括:去除冗余标签,分句、分词、词性标注、去停用词、建索引;S2.字典构建:依靠人工对大规模新闻语料进行分析,对特定领域内常见角色进行总结,并构建角色字典;对报道特定领域的事件的常见句型进行总结,构建基于触发词的句型模版字典;S3.句法分析:对于给定的中文新闻报道语句,依靠成熟的自然语言处理技术进行句法解析,得到句法解析树;S4.句型匹配:根据步骤S2构建的句型模板字典在步骤S3得到的句法解析树上进行句型匹配;S5.事件要素抽取:根据步骤S2构建的角色字典在步骤S3得到的句法解析树上进行角色抽取,根据时间和地点要素的句法特征在句法解析树上进行时间和地点抽取。
【技术特征摘要】
1.一种面向特定领域的中文事件抽取方法,其特征在于:该方法步骤具体如下:S1.预处理:中文事件抽取方法所面对的输入数据来自通用网络爬虫得到的中文新闻语料,预处理的工作为对爬虫获取到的数据进行初步处理,适应后续模块的处理;在预处理步骤中,对原始数据进行的操作包括:去除冗余标签,分句、分词、词性标注、去停用词、建索引;S2.字典构建:依靠人工对大规模新闻语料进行分析,对特定领域内常见角色进行总结,并构建角色字典;对报道特定领域的事件的常见句型进行总结,构建基于触发词的句型模版字典;S3.句法分析:对于给定的中文新闻报道语句,依靠成熟的自然语言处理技术进行句法解析,得到句法解析树;S4.句型匹配:根据步骤S2构建的句型模板字典在步骤S3得到的句法解析树上进行句型匹配;S5.事件要素抽取:根据步骤S2构建的角色字典在步骤S3得到的句法解析树上进行角色抽取,根据时间和地点要素的句法特征在句法解析树上进行时间和地点抽取。2.根据权利要求1所述的一种面向特定领域的中文事件抽取方法,其特征在于:所述步骤S2具体如下:S2.1句型模板字典构建句型模板以触发词为核心,围绕该触发词的常见搭配进行模板构建,具体如下:S2.1.1:同义词归类:将含义相近的触发词进行归类,并对该类触发词指定标签;S2.1.2:归纳句型:对含有特定事件的新闻语句进行分析,总结句子的中心成分并进行模板化;S2.2角色字典构建进行事件抽取时,除了抽取事件类别,也要对事件的参与者进行抽取,通过总结分析,事件参与者主要分为:国家名,人名和组织...
【专利技术属性】
技术研发人员:赵忠华,李舟军,王昌宝,孙小宁,李欣,万欣欣,
申请(专利权)人:国家计算机网络与信息安全管理中心,北京航空航天大学,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。