一种基于中文语法规则的事件提取方法和系统技术方案

技术编号：15840428 阅读：86 留言：0更新日期：2017-07-18 16:47

本发明专利技术公开了一种基于中文语法规则的事件提取方法和系统，包括存储模块、用于通过http请求获取网页内容，并将半结构化的网页文本数据存入存储模块的数据获取模块、用于将数据获取模块获取的半结构化的网页文本数据采用自然语言处理开源工具处理成特定的数学模型的文本预处理模块、用于对文本预处理模块处理过的文本通过构建中文语法树结合中文语法规则库，提取事件五要素并存入存储模块的语法解析事件提取模块以及用于与其他模块交互数据的接口模块。本发明专利技术能将非结构化的文本事件转化成结构化的事件信息，能用于新闻网页事件提取分析，事件提取结果能直接应用于事件舆情分析、事件热度分析等。

An event extraction method and system based on Chinese grammar rules

The invention discloses a method for extracting Chinese grammar rules based event method and system, which comprises a memory module, a request for access to web content through HTTP, and the \semi-structured text data is stored in the storage module, data acquisition module for semi-structured Web text data acquisition module acquires the Natural Language Processing open source tool processing for text preprocessing module, text preprocessing module treated by combining the construction of Chinese grammar rule base Chinese syntax tree text specific mathematical model, extracting event five elements and parsing events stored in the storage module and the interface module for extracting module and other modules of interactive data. The invention can be unstructured text into structured event event information, can be used in the event of web news extraction analysis, event extraction results can be directly applied in the event of public opinion analysis, event analysis.

全部详细技术资料下载

【技术实现步骤摘要】
一种基于中文语法规则的事件提取方法和系统
本专利技术涉及自然语言处理领域，尤其是一种基于中文语法规则的事件提取方法和系统。
技术介绍
随着互联网的迅猛发展，大量的信息以电子文本的形式出现在人们面前。为了应对信息爆炸带来的挑战，迫切需要一些自动化的工具帮助人们在海量信息源中迅速找到真正需要的信息。信息抽取(InformationExtraction，IE)研究正是在这种背景下产生的。信息抽取的主要目的是将无结构的文本转化为结构化或半结构化的信息，并以数据库的形式存储，供用户查询以及进一步分析利用。比如，从新闻报道中抽取出恐怖事件的详细情况：时间、地点、作案者、受害者、袭击目标、使用的武器等；从军事新闻中抽取出军事活动的情况：军事活动的事件类型、军事活动的发生地、军事活动的时间、军事活动的事件发起者、承受者等。一般来说，信息抽取系统的处理对象是自然语言文本尤其是非结构化文本。但广义上讲，除了电子文本以外，信息抽取系统的处理对象还可以是语音、图像、视频等其他媒体类型的数据。本专利只讨论狭义上的信息抽取研究，即针对自然语言文本的信息抽取。自然语言文本的信息抽取是指从一个给...
一种基于中文语法规则的事件提取方法和系统

【技术保护点】
一种基于中文语法规则的事件提取方法，其特征在于，包括如下步骤：(1)获取网页内容，得到半结构化的网页文本数据；(2)对半结构化文本数据进行文本预处理，得到噪声相对较小的半结构化网页文本；(3)对预处理之后的文本进行词法解析，对分词结果进行词性标注；(4)进行中文语法分析，得到中文语法树；(5)标注中文语法，输出中文语法正则表达式；(6)对步骤(4)得到的中文语法树进行主从句解析，得到事件五要素；(7)对照事件类型定义，对事件类型进行识别；(8)输出事件五要素，将结构化信息存入数据库中。

【技术特征摘要】
1.一种基于中文语法规则的事件提取方法，其特征在于，包括如下步骤：(1)获取网页内容，得到半结构化的网页文本数据；(2)对半结构化文本数据进行文本预处理，得到噪声相对较小的半结构化网页文本；(3)对预处理之后的文本进行词法解析，对分词结果进行词性标注；(4)进行中文语法分析，得到中文语法树；(5)标注中文语法，输出中文语法正则表达式；(6)对步骤(4)得到的中文语法树进行主从句解析，得到事件五要素；(7)对照事件类型定义，对事件类型进行识别；(8)输出事件五要素，将结构化信息存入数据库中。2.根据权利要求1所述的一种基于中文语法规则的事件提取方法，其特征在于，所述获取网页内容具体是基于用户干预的页面解析方法，即系统通过学习生成基于Xpath的抽取规则，利用生成的抽取规则实现对相似结构新闻页面的信息抽取。3.根据权利要求1所述的一种基于中文语法规则的事件提取方法，其特征在于，步骤(2)中所述预处理具体包括如下子步骤：(2.1)对获取的半结构化的网页文本进行空白页面过滤、无效网页过滤；(2.2)利用分词工具进行分词处理；(2.3)对分词处理完的结果进行去停用词处理。4.根据权利要求1所述的一种基于中文语法规则的事件提取方法，其特征在于，步骤(3)中所述词法解析具体包括命名实体识别和关键词抽取。...

【专利技术属性】
技术研发人员：徐琳，王犇，贺成龙，葛唯益，宗士强，姜晓夏，王羽，
申请(专利权)人：中国电子科技集团公司第二十八研究所，
类型：发明
国别省市：江苏,32

全部详细技术资料下载我是这个专利的主人