一种基于中文语法规则的事件提取方法和系统技术方案

技术编号:15840428 阅读:55 留言:0更新日期:2017-07-18 16:47
本发明专利技术公开了一种基于中文语法规则的事件提取方法和系统,包括存储模块、用于通过http请求获取网页内容,并将半结构化的网页文本数据存入存储模块的数据获取模块、用于将数据获取模块获取的半结构化的网页文本数据采用自然语言处理开源工具处理成特定的数学模型的文本预处理模块、用于对文本预处理模块处理过的文本通过构建中文语法树结合中文语法规则库,提取事件五要素并存入存储模块的语法解析事件提取模块以及用于与其他模块交互数据的接口模块。本发明专利技术能将非结构化的文本事件转化成结构化的事件信息,能用于新闻网页事件提取分析,事件提取结果能直接应用于事件舆情分析、事件热度分析等。

An event extraction method and system based on Chinese grammar rules

The invention discloses a method for extracting Chinese grammar rules based event method and system, which comprises a memory module, a request for access to web content through HTTP, and the \semi-structured text data is stored in the storage module, data acquisition module for semi-structured Web text data acquisition module acquires the Natural Language Processing open source tool processing for text preprocessing module, text preprocessing module treated by combining the construction of Chinese grammar rule base Chinese syntax tree text specific mathematical model, extracting event five elements and parsing events stored in the storage module and the interface module for extracting module and other modules of interactive data. The invention can be unstructured text into structured event event information, can be used in the event of web news extraction analysis, event extraction results can be directly applied in the event of public opinion analysis, event analysis.

【技术实现步骤摘要】
一种基于中文语法规则的事件提取方法和系统
本专利技术涉及自然语言处理领域,尤其是一种基于中文语法规则的事件提取方法和系统。
技术介绍
随着互联网的迅猛发展,大量的信息以电子文本的形式出现在人们面前。为了应对信息爆炸带来的挑战,迫切需要一些自动化的工具帮助人们在海量信息源中迅速找到真正需要的信息。信息抽取(InformationExtraction,IE)研究正是在这种背景下产生的。信息抽取的主要目的是将无结构的文本转化为结构化或半结构化的信息,并以数据库的形式存储,供用户查询以及进一步分析利用。比如,从新闻报道中抽取出恐怖事件的详细情况:时间、地点、作案者、受害者、袭击目标、使用的武器等;从军事新闻中抽取出军事活动的情况:军事活动的事件类型、军事活动的发生地、军事活动的时间、军事活动的事件发起者、承受者等。一般来说,信息抽取系统的处理对象是自然语言文本尤其是非结构化文本。但广义上讲,除了电子文本以外,信息抽取系统的处理对象还可以是语音、图像、视频等其他媒体类型的数据。本专利只讨论狭义上的信息抽取研究,即针对自然语言文本的信息抽取。自然语言文本的信息抽取是指从一个给定的文档集合中自动识别出预先设定的实体、关系和事件等类型信息,并将这些信息结构化存储的过程。比如:我们可以从文档中识别出人名、地名、机构名、数字、时间等类别的实体,这类工作称之为命名实体识别;从文档中识别出实体之间或实体及其属性之间的关系,称之为关系信息抽取;从文档中识别出某个事件发生的时间、地点、事件的参与者等信息,称之为事件信息抽取。其中,事件信息抽取是本专利的
技术实现思路

技术实现思路
专利技术目的:针对上述现有技术的不足,本专利技术旨在提供一种针对中文通过进行中文语法规则标注搜集,进行中文事件要素提取的方法,具有通用性,能够针对中文文本基于中文语法规则以及中文实体字典库进行事件抽取,能灵活的应用于各种类型的事件信息提取工具中。技术方案:本专利技术提供的一种基于中文语法规则的事件提取方法,包括如下步骤:(1)获取网页内容,得到半结构化的网页文本数据;(2)对半结构化文本数据进行文本预处理,得到噪声相对较小的半结构化网页文本;(3)对预处理之后的文本进行词法解析,对分词结果进行词性标注;(4)进行中文语法分析,得到中文语法树;(5)标注中文语法,输出中文语法正则表达式;(6)对步骤(4)得到的中文语法树进行主从句解析,得到事件五要素;(7)对照事件类型定义,对事件类型进行识别;(8)输出事件五要素,将结构化信息存入数据库中。进一步的,所述获取网页内容具体是基于用户干预的页面解析方法,即系统通过学习生成基于Xpath的抽取规则,利用生成的抽取规则实现对相似结构新闻页面的信息抽取。进一步的,步骤(2)中所述预处理具体包括如下子步骤:(2.1)对获取的半结构化的网页文本进行空白页面过滤、无效网页过滤;(2.2)利用分词工具进行分词处理;(2.3)对分词处理完的结果进行去停用词处理。进一步的,步骤(3)中所述词法解析具体包括命名实体识别和关键词抽取。进一步的,步骤(4)所述中文语法分析是利用斯坦福中文语法分析工具进行的中文语法分析。进一步的,所述步骤(6)具体为:根据句子的短语句法分析树或依存关系树的结构,以及词或短语的词法、语法、语义特征,识别并标识出词的语法成分,结合中文语法规则库,生成中文事件链。一种基于中文语法规则的事件提取系统,包括存储模块、用于通过http请求获取网页内容,并将半结构化的网页文本数据存入存储模块的数据获取模块、用于将数据获取模块获取的半结构化的网页文本数据采用自然语言处理开源工具处理成特定的数学模型的文本预处理模块、用于对文本预处理模块处理过的文本通过构建中文语法树结合中文语法规则库,提取事件五要素并存入存储模块的语法解析事件提取模块以及用于与其他模块交互数据的接口模块。进一步的,所述文本预处理模块包括用于文本降噪和实体识别的实体解析模块和用于分词、词性标注、去除停用词和句法解析的词性解析模块。进一步的,所述存储模块采用轻量级的结构化数据库。有益效果:与现有技术相比,本专利技术具有以下优点,(1)针对文本预处理中的分词和词性标注进行了深入的对比研究,基于维基类别-链接的词语相似度计算为基础,构建新闻篇章词汇链的方法。(2)通过研究语言学和事件语义学,定义了中文语法正则表达式的结构,并通过对汉语中多种不同句式的分析,探索出了与之相对应的主谓宾表达式的定义规则,并给出了构建方法。(3)先对实体词典进行优化,在此基础上通过计算每个句子中与所选谓词有关联的强词汇链的个数多少,来确定其在表达主旨的贡献程度,取贡献最大者作为事件触发词,并以该谓词的谓词-论元表达式来表示事件,最后将主干事件串联,构成了篇章的主干事件链。(4)结构数据源获取以及数据库存储技术,开发了一种基于中文语法规则的时间提取系统,该系统能直接应用于文本事件获取,以及能作为事件提取工具用于与大数据分析计算系统中,作为其他数据分析模块的数据输入工具。附图说明图1为本专利技术基于中文语法规则的事件提取的系统的总体框图。图2为本专利技术模块数据流图。图3为本专利技术系统流程图。图4为本专利技术网络信息获取流程图。具体实施方式:下面结合附图和具体实施方式对本专利技术做更进一步的具体说明。本专利技术基于自然语言处理开源工具,构建中文语法树,结合中文语法规则,构建基于中文语法规则的中文事件提取系统RBCEES(Rule-BasedChineseEventExtractSystem),提取事件五要素,即:事件发生时间、事件发生地点、事件发起者、事件承受者、事件内容。信息抽取的主要目的是将无结构化的文本转化成机构化或者半结构化的信息,并以数据库的方式存储,便于用户查询和进一步事件分析和利用。事件抽取是信息抽取的一个重要分支,本专利技术能将非结构化的文本事件转化成结构化的事件信息,本专利技术能用于新闻网页事件提取分析,事件提取结果能直接应用于事件舆情分析、事件热度分析等。一种基于中文语法规则的事件提取系统,包括存储模块、数据获取模块、文本预处理模块、语法解析事件提取模块以及接口模块。数据获取模块用于通过http请求获取网页内容,并将半结构化的网页文本数据存入存储模块;数据获取模块将指定的网站的网页文本内容通过http请求的方式获取,获取的网页内容包括文本以及文本内包含的图片,内容获取之后,保存本地源文件并将半结构化的网页文本数据存入数据库中,数据库即存储模块中的数据库,其他模块可以通过通用的数据访问结构获取网页内容。文本预处理模块用于将数据获取模块获取的半结构化的网页文本数据采用自然语言处理开源工具处理成特定的数学模型;文本预处理是自然语言处理的第一个阶段,是上层处理的基础。文本预处理模块包括用于文本降噪和实体识别的实体解析模块和用于分词、词性标注、去除停用词和句法解析的词性解析模块。文本预处理之后需要对预处理后的语料进行命名实体识别和关键词抽取。语法解析事件提取模块用于对文本预处理模块处理过的文本通过构建中文语法树结合中文语法规则库,提取事件五要素并存入存储模块;语法解析事件提取模块根据中文句法语法规则生成中文语法树,根据句子的短语句法分析树或依存关系树的结构,以及词或短语的词法、语法、语义特征,来识别并标识出词的语法成分本文档来自技高网...
一种基于中文语法规则的事件提取方法和系统

【技术保护点】
一种基于中文语法规则的事件提取方法,其特征在于,包括如下步骤:(1)获取网页内容,得到半结构化的网页文本数据;(2)对半结构化文本数据进行文本预处理,得到噪声相对较小的半结构化网页文本;(3)对预处理之后的文本进行词法解析,对分词结果进行词性标注;(4)进行中文语法分析,得到中文语法树;(5)标注中文语法,输出中文语法正则表达式;(6)对步骤(4)得到的中文语法树进行主从句解析,得到事件五要素;(7)对照事件类型定义,对事件类型进行识别;(8)输出事件五要素,将结构化信息存入数据库中。

【技术特征摘要】
1.一种基于中文语法规则的事件提取方法,其特征在于,包括如下步骤:(1)获取网页内容,得到半结构化的网页文本数据;(2)对半结构化文本数据进行文本预处理,得到噪声相对较小的半结构化网页文本;(3)对预处理之后的文本进行词法解析,对分词结果进行词性标注;(4)进行中文语法分析,得到中文语法树;(5)标注中文语法,输出中文语法正则表达式;(6)对步骤(4)得到的中文语法树进行主从句解析,得到事件五要素;(7)对照事件类型定义,对事件类型进行识别;(8)输出事件五要素,将结构化信息存入数据库中。2.根据权利要求1所述的一种基于中文语法规则的事件提取方法,其特征在于,所述获取网页内容具体是基于用户干预的页面解析方法,即系统通过学习生成基于Xpath的抽取规则,利用生成的抽取规则实现对相似结构新闻页面的信息抽取。3.根据权利要求1所述的一种基于中文语法规则的事件提取方法,其特征在于,步骤(2)中所述预处理具体包括如下子步骤:(2.1)对获取的半结构化的网页文本进行空白页面过滤、无效网页过滤;(2.2)利用分词工具进行分词处理;(2.3)对分词处理完的结果进行去停用词处理。4.根据权利要求1所述的一种基于中文语法规则的事件提取方法,其特征在于,步骤(3)中所述词法解析具体包括命名实体识别和关键词抽取。...

【专利技术属性】
技术研发人员:徐琳王犇贺成龙葛唯益宗士强姜晓夏王羽
申请(专利权)人:中国电子科技集团公司第二十八研究所
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1