The invention discloses a method for extracting Chinese grammar rules based event method and system, which comprises a memory module, a request for access to web content through HTTP, and the \semi-structured text data is stored in the storage module, data acquisition module for semi-structured Web text data acquisition module acquires the Natural Language Processing open source tool processing for text preprocessing module, text preprocessing module treated by combining the construction of Chinese grammar rule base Chinese syntax tree text specific mathematical model, extracting event five elements and parsing events stored in the storage module and the interface module for extracting module and other modules of interactive data. The invention can be unstructured text into structured event event information, can be used in the event of web news extraction analysis, event extraction results can be directly applied in the event of public opinion analysis, event analysis.
【技术实现步骤摘要】
一种基于中文语法规则的事件提取方法和系统
本专利技术涉及自然语言处理领域,尤其是一种基于中文语法规则的事件提取方法和系统。
技术介绍
随着互联网的迅猛发展,大量的信息以电子文本的形式出现在人们面前。为了应对信息爆炸带来的挑战,迫切需要一些自动化的工具帮助人们在海量信息源中迅速找到真正需要的信息。信息抽取(InformationExtraction,IE)研究正是在这种背景下产生的。信息抽取的主要目的是将无结构的文本转化为结构化或半结构化的信息,并以数据库的形式存储,供用户查询以及进一步分析利用。比如,从新闻报道中抽取出恐怖事件的详细情况:时间、地点、作案者、受害者、袭击目标、使用的武器等;从军事新闻中抽取出军事活动的情况:军事活动的事件类型、军事活动的发生地、军事活动的时间、军事活动的事件发起者、承受者等。一般来说,信息抽取系统的处理对象是自然语言文本尤其是非结构化文本。但广义上讲,除了电子文本以外,信息抽取系统的处理对象还可以是语音、图像、视频等其他媒体类型的数据。本专利只讨论狭义上的信息抽取研究,即针对自然语言文本的信息抽取。自然语言文本的信息抽取是指从一个给定的文档集合中自动识别出预先设定的实体、关系和事件等类型信息,并将这些信息结构化存储的过程。比如:我们可以从文档中识别出人名、地名、机构名、数字、时间等类别的实体,这类工作称之为命名实体识别;从文档中识别出实体之间或实体及其属性之间的关系,称之为关系信息抽取;从文档中识别出某个事件发生的时间、地点、事件的参与者等信息,称之为事件信息抽取。其中,事件信息抽取是本专利的
技术实现思路
。
技术实现思路
专利技 ...
【技术保护点】
一种基于中文语法规则的事件提取方法,其特征在于,包括如下步骤:(1)获取网页内容,得到半结构化的网页文本数据;(2)对半结构化文本数据进行文本预处理,得到噪声相对较小的半结构化网页文本;(3)对预处理之后的文本进行词法解析,对分词结果进行词性标注;(4)进行中文语法分析,得到中文语法树;(5)标注中文语法,输出中文语法正则表达式;(6)对步骤(4)得到的中文语法树进行主从句解析,得到事件五要素;(7)对照事件类型定义,对事件类型进行识别;(8)输出事件五要素,将结构化信息存入数据库中。
【技术特征摘要】
1.一种基于中文语法规则的事件提取方法,其特征在于,包括如下步骤:(1)获取网页内容,得到半结构化的网页文本数据;(2)对半结构化文本数据进行文本预处理,得到噪声相对较小的半结构化网页文本;(3)对预处理之后的文本进行词法解析,对分词结果进行词性标注;(4)进行中文语法分析,得到中文语法树;(5)标注中文语法,输出中文语法正则表达式;(6)对步骤(4)得到的中文语法树进行主从句解析,得到事件五要素;(7)对照事件类型定义,对事件类型进行识别;(8)输出事件五要素,将结构化信息存入数据库中。2.根据权利要求1所述的一种基于中文语法规则的事件提取方法,其特征在于,所述获取网页内容具体是基于用户干预的页面解析方法,即系统通过学习生成基于Xpath的抽取规则,利用生成的抽取规则实现对相似结构新闻页面的信息抽取。3.根据权利要求1所述的一种基于中文语法规则的事件提取方法,其特征在于,步骤(2)中所述预处理具体包括如下子步骤:(2.1)对获取的半结构化的网页文本进行空白页面过滤、无效网页过滤;(2.2)利用分词工具进行分词处理;(2.3)对分词处理完的结果进行去停用词处理。4.根据权利要求1所述的一种基于中文语法规则的事件提取方法,其特征在于,步骤(3)中所述词法解析具体包括命名实体识别和关键词抽取。...
【专利技术属性】
技术研发人员:徐琳,王犇,贺成龙,葛唯益,宗士强,姜晓夏,王羽,
申请(专利权)人:中国电子科技集团公司第二十八研究所,
类型:发明
国别省市:江苏,32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。