一种事件陈述句素材库的生成方法技术

技术编号:6865205 阅读:331 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种事件陈述句素材库的生成方法。首先将一篇文章转换为多个长句的集合;针对转换后的长句的集合,进行时间点识别抽取处理,然后再进行事件描述动词的抽取;对于上述步骤获得的长句,进行人名、地名、机构名、产品名的命名实体识别与抽取,然后对包括事件发生时间、发生地点、事件类型在内的要素信息进行抽取标引,获得结构化结果;将事件陈述句的原始片段和结构化结果抽取出来存入数据库中,从而生成事件陈述句素材库。利用本方法所生成的事件陈述句素材库,可以在互联网中提供更新、搜索、查询等服务,也可以在媒体资讯领域为写作、编辑、专题制作等提供应用。

【技术实现步骤摘要】

本专利技术涉及一种语言素材库的生成方法,尤其涉及一种针对事件陈述句的句子级素材库生成方法,属于计算语言学

技术介绍
素材库也称语料库(corpus),是存储于计算机中并可利用计算机进行检索、查询、 分析的语言素材的总体。素材库具有“大规模”和“真实性”这两个特点,因此是最理想的语言知识资源。文本是最基本、最常用的信息载体。在计算机语言处理工作中,文本的加工与处理技术显得尤为重要。文本信息通常以篇章形式存在。在当前互联网诸多信息加工应用中, 也均以篇章为处理单元,如网络资讯、搜索引擎等。句子作为能够表达完整意思的最小语言单位,在信息处理与应用中,具有多种形式和价值,尤其是在媒体资讯的检索、写作、整理等过程中更是如此。而在当前存在的各种语言处理技术中,以句子为处理颗粒的尚不多见。在2003年举行的全国第七届计算语言学联合学术会议中,苗传江、刘智颖合作发表了论文《现代汉语语料的句子级语义标注》。在该论文中,讨论了一种标注现代汉语语料的方案。它有两个特点一是采取自下而上的标注方式,即先标注大的语言单位,再标注小的语言单位;二是对句子进行语义标注,标注了句子及句内子句的语义类型和它本文档来自技高网...

【技术保护点】
1.一种事件陈述句素材库的生成方法,其特征在于包括如下的步骤:(1)对于一篇文章,首先从左至右扫描,当扫描到的字符为表示长句结束的标点符号时,则将前面的内容记录为一个长句,从而将一篇文章转换为多个长句的集合;(2)针对转换后的长句的集合,结合文章的发表时间,进行时间点识别抽取处理;(3)在进行时间点识别抽取处理后,对于不存在时间点表达的长句放弃后续处理,对于存在时间点表达的长句进行后续处理;(4)对于存在时间点表达的长句,进行事件描述动词的抽取,如果不存在事件描述动词,则放弃后续处理;(5)对于上述步骤获得的长句,进行人名、地名、机构名、产品名的命名实体识别与抽取,如果这几种命名实体均不存在,...

【技术特征摘要】

【专利技术属性】
技术研发人员:宋传宝
申请(专利权)人:天津海量信息技术有限公司
类型:发明
国别省市:12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1