【技术实现步骤摘要】
本专利技术涉及一种语言素材库的生成方法,尤其涉及一种针对事件陈述句的句子级素材库生成方法,属于计算语言学
技术介绍
素材库也称语料库(corpus),是存储于计算机中并可利用计算机进行检索、查询、 分析的语言素材的总体。素材库具有“大规模”和“真实性”这两个特点,因此是最理想的语言知识资源。文本是最基本、最常用的信息载体。在计算机语言处理工作中,文本的加工与处理技术显得尤为重要。文本信息通常以篇章形式存在。在当前互联网诸多信息加工应用中, 也均以篇章为处理单元,如网络资讯、搜索引擎等。句子作为能够表达完整意思的最小语言单位,在信息处理与应用中,具有多种形式和价值,尤其是在媒体资讯的检索、写作、整理等过程中更是如此。而在当前存在的各种语言处理技术中,以句子为处理颗粒的尚不多见。在2003年举行的全国第七届计算语言学联合学术会议中,苗传江、刘智颖合作发表了论文《现代汉语语料的句子级语义标注》。在该论文中,讨论了一种标注现代汉语语料的方案。它有两个特点一是采取自下而上的标注方式,即先标注大的语言单位,再标注小的语言单位;二是对句子进行语义标注,标注了句子及句 ...
【技术保护点】
1.一种事件陈述句素材库的生成方法,其特征在于包括如下的步骤:(1)对于一篇文章,首先从左至右扫描,当扫描到的字符为表示长句结束的标点符号时,则将前面的内容记录为一个长句,从而将一篇文章转换为多个长句的集合;(2)针对转换后的长句的集合,结合文章的发表时间,进行时间点识别抽取处理;(3)在进行时间点识别抽取处理后,对于不存在时间点表达的长句放弃后续处理,对于存在时间点表达的长句进行后续处理;(4)对于存在时间点表达的长句,进行事件描述动词的抽取,如果不存在事件描述动词,则放弃后续处理;(5)对于上述步骤获得的长句,进行人名、地名、机构名、产品名的命名实体识别与抽取,如果这几 ...
【技术特征摘要】
【专利技术属性】
技术研发人员:宋传宝,
申请(专利权)人:天津海量信息技术有限公司,
类型:发明
国别省市:12
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。