一种双语篇章标注方法技术

技术编号:13837962 阅读:117 留言:0更新日期:2016-10-16 00:32
本发明专利技术公开了一种双语篇章标注方法,该方法包括:步骤1,对双语句子对中的源语言端和目标语言端句子分别进行自动分词、自动词对齐与自动篇章分析,得到词对齐信息和两端的篇章分析树;步骤2,根据所述步骤1得到的词对齐信息和两端的篇章分析树得到两端句子中基本篇章单元的对应关系;步骤3,根据所述步骤2得到的两端句子中的基本篇章单元及其对应关系,构建双语篇章结构。本发明专利技术能够对双语平行句子进行较高一致性的篇章分析。在中英语言对上,经过标注实验的验证:相对于已有的单语篇章分析方法,本发明专利技术方法能分析得到一致性程度更高的篇章分析结果,从篇章的切分信息,到篇章的结构信息都有较高的一致性提升。

【技术实现步骤摘要】

本专利技术涉及自然语言处理
,是一种新颖的面向双语场景的篇章标注方法。
技术介绍
在自然语言处理任务中,其基本单位从小到大可以分为词、短语、句子最后形成篇章。而篇章分析的目的就是要从整体上对句子进行语义级别的分析以及理解。与句法分析类似,篇章分析是许多自然语言处理任务的中间环节,它被使用在各种任务中,例如:自动文摘,问答系统,机器翻译,机器理解,文本生成等。篇章技术之所以受到关注的主要原因在于以下几点:(1)与句法分析以词为最基本的分析单位不同,篇章分析中以基本篇章单元为基本单元,基本篇章单元切分块通常与人类的语言理解一致;(2)基本篇章单元之间的关系包含了相应的基本篇章单元在整个篇章中的语义功能信息;(3)篇章的结构也表示了整个段落或者句子的组织方式。因此,随着对语义级别信息的需求日益增大,一些研究者们提出了许多篇章标注的方法与相应的语料,其中比较重要的是修辞结构理论篇章标注方法。修辞结构理论是由文献“Matthiessen,Christian M.I.M.and Sandra A.Thompson(1987).The Structure of Discourse and″Subordination″.Clause Combining in Discourse and Grammar,ed.by J.Haiman and S.A.Thompson.Amsterdam,John Benjamins.”等提出的有关篇章分析和生成的理论,主要针对的是篇章连贯性问题。在具体的操作中,修辞结构风格的篇章分析首先将整个文本(句子)完整切分成不重合的基本篇章单元,然后通过判断相邻两个基本篇章单元语义关系是否连接紧密,进而依次将这些基本篇章单元结合到一起成为新的语义块,并判断连接两个语义块的修辞结构关系,不断迭代上述两个过程,最后直至整个句子只剩下一个语义块,并最终得
到篇章结构树,至此篇章分析过程结束。一个基于修辞结构理论的篇章分析过程如下所示:测试句子为:“报道称,科学家完成了这些染色体的定序,这些染色体与初期失智症有关。”。针对该句子的汉语篇章分析过程分成三个步骤,如下所示(其中EDU指的是基本篇章单元):第1步:EDUs={“e1:报道称,”“e2:科学家完成了对这些染色体的定序,”“e3:这些染色体与初期失智症有关。”本文档来自技高网
...

【技术保护点】
一种双语篇章标注方法,其特征在于,所述方法包括以下步骤:步骤1,对双语句子对中的源语言端和目标语言端句子分别进行自动分词、自动词对齐与自动篇章分析,得到词对齐信息和两端的篇章分析树;步骤2,根据所述步骤1得到的词对齐信息和两端的篇章分析树得到两端句子中基本篇章单元的对应关系;步骤3,根据所述步骤2得到的两端句子中的基本篇章单元及其对应关系,构建双语篇章结构。

【技术特征摘要】
1.一种双语篇章标注方法,其特征在于,所述方法包括以下步骤:步骤1,对双语句子对中的源语言端和目标语言端句子分别进行自动分词、自动词对齐与自动篇章分析,得到词对齐信息和两端的篇章分析树;步骤2,根据所述步骤1得到的词对齐信息和两端的篇章分析树得到两端句子中基本篇章单元的对应关系;步骤3,根据所述步骤2得到的两端句子中的基本篇章单元及其对应关系,构建双语篇章结构。2.根据权利要求1所述的方法,其特征在于,所述篇章分析树至少包括篇章切分、篇章结构和篇章关系信息。3.根据权利要求1所述的方法,其特征在于,所述步骤2进一步包括以下步骤:步骤21,通过词对齐信息建立两端篇章分析树的词级别对应关系;步骤22,根据两端篇章分析树,建立两端基本篇章单元到词的映射包含关系;步骤23,根据步骤21和步骤22中得到的词级别对应关系和基本篇章单元到词的映射包含关系,抽取两端基本篇章单元级别的映射关系。4.根据权利要求3所述的方法,其特征在于,所述步骤23抽取的基本篇章单元级别的映射关系包括:一端与另一端基本篇章单元一一对应的关系和一端与另一端基本篇章单元一对多的对应关系。5.根据权利要求1所述的方法,其特征在于,所述步骤3进一步包括以下步骤:步骤31,根据所述步骤2得到的...

【专利技术属性】
技术研发人员:张家俊刘洋宗成庆
申请(专利权)人:中国科学院自动化研究所
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1