【技术实现步骤摘要】
本专利技术涉及自然语言处理
,是一种新颖的面向双语场景的篇章标注方法。
技术介绍
在自然语言处理任务中,其基本单位从小到大可以分为词、短语、句子最后形成篇章。而篇章分析的目的就是要从整体上对句子进行语义级别的分析以及理解。与句法分析类似,篇章分析是许多自然语言处理任务的中间环节,它被使用在各种任务中,例如:自动文摘,问答系统,机器翻译,机器理解,文本生成等。篇章技术之所以受到关注的主要原因在于以下几点:(1)与句法分析以词为最基本的分析单位不同,篇章分析中以基本篇章单元为基本单元,基本篇章单元切分块通常与人类的语言理解一致;(2)基本篇章单元之间的关系包含了相应的基本篇章单元在整个篇章中的语义功能信息;(3)篇章的结构也表示了整个段落或者句子的组织方式。因此,随着对语义级别信息的需求日益增大,一些研究者们提出了许多篇章标注的方法与相应的语料,其中比较重要的是修辞结构理论篇章标注方法。修辞结构理论是由文献“Matthiessen,Christian M.I.M.and Sandra A.Thompson(1987).The Structure of Discourse and″Subordination″.Clause Combining in Discourse and Grammar,ed.by J.Haiman and S.A.Thompson.Amsterdam,John Benjamins.”等提出的有关篇章分析和生成的理论,主要针对的是篇章连贯性问题。在具体的操作中,修辞结构风格的篇章分析首先将整个文本(句子)完整切分成不重合的基本篇章单 ...
【技术保护点】
一种双语篇章标注方法,其特征在于,所述方法包括以下步骤:步骤1,对双语句子对中的源语言端和目标语言端句子分别进行自动分词、自动词对齐与自动篇章分析,得到词对齐信息和两端的篇章分析树;步骤2,根据所述步骤1得到的词对齐信息和两端的篇章分析树得到两端句子中基本篇章单元的对应关系;步骤3,根据所述步骤2得到的两端句子中的基本篇章单元及其对应关系,构建双语篇章结构。
【技术特征摘要】
1.一种双语篇章标注方法,其特征在于,所述方法包括以下步骤:步骤1,对双语句子对中的源语言端和目标语言端句子分别进行自动分词、自动词对齐与自动篇章分析,得到词对齐信息和两端的篇章分析树;步骤2,根据所述步骤1得到的词对齐信息和两端的篇章分析树得到两端句子中基本篇章单元的对应关系;步骤3,根据所述步骤2得到的两端句子中的基本篇章单元及其对应关系,构建双语篇章结构。2.根据权利要求1所述的方法,其特征在于,所述篇章分析树至少包括篇章切分、篇章结构和篇章关系信息。3.根据权利要求1所述的方法,其特征在于,所述步骤2进一步包括以下步骤:步骤21,通过词对齐信息建立两端篇章分析树的词级别对应关系;步骤22,根据两端篇章分析树,建立两端基本篇章单元到词的映射包含关系;步骤23,根据步骤21和步骤22中得到的词级别对应关系和基本篇章单元到词的映射包含关系,抽取两端基本篇章单元级别的映射关系。4.根据权利要求3所述的方法,其特征在于,所述步骤23抽取的基本篇章单元级别的映射关系包括:一端与另一端基本篇章单元一一对应的关系和一端与另一端基本篇章单元一对多的对应关系。5.根据权利要求1所述的方法,其特征在于,所述步骤3进一步包括以下步骤:步骤31,根据所述步骤2得到的...
【专利技术属性】
技术研发人员:张家俊,刘洋,宗成庆,
申请(专利权)人:中国科学院自动化研究所,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。