多语言自动文摘方法技术

技术编号:15690955 阅读:59 留言:0更新日期:2017-06-24 03:46
本发明专利技术涉及一种多语言自动文摘方法,包括以下步骤:步骤101,获取多个目标语言文档中的多个谓词论元结构;步骤102,对所述多个谓词论元结构中的每一个谓词论元进行重要性打分;步骤103,根据所述每一个谓词论元的重要性得分,生成目标语言摘要。本发明专利技术中,实现了获取指定语言的摘要,且在保证该摘要含有更多的重要信息的信息量时,提高可读性。

Multilingual automatic summarization method

The invention relates to a multi language automatic text summarization method, which comprises the following steps: 101, to obtain more predicates the plurality of target language document in the argument structure; step 102, the plurality of predicates on each predicate argument structure element in the importance of scoring; step 103, according to the importance of each predicate argument points, generate the target language abstract. In the present invention, a summary of a given language is achieved, and readability is improved when the amount of information that contains more important information is guaranteed.

【技术实现步骤摘要】
多语言自动文摘方法
本专利技术涉及自然语言处理
,尤其涉及一种多语言自动文摘方法。
技术介绍
随着大数据时代到来,多语言信息,例如多语言新闻文档随处可见。有效地分析多语言文档集合,获取其中的重要信息,并按照用户需求的语言呈现给用户,可以帮助用户快速、便利地理解该文档集合的主体信息。以中文、英文文档集合生成中文摘要为例,最简单的做法是首先将英文文档通过机器翻译翻译为中文,然后将其与中文文档一起,通过传统的多文档自动摘要方法,生成中文摘要。然而,机器翻译的效果往往不能令人满意,存在很多错误,使得机器翻译译文的可读性较差。多语言自动文摘评测会议(MSE)在2005年进行了多语言自动文摘评测,DaumeIII和Marcu获得了评测的冠军,并和其他队伍得出类似的结论:当不使用机器翻译译文文档集合时,摘要的ROUGE得分(一种评价生成摘要和参考摘要重合度的指标)最高。一方面,机器翻译译文存在很多错误,使用机器翻译译文会引入很多噪音,降低可读性;另一方面,机器翻译译文文档中的信息不会被非译文文档完全覆盖,即机器翻译译文文档仍然会给我们提供很多有价值的信息,我们还是需要利用机器翻译译文增强摘要的信息量。多语言自动文摘方法需要平衡可读性和信息量。
技术实现思路
为了解决现有技术中的上述问题,即为了实现如何获取指定语言的摘要,且在保证该摘要含有更多的重要信息的信息量时,提高可读性。基于此,本专利技术提供了一种多语言自动文摘方法,包括以下步骤:步骤1,获取多个目标语言文档中的多个谓词论元结构;步骤2,对所述多个谓词论元结构中的每一个谓词论元进行重要性打分;步骤3,根据所述每一个谓词论元的重要性得分,生成目标语言摘要。优选地,对所述谓多个词论元结构中的每一个谓词论元进行重要性打分,包括如下步骤:步骤21,计算组成所述谓词论元的词向量的加权平均数,得到所述谓词论元的短语向量;步骤22,根据所述谓词论元的短语向量计算所述谓词论元结构中谓词论元的相似度;步骤23,利用所述相似度获取语义相同的谓词论元;步骤24,根据所述相似度计算谓词论元的重要性得分。优选地,所述根据所述谓词论元的短语向量计算所述谓词论元结构中谓词论元的相似度,具体包括:在每一目标语言文档中分别任选一个谓词论元,每两个谓词论元根据各自的短语向量计算该两个间的相似度,直至所有目标语言文档中的所有个谓词论元均任意两个匹配计算完相似度为止。优选地,所述利用所述相似度获取语义相同的谓词论元,具体包括:当所述相似度大于预设阈值时,确认所述相似度所属的谓词论元语义相同。优选地,在根据所述相似度计算谓词论元的重要性得分时,通过如下计算公式:利用上述两个公式分别进行迭代计算,直到迭代计算结果稳定时得到各谓词论元的重要性得分;其中,ci和cj为任意两个谓词论元,u(ci)为ci的重要性得分,u(cj)为cj的重要性得分,μ是平滑因子,Mij表示ci与cj的相似度,N为谓词论元总数。优选地,所述根据所述每一个谓词论元的重要性得分,生成目标语言摘要,具体包括:根据每一个谓词论元的重要性得分、谓词论元生成目标语言摘要的目标函数以及约束集合,选取符合的谓词论元集合;将所述谓词论元集合中的各个谓词论元构成所述目标语言摘要。优选地,所述步骤1之前还包括:对多个请求语言文档进行翻译,得到多个统一为目标语言的目标语言文档。与现有技术相比,本专利技术至少具有以下优点:通过本专利技术中的多语言自动文摘设计,实现了获取指定语言的摘要,且在保证该摘要含有更多的重要信息的信息量时,提高可读性。附图说明图1是本专利技术提出的多语言自动文摘方法的流程示意图;图2是本专利技术提供的语义角色标注的实例示意图;图3是本专利技术提出的是通过融合谓词论元结构生成摘要的示意图;其中,(a)、(b)和(c)来自输入文档;(d)是(c)的机器翻译译文;(e)是最终生成的摘要。具体实施方式下面参照附图来描述本专利技术的优选实施方式。本领域技术人员应当理解的是,这些实施方式仅仅用于解释本专利技术的技术原理,并非旨在限制本专利技术的保护范围。在本专利技术中,提供了一种多语言自动文摘方法,该多语言包含了目标语言和非目标语言,如图1所示,具体包括如下步骤:步骤101,获取多个目标语言文档中的多个谓词论元结构。在本步骤之前,还包括:对多个请求语言文档进行翻译,得到多个统一为目标语言的目标语言文档;即将非目标语言文档全部翻译为目标语言文档。其中,该翻译可以是通过机器翻译,可以使用本地机器翻译系统,或者在线机器翻译,例如百度翻译,但并不仅局限于该种翻译方式。本步骤中,在获取谓词论元结构时,依据语义角色标注处理,将原句划分为多个谓词、论元,利用重要谓词和论元构成摘要。语义角色标注是一种自然语言处理领域的浅层语义分析技术。它以句子为单位,分析句子中的谓词与其相关成分之间的语义关系,进而获取句子所表达语义的浅层表示。由于语义角色标注可以提供较为简洁、准确、有益的分析结果,因此近年来受到了学术界的普遍重视,并已经成功地应用到信息抽取、自动问答、机器翻译等任务中。语义角色标注以句子中的谓词为核心,分析句子中的其相关成分与谓词之间的相互关系,因此谓词在句子的语义表达中处于核心的支配地位,其它成分均为谓词服务。一个谓词代表了一个事件,而与谓词相关的句子成分通常代表与事件相关的成分,比如该事件的施事者、受事者,以及事件发生的时间、地点、方式、原因等。在语义角色标注任务中,上述与事件相关的成分被称为谓词的一个论元,而且每个论元都有一个相对于谓词的语义角色,比如施事者、受事者。下面是一个语义角色标注的例子:[警方]Agent[正在]Time[详细]Adverbial[调查]Pred[事故原因]Patient其中“调查”是谓词,代表了一个事件,“警方”是施事者,“事故原因”是受事者,“正在”是事件发生的时间,“详细”是事件的修饰语。由此可见,语义角色标注能够抽取出一个句子表达的事件的全部重要信息。命题库(PropositionBank,PropBank)是受到语义角色与句法信息的研究启发而建立的。命题库把语义角色分为两大类。第一类语义角色是与具体谓词直接相关的,这些角色用ARG0,ARG2,ARG3,ARG4,ARG5表示,比如ARG0通常表示动作的施事,ARG1通常表示动作的影响等,ARG2-ARG5对于不同的谓语动词会有不同的语义含义;第二类语义角色是起修饰作用的辅助性角色,其角色标签都以ARGM开头,常见的有表示时间的角色ARGM-TMP,表示地理位置的角色ARGM-LOC,表示一般性修饰成分的角色ARGM-ADV等。如图2所示,是三个标注实例。对于每一个至少包含一个ARG0和一个ARG1的谓词论元结构,我们提取其谓词,ARG0,ARG1,ARGM-LOC和ARGM-TMP作为谓词和重要论元,用于构建摘要。其他论元,比如ARG3-5,ARGM-MOD和ARGM-ADV等被认为是次要论元,不参与摘要构建。步骤102,对所述多个谓词论元结构中的每一个谓词论元进行重要性打分。在该步骤中,具体包括:步骤201,计算组成所述谓词论元的词向量的加权平均数,得到所述谓词论元的短语向量;其中,利用Word2Vec工具在大规模中文单语语料上训练300维的词向量;对于每一个谓词论元,我们将组成其谓词或论元的本文档来自技高网...
多语言自动文摘方法

【技术保护点】
一种多语言自动文摘方法,其特征在于,包括以下步骤:步骤101,获取多个目标语言文档中的多个谓词论元结构;步骤102,对所述多个谓词论元结构中的每一个谓词论元进行重要性打分;步骤103,根据所述每一个谓词论元的重要性得分,生成目标语言摘要。

【技术特征摘要】
1.一种多语言自动文摘方法,其特征在于,包括以下步骤:步骤101,获取多个目标语言文档中的多个谓词论元结构;步骤102,对所述多个谓词论元结构中的每一个谓词论元进行重要性打分;步骤103,根据所述每一个谓词论元的重要性得分,生成目标语言摘要。2.根据权利要求1所述的多语言自动文摘方法,其特征在于,对所述谓多个词论元结构中的每一个谓词论元进行重要性打分,包括如下步骤:步骤201,计算组成所述谓词论元的词向量的加权平均数,得到所述谓词论元的短语向量;步骤202,根据所述谓词论元的短语向量计算所述谓词论元结构中谓词论元的相似度;步骤203,利用所述相似度获取语义相同的谓词论元;步骤204,根据所述相似度计算谓词论元的重要性得分。3.根据权利要求2所述的多语言自动文摘方法,其特征在于,所述根据所述谓词论元的短语向量计算所述谓词论元结构中谓词论元的相似度,具体包括:在每一目标语言文档中分别任选一个谓词论元,每两个谓词论元根据各自的短语向量计算该两个间的相似度,直至所有目标语言文档中的所有个谓词论元均任意两个匹配计算完相似度为止。4.根据权利要求2或3所述的多语言自动文摘方法,其特征在于,所述利用所述相似...

【专利技术属性】
技术研发人员:张家俊李浩然宗成庆
申请(专利权)人:中国科学院自动化研究所
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1