The invention relates to a multi language automatic text summarization method, which comprises the following steps: 101, to obtain more predicates the plurality of target language document in the argument structure; step 102, the plurality of predicates on each predicate argument structure element in the importance of scoring; step 103, according to the importance of each predicate argument points, generate the target language abstract. In the present invention, a summary of a given language is achieved, and readability is improved when the amount of information that contains more important information is guaranteed.
【技术实现步骤摘要】
多语言自动文摘方法
本专利技术涉及自然语言处理
,尤其涉及一种多语言自动文摘方法。
技术介绍
随着大数据时代到来,多语言信息,例如多语言新闻文档随处可见。有效地分析多语言文档集合,获取其中的重要信息,并按照用户需求的语言呈现给用户,可以帮助用户快速、便利地理解该文档集合的主体信息。以中文、英文文档集合生成中文摘要为例,最简单的做法是首先将英文文档通过机器翻译翻译为中文,然后将其与中文文档一起,通过传统的多文档自动摘要方法,生成中文摘要。然而,机器翻译的效果往往不能令人满意,存在很多错误,使得机器翻译译文的可读性较差。多语言自动文摘评测会议(MSE)在2005年进行了多语言自动文摘评测,DaumeIII和Marcu获得了评测的冠军,并和其他队伍得出类似的结论:当不使用机器翻译译文文档集合时,摘要的ROUGE得分(一种评价生成摘要和参考摘要重合度的指标)最高。一方面,机器翻译译文存在很多错误,使用机器翻译译文会引入很多噪音,降低可读性;另一方面,机器翻译译文文档中的信息不会被非译文文档完全覆盖,即机器翻译译文文档仍然会给我们提供很多有价值的信息,我们还是需要利用机器翻译译文增强摘要的信息量。多语言自动文摘方法需要平衡可读性和信息量。
技术实现思路
为了解决现有技术中的上述问题,即为了实现如何获取指定语言的摘要,且在保证该摘要含有更多的重要信息的信息量时,提高可读性。基于此,本专利技术提供了一种多语言自动文摘方法,包括以下步骤:步骤1,获取多个目标语言文档中的多个谓词论元结构;步骤2,对所述多个谓词论元结构中的每一个谓词论元进行重要性打分;步骤3,根据所述每一 ...
【技术保护点】
一种多语言自动文摘方法,其特征在于,包括以下步骤:步骤101,获取多个目标语言文档中的多个谓词论元结构;步骤102,对所述多个谓词论元结构中的每一个谓词论元进行重要性打分;步骤103,根据所述每一个谓词论元的重要性得分,生成目标语言摘要。
【技术特征摘要】
1.一种多语言自动文摘方法,其特征在于,包括以下步骤:步骤101,获取多个目标语言文档中的多个谓词论元结构;步骤102,对所述多个谓词论元结构中的每一个谓词论元进行重要性打分;步骤103,根据所述每一个谓词论元的重要性得分,生成目标语言摘要。2.根据权利要求1所述的多语言自动文摘方法,其特征在于,对所述谓多个词论元结构中的每一个谓词论元进行重要性打分,包括如下步骤:步骤201,计算组成所述谓词论元的词向量的加权平均数,得到所述谓词论元的短语向量;步骤202,根据所述谓词论元的短语向量计算所述谓词论元结构中谓词论元的相似度;步骤203,利用所述相似度获取语义相同的谓词论元;步骤204,根据所述相似度计算谓词论元的重要性得分。3.根据权利要求2所述的多语言自动文摘方法,其特征在于,所述根据所述谓词论元的短语向量计算所述谓词论元结构中谓词论元的相似度,具体包括:在每一目标语言文档中分别任选一个谓词论元,每两个谓词论元根据各自的短语向量计算该两个间的相似度,直至所有目标语言文档中的所有个谓词论元均任意两个匹配计算完相似度为止。4.根据权利要求2或3所述的多语言自动文摘方法,其特征在于,所述利用所述相似...
【专利技术属性】
技术研发人员:张家俊,李浩然,宗成庆,
申请(专利权)人:中国科学院自动化研究所,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。