一种基于辅助信息的中文抽取性集成无监督摘要的方法技术

技术编号：24331647 阅读：46 留言：0更新日期：2020-05-29 19:52

本发明专利技术提出一种基于辅助信息的中文抽取性集成无监督摘要的方法，包括以下步骤，步骤1，文本预处理，所述预处理包括对段落进行分词和去停止词；步骤2，将新闻文本数据集提供给基于图和基于聚类性抽取性自动摘要算法处理进行处理；步骤3，得到最终的新闻摘要的方式为：

An unsupervised summarization method for Chinese decimation integration based on auxiliary information

全部详细技术资料下载

【技术实现步骤摘要】
一种基于辅助信息的中文抽取性集成无监督摘要的方法
本专利技术涉及一种生成摘要的方法，尤其涉及一种基于辅助信息的中文抽取性集成无监督摘要的方法。
技术介绍
随着文本信息爆炸性增长，读者需要更高效快捷的方式来了解文章的主要内容。自动摘要任务是自然语言处理的一个分支，是从一篇或者几篇长文本中生成一篇短文本的技术。自动摘要可以应用在各种场景，比如新闻文本，会议记录，医疗档案，社交文本等。自动摘要已经得到了广泛地研究，现有技术分为两类：抽取性自动摘要和生成性自动摘要。抽取性自动摘要从原文中选择重要的语言信息并把这些重要信息拼接起来组成最后的摘要；生成性自动摘要通过学习规则来捕捉关键信息生成一段原文章中没有出现的句子。最近几年生成性自动摘要技术发展很快，但是生成性自动摘要需要大量训练数据并且结果不具有泛化能力较差。工业界一般使用抽取性自动摘要而不是生成性自动摘要。传统抽取性自动摘要对于语言类别没有要求。不同于西方语言，中文处理非常有挑战。其中最大的不同是中文需要借助分词工具来更好处理中文语言信息。分词工具的优劣直接或者间接影响最终文本摘...

【技术保护点】
1.一种基于辅助信息的中文抽取性集成无监督摘要的方法，其特征在于，包括以下步骤，步骤1，文本预处理，所述预处理包括对段落进行分词和去停止词；步骤2，将新闻文本数据集提供给基于图和基于聚类性抽取性自动摘要算法处理进行处理；步骤3，使用改进MMR算法得到最终的新闻摘要的方式为：/n

【技术特征摘要】
20191113 CN 20191110456871.一种基于辅助信息的中文抽取性集成无监督摘要的方法，其特征在于，包括以下步骤，步骤1，文本预处理，所述预处理包括对段落进行分词和去停止词；步骤2，将新闻文本数据集提供给基于图和基于聚类性抽取性自动摘要算法处理进行处理；步骤3，使用改进MMR算法得到最终的新闻摘要的方式为：

其中，Q表示新闻的标题；S表示已被选中的新闻摘要，Sim()是用来计算语句之间的相似度，s是指原文章中的某一句，Sim(s,Q)用来计算原文中某句和标题之间的相似度，Sim(s，S)计算原文中原文中某句和已得摘要之间的相似度，ArgMax给出集合中最大元素的索引集合。

2.如权利要求1所述的方法，其特征在于，所述预处理具体方式为首先要对文本进行分句操作，把文章分成...

【专利技术属性】
技术研发人员：马帅，蒋浩谊，华轶名，
申请(专利权)人：北京航空航天大学，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人