一种用于文本摘要的生成方法和系统技术方案

技术编号:23149929 阅读:43 留言:0更新日期:2020-01-18 13:47
本发明专利技术给出了一种用于文本摘要的生成方法和系统,包括对待处理文本进行预处理,其中,预处理包括去除待处理文本的html标签;基于TF‑IDF统计方法,获取待处理文本中文本单元的权重;利用ilp算法计算、submodular算法和centroid算法分别计算获得待处理文本的第一文本摘要、第二文本摘要和第三文本摘要;基于深度卷积网络学习模型,获取待处理文本的第四文本摘要;响应于文本单元中含有预先建立的摘要词库中的词汇,获取第五文本摘要;将第一文本摘要、第二文本摘要、第三文本摘要、第四文本摘要和第五文本摘要进行加权计算,获取待处理文本的文本摘要。本发明专利技术在实际应用中,对文本摘要的获取取得了非常好的效果,准确率非常高。

A method and system for text summarization

【技术实现步骤摘要】
一种用于文本摘要的生成方法和系统
本专利技术属于人工智能和自然语言处理
,尤其涉及一种用于文本摘要的生成方法和系统。
技术介绍
随着信息时代的迅猛发展,当今世界的信息量呈现出了几何级别的增长速度。信息爆炸使得人们要面对海量的信息,从海量信息中智能、快速的获取摘要信息成为了一项重要技术课题。在文本摘要中,或者采用抽取式方式,或者采用生成式方式,或者抽取文本中的文本单元,或者用机器生成对文本的归纳摘要,来获取文本摘要。但无论采用抽取式,或者采用生成式,来获取文本摘要,都存在着不尽人意的地方。采用抽取式方式来获取文本摘要,抽取出的摘要精度不够高。抽取出的内容具有片面性,不能准确地抽出关键内容。采用生成式方式来获取文本摘要,有训练数据不足,训练输入内容过长,得到的生成内容意思晦涩,得到的生成内容语法不准确等问题。因此在传统的文本摘要获取中,存在着有待解决的问题。
技术实现思路
本专利技术提出了一种用于文本摘要的生成方法和系统。在一个方面,本专利技术提出了一种用于文本摘要的生成方法,包括以本文档来自技高网...

【技术保护点】
1.一种用于文本摘要的生成方法,其特征在于,包括以下步骤:/nS1:对待处理文本进行预处理,其中,所述预处理包括去除所述待处理文本的html标签以及对所述待处理文本进行分词处理;/nS2:基于TF-IDF统计方法,获取待处理文本中文本单元的权重;/nS3:利用ilp算法、submodular算法和centroid算法分别计算获得所述待处理文本的第一文本摘要、第二文本摘要和第三文本摘要;基于深度卷积网络学习模型,获取所述待处理文本的第四文本摘要;响应于所述文本单元中含有预先建立的摘要词库中的词汇,获取第五文本摘要;/nS4:将所述第一文本摘要、所述第二文本摘要、所述第三文本摘要、所述第四文本摘要...

【技术特征摘要】
1.一种用于文本摘要的生成方法,其特征在于,包括以下步骤:
S1:对待处理文本进行预处理,其中,所述预处理包括去除所述待处理文本的html标签以及对所述待处理文本进行分词处理;
S2:基于TF-IDF统计方法,获取待处理文本中文本单元的权重;
S3:利用ilp算法、submodular算法和centroid算法分别计算获得所述待处理文本的第一文本摘要、第二文本摘要和第三文本摘要;基于深度卷积网络学习模型,获取所述待处理文本的第四文本摘要;响应于所述文本单元中含有预先建立的摘要词库中的词汇,获取第五文本摘要;
S4:将所述第一文本摘要、所述第二文本摘要、所述第三文本摘要、所述第四文本摘要和所述第五文本摘要进行加权计算,获取所述待处理文本的文本摘要。


2.根据权利要求1所述的用于文本摘要的生成方法,其特征在于,所述TF-IDF的计算公式如下:TF-IDF=TF*IDF,其中TF表示词频,即某个词在文本中出现次数,IDF表示逆文档频率,具体计算为


3.根据权利要求1所述的用于文本摘要的生成方法,其特征在于,所述步骤S2中利用ilp算法获得所述第一文本摘要的具体方式为:对所述待处理文本进行概念抽取,利用带有约束的优化解进行计算,进而获得所述第一文本摘要,具体计算公式如下:












其中,xi表示所述待处理文本的概念,s(xi)表示所述概念的权值函数,表示所述概念是否出现在文本摘要中,dj表示抽取的单元,n(dj)表示dj中的单词个数,表示抽取单元是否在文本摘要中,R表示文本摘要的长度约束,b(i,j)为二元常量,表示xi是否出现在dj中,sim表示计算冗余度度量,δ表示冗余门槛值。


4.根据权利要求1所述的用于文本摘要的生成方法,其特征在于,所述步骤S3中利用submodular算法获得所述第二文本摘要的具体方式为:利用贪心算法计算所述文本单元满足submodular函数最大化,submodular函数公式如下:
f(s∩t)+f(s∪t)≤f(s)+f(t)



其中,f为submodular函数,v表示文档中所有文本单元的集合,s、t表示抽取的文本摘要,ci表示非负实数,β表示计划选择文本单元数。


5.根据权利要求1所述的用于文本摘要的生成方法,其特征在于,所述步骤S3中利用centroid算法获得所述第三文本摘要的具体步骤为:
获取所述文本单元的权重wi=∑nwn,i,其中w表示所述文本单元的权重值,n表示所述文本单元中的词,i表示所述文本单元的序号;
利用所述文本单元位置,计算所述文本单元位置值其中,si表示所述文本单元的位置,smax是最大文本单元权重值;
基于所述文本单元权重、所述文本单元位置值、所述文本单元和第一个文本单元的相似度利用centroid算法获取所述第三文本摘要,所述相似度计算采...

【专利技术属性】
技术研发人员:吴家鸣李敏
申请(专利权)人:北京妙笔智能科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1