单文档抽取式文本摘要识别方法及系统技术方案

技术编号:34383828 阅读:53 留言:0更新日期:2022-08-03 21:03
本发明专利技术提供一种单文档抽取式文本摘要识别方法及系统,包括:数据预处理步骤:获取一段文档,拆分成多句话,组成文档集合D=[S1,S2,....Sn],其中S1,S2,...,Sn表示文档中的每个句子;Ernie编码步骤:对获得文档集合D=[S1,S2,....Sn]分别进行Ernie处理,得到V=[V1,V2,....Vn],其中,V1,V2,...,Vn表示经过Ernie编码后的每个句子向量;相似度计算步骤:计算V中两两的相似度,组合成以V为顶点,以相似度值为边的图结构;TextRank步骤:生成图结构后,进入TextRank层,计算句子评分,选取得分高的一个或多个句子生成摘要。本发明专利技术能够更好的捕获中文语义特征,做更好的表征学习。做更好的表征学习。做更好的表征学习。

【技术实现步骤摘要】
单文档抽取式文本摘要识别方法及系统


[0001]本专利技术涉及文本处理
,具体地,涉及一种单文档抽取式文本摘要识别方法及系统。

技术介绍

[0002]文本摘要是一种从一个或多个信息源中抽取关键信息的方法,它帮助用户节省了大量时间,用户可以从摘要获取到文本的所有关键信息点而无需阅读整个文档。
[0003]文本摘要按照输入类型可分为单文档摘要和多文档摘要。单文档摘要方法是指针对单个文档,对其内容进行抽取总结生成摘要;多文档摘要方法是指从包含多份文档的文档集合中生成一份能够概括这些文档中心内容的摘要。
[0004]按照输出类型可分为抽取式摘要(ETS)和生成式摘要(ATS)。抽取式摘要从源文档中抽取关键句和关键词组成摘要,摘要全部来源于原文。生成式摘要根据原文,允许生成新的词语、短语来组成摘要。抽取式摘要方法通过抽取文档中的句子生成摘要,通过对文档中句子的得分进行计算,得分代表重要性程度,得分越高代表句子越重要,然后通过依次选取得分最高的若干个句子组成摘要,摘要的长度取决于压缩率。生成式摘要方法不是单纯地利用原文档中的单词或短语组成摘要,而是从原文档中获取主要思想后以不同的表达方式将其表达出来。生成式摘要方法为了传达原文档的主要观点,可以重复使用原文档中的短语和语句。
[0005]近年来,有学者提出基于统计学词频的方式进行文本摘要,有基于聚类算法,选取离质心最近的几句最为摘要的方式,有基于深度学习seq2seq的方式,也有基于图排序TextRank的方式,进行摘要。
[0006]现有技术中包括,[1]杨凡.基于深度学习的自动文本摘要研究[D].电子科技大学,2021.虽然对于生成式摘要效果稍好,但标注成本高,可解释性差。[1]蒋杰.面向主题的无监督文本摘要生成方法[J].电脑知识与技术,2021,17(28):127

130+148.使用主题模型进行文本摘要,但对于语义信息的捕获较差。
[0007]目前,基于统计学词频的方式,仅使用词语统计的方式,没有考虑语句语义信息。基于聚类,由于语句太少,句子之间的聚类效果差,文本摘要不理想。基于深度学习seq2seq的方式,可解释性差,人工标注成本高。基于图排序TextRank的方式,对于语句语义信息捕获差,进而排序不够好。
[0008]术语解释:
[0009]ETS:Extractive Text Summarization,抽取式文本摘要;
[0010]ATS:Abstractive Text Summarization,生成式文本摘要;
[0011]NER:Named Entity Recognition,命名实体识别;
[0012]CNN:Convolutional Neural Networks,卷积神经网络;
[0013]RNN:Recurrent Neural Networks,循环神经网络;
[0014]LSTM:Long Short

Term Memory,长短期记忆神经网络;
[0015]LDA:Latent Dirichlet Allocation,隐含狄利克雷分布;
[0016]Bert:Bidirectional Encoder Representations from Transformers,基于转换器的双向编码表示;
[0017]Ernie:Enhanced Language Representation With Informative Entities,带信息实体的增强语言表示。

技术实现思路

[0018]针对现有技术中的缺陷,本专利技术提供一种单文档抽取式文本摘要识别方法及系统。
[0019]根据本专利技术提供的一种单文档抽取式文本摘要识别方法及系统,所述方案如下:
[0020]第一方面,提供了一种单文档抽取式文本摘要识别方法,所述方法包括:
[0021]数据预处理步骤:获取一段文档,拆分成多句话,组成文档集合D=[S1,S2,....Sn],其中S1,S2,...,Sn表示文档中的每个句子;
[0022]Ernie编码步骤:对获得文档集合D=[S1,S2,....Sn]分别进行Ernie处理,得到 V=[V1,V2,....Vn],其中,V1,V2,...,Vn表示经过Ernie编码后的每个句子向量;
[0023]相似度计算步骤:计算V中两两的相似度,组合成以V为顶点,以相似度值为边的图结构;
[0024]TextRank步骤:生成图结构后,进入TextRank层,计算句子评分,选取得分高的一个或多个句子生成摘要。
[0025]优选地,所述数据预处理步骤负责清洗准备数据,对每个文档,拆分数据,去除停用词及过滤词在内的相关词。
[0026]优选地,所述Ernie编码步骤中采用Ernie来进行语言语句编码,Ernie模型通过建模海量数据中的实体概念在内的相关先验语义知识,学习真实世界的语义关系;
[0027]且Ernie模型本身保持基于字特征输入建模,使得模型在应用时不需要依赖其他信息。
[0028]优选地,所述相似度计算步骤包括:使用cosine余弦函数计算两两的相似度,最终构造以V为顶点,以相似度值为边的graph图结构。
[0029]优选地,所述TextRank步骤具体包括:计算句子评分,选取得分高的若干句子生成摘要:
[0030][0031]其中,d为基尼系数,Vi为其中第i个节点,P(Vi)为第i个节点的权重,代表该i个句子的重要性;Vj为其中第j个节点,P(Vj)为第j个节点的权重,代表该j个句子的重要性;Vk表示Vj出度集合的其中一个节点;Wjk表示Vj和Vk之间的相似度;Wij为 Vi和Vj的计算相似度,In(Vi)为其中Vi的入度集合,Out(Vj)为Vj的出度集合。
[0032]第二方面,提供了一种单文档抽取式文本摘要识别系统,所述系统包括:
[0033]数据预处理模块:获取一段文档,拆分成多句话,组成文档集合D=[S1,S2,....Sn],其中S1,S2,...,Sn表示文档中的每个句子;
[0034]Ernie编码模块:对获得文档集合D=[S1,S2,....Sn]分别进行Ernie处理,得到 V=[V1,V2,....Vn],其中,V1,V2,...,Vn表示经过Ernie编码后的每个句子向量;
[0035]相似度计算模块:计算V中两两的相似度,组合成以V为顶点,以相似度值为边的图结构;
[0036]TextRank模块:生成图结构后,进入TextRank层,计算句子评分,选取得分高的一个或多个句子生成摘要。
[0037]优选地,所述数据预处理模块负责清洗准备数据,对每个文档,拆分数据,去除停用词及过滤词在内的相关词。
[0038]优选地,所述Ernie编码模块中采用Ernie来进行语言语句编码,Ernie模型通过建模海量数据中的实体概本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种单文档抽取式文本摘要识别方法,其特征在于,包括:数据预处理步骤:获取一段文档,拆分成多句话,组成文档集合D=[S1,S2,....Sn],其中S1,S2,...,Sn表示文档中的每个句子;Ernie编码步骤:对获得文档集合D=[S1,S2,....Sn]分别进行Ernie处理,得到V=[V1,V2,....Vn],其中,V1,V2,...,Vn表示经过Ernie编码后的每个句子向量;相似度计算步骤:计算V中两两的相似度,组合成以V为顶点,以相似度值为边的图结构;TextRank步骤:生成图结构后,进入TextRank层,计算句子评分,选取得分高的一个或多个句子生成摘要。2.根据权利要求1所述的单文档抽取式文本摘要识别方法,其特征在于,所述数据预处理步骤负责清洗准备数据,对每个文档,拆分数据,去除停用词及过滤词在内的相关词。3.根据权利要求1所述的单文档抽取式文本摘要识别方法,其特征在于,所述Ernie编码步骤中采用Ernie来进行语言语句编码,Ernie模型通过建模海量数据中的实体概念在内的相关先验语义知识,学习真实世界的语义关系;且Ernie模型本身保持基于字特征输入建模,使得模型在应用时不需要依赖其他信息。4.根据权利要求1所述的单文档抽取式文本摘要识别方法,其特征在于,所述相似度计算步骤包括:使用cosine余弦函数计算两两的相似度,最终构造以V为顶点,以相似度值为边的graph图结构。5.根据权利要求1所述的单文档抽取式文本摘要识别方法,其特征在于,所述TextRank步骤具体包括:计算句子评分,选取得分高的若干句子生成摘要:其中,d为基尼系数,Vi为其中第i个节点,P(Vi)为第i个节点的权重,代表该i个句子的重要性;Vj为其中第j个节点,P(Vj)为第j个节点的权重,代表该j个句子的重要性;Vk表示Vj出度集合的其中一个节点;Wjk表示Vj和Vk之间的相似度;Wij为Vi和Vj的计算相似度,In(Vi)为其中Vi的入度集合,Out(Vj)为Vj的出度集合。6.一种单文档...

【专利技术属性】
技术研发人员:王明光邱世界钟浩
申请(专利权)人:新智道枢上海科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1