文本摘要生成方法及系统、电子设备及存储介质技术方案

技术编号:22308290 阅读:25 留言:0更新日期:2019-10-16 08:23
本发明专利技术公开了一种文本摘要生成方法及系统、电子设备及存储介质,文本摘要生成方法包括:基于一待处理文本生成一子句组集合,子句组集合中包含多个子句组,每个子句组中包含的子句数量相同;对每个子句组中的子句进行分词;以每个子句组为节点构建文本网络图,并计算文本网络图中任意两个节点之间的边的权重;根据任意两个节点之间的边的权重计算所述每个子句组的最终得分;将每个子句组按照最终得分从高到低进行排序,选取排序靠前的若干个子句组,并根据选取的所述若干个子句组生成文本摘要。本发明专利技术以子句组为单位进行数据处理,生成的文本摘要能够涵盖待处理文本的核心信息,所生成的摘要的语义连贯性很强,包含的冗余信息也很少。

Text summarization generation method and system, electronic equipment and storage medium

【技术实现步骤摘要】
文本摘要生成方法及系统、电子设备及存储介质
本专利技术涉及文本处理领域,特别涉及一种文本摘要生成方法及系统、电子设备及存储介质。
技术介绍
现有的自动摘要生成方法可以分为两类:抽取式方法与生成式方法。抽取式方法通过识别、抽取文本中的关键语句构成摘要;而生成式方法将原始文本作为输入,通过构建机器学习模型,逐个词地输出一段文本作为摘要。与生成式方法相比,抽取式方法生成的摘要往往更具可读性,计算复杂度也较低,因此,实际应用中通常使用抽取式方法生成文本的摘要。抽取式自动摘要生成方法可以进一步分为有监督方法和无监督方法。其中,有监督方法需要人工标注的数据以训练摘要生成模型,无监督方法则直接根据文本语义信息生成摘要,无需事先准备标注数据,更具实用性。TextRank算法是目前应用最为广泛的无监督、抽取式自动摘要生成方法,但是现有的以TextRank算法为代表的无监督、抽取式自动摘要生成方法主要存在两方面缺点:首先,大部分方法以整句或子句为单位计算得分、生成摘要。以整句为单位生成的摘要虽然可读性高、语义连贯性强,但其中包含的冗余信息较多;而以子句为单位生成的摘要中冗余信息较少,但语义连贯性较差,可读性较差。现有大部分自动摘要生成方法难以生成兼具高语义连贯与低信息冗余的摘要文本。其次,现有方法主要根据语句与全文的语义相关性对语句进行打分并生成摘要,缺乏对文本所属领域的专业知识的有效融合。
技术实现思路
本专利技术要解决的技术问题是为了克服现有技术中大部分自动摘要生成方法难以生成兼具高语义连贯与低信息冗余的摘要文本并且缺乏对文本所属领域的专业知识的有效融合的缺陷,提供一种文本摘要生成方法及系统、电子设备及存储介质。本专利技术是通过下述技术方案来解决上述技术问题:本专利技术提供了一种文本摘要生成方法,包括以下步骤:基于一待处理文本生成一子句组集合,所述子句组集合中包含多个子句组,每个子句组中包含的子句数量相同;对每个子句组中的子句进行分词;以每个子句组为节点构建文本网络图,并计算所述文本网络图中任意两个节点之间的边的权重;根据所述任意两个节点之间的边的权重计算所述每个子句组的最终得分;将所述每个子句组按照最终得分从高到低进行排序,选取排序靠前的若干个子句组,并根据选取的所述若干个子句组生成文本摘要。较佳地,所述计算所述文本网络图中任意两个节点之间的边的权重的步骤包括:采用BM25模型、TF模型或TF-IDF模型计算权重。较佳地,当采用BM25模型计算权重时,所述计算所述文本网络图中任意两个节点之间的边的权重的步骤具体包括:采用如下公式计算任意两个节点i和节点j之间的BM25得分:其中,IDF(q)的计算公式如下:其中,BM25(i,j)表示节点i和节点j之间的BM25得分,节点i表示第i个子句组,节点j表示第j个子句组,si表示节点i中的所有词,q∈si表示节点i中的每一个词q,IDF(q)表示词q的逆文档频率,TF(q,sj)表示词q在节点j中的出现频率,Len(sj)表示节点j的总词数,AvgLen表示待处理文本中所有子句组的平均词数,k1和b为预设参数;在计算IDF(q)的公式中,N表示待处理文本中总共包含的子句组数,freq(q)表示待处理文本中包含词q的子句组数;采用如下公式对节点i和节点j之间的BM25得分进行增强处理并将处理后的结果作为节点i和节点j之间的边的权重:其中,wij表示节点i和节点j之间的边的权重,α表示增强系数,I(i,j)表示节点i和节点j之间的整句从属关系,当节点i和节点j属于同一个整句时,I(i,j)取值为1,当节点i和节点j不属于同一个整句时,I(i,j)取值为0;BM25(i,k)表示节点i和节点k之间的BM25得分,I(i,k)表示节点i和节点k之间的整句从属关系。较佳地,所述计算所述每个子句组的最终得分的步骤之前还包括:计算所述每个子句组的领域知识得分和/或社区结构得分;其中,所述领域知识得分用于表征所述子句组中包含的词与预设领域的相关度,且所述领域知识得分与所述相关度呈正相关;所述社区结构得分用于表征所述子句组所属的社区中包含的子句组的数量,且所述社区结构得分与所述子句组的数量呈负相关;所述计算所述每个子句组的最终得分的步骤具体包括:以计算出的所述边的权重为基础,融合所述每个子句组的领域知识得分和/或社区结构得分,计算所述每个子句组的最终得分。较佳地,在所述计算所述每个子句组的领域知识得分和/或社区结构得分的步骤中,当计算所述每个子句组的领域知识得分时,采用如下公式进行计算:KnowledgeScorei=LawScorei+EntityScorei其中,KnowledgeScorei表示第i个子句组的领域知识得分;LawScorei表示第i个子句组的法律知识得分,当第i个子句组与预设法律正则表达式相匹配时,LawScorei取值为1,否则LawScorei取值为0;EntityScorei表示第i个子句组的实体知识得分,当第i个子句组中包含预设词性的词时,EntityScorei取值为1,否则EntityScorei取值为0;当计算所述每个子句组的社区结构得分时,采用如下公式进行计算:其中,CommunityScorei表示第i个子句组的社区结构得分,N表示待处理文本中总共包含的子句组的数量,Ci为第i个子句组所属的社区;NC为社区数量,由社区发现算法自动确定;A(x,y)为指示函数,当x=y时A(x,y)=1,否则A(x,y)=0。较佳地,在所述计算所述每个子句组的领域知识得分和/或社区结构得分的步骤中,当计算所述每个子句组的社区结构得分时,采用如下步骤对所述子句组集合进行社区划分:构建二分图,所述二分图包含词节点和子句组节点,且所述二分图中不同类型的节点之间有边相连,同类型的节点之间没有边;采用如下公式计算所述二分图中任意第J个词节点和第I个子句组节点之间的边的权重:w′IJ=TF(qJ,sI)·IDF(qJ)其中,w′IJ表示第J个词节点和第I个子句组节点之间的边的权重,TF(qJ,sI)表示词qJ在子句组sI中的出现频率,IDF(qJ)表示词汇qJ的逆文档频率;初始化所述二分图中每个词节点的社区归属,将每个词节点分别作为一个独立社区;迭代更新所述二分图中每个节点的社区分配,包括根据当前时刻词节点的社区分配更新子句组节点的社区分配,具体公式如下:其中,CI(t+1)表示第t+1次迭代更新后第I个子句组节点的所属社区,表示第t次迭代更新后第J个词节点的所属社区;以及根据当前时刻子句组节点的社区分配更新词节点的社区分配,具体公式如下:其中,表示第t+1次迭代更新后第J个词节点的所属社区,cI(t+1)表示第t+1次迭代更新后第I个子句组节点的所属社区;重复上述迭代更新社区分配的步骤,直至所述二分图中所有节点的社区分配保持不变。较佳地,在所述计算所述每个子句组的最终得分的步骤中,当以计算出的所述边的权重为基础,同时融合每个子句组的领域知识得分和社区结构得分时,计算所述每个子句组的最终得分具体包括以下步骤:初始化所述文本网络图中每个节点的得分,令scorei(0)=1,其中scorei(0)表示第i个节点的初始得分;采用如下公式迭代更新每个节点的得分:其中,d和β为预设参数,且0≤d本文档来自技高网...

【技术保护点】
1.一种文本摘要生成方法,其特征在于,包括以下步骤:基于一待处理文本生成一子句组集合,所述子句组集合中包含多个子句组,每个子句组中包含的子句数量相同;对每个子句组中的子句进行分词;以每个子句组为节点构建文本网络图,并计算所述文本网络图中任意两个节点之间的边的权重;根据所述任意两个节点之间的边的权重计算所述每个子句组的最终得分;将所述每个子句组按照最终得分从高到低进行排序,选取排序靠前的若干个子句组,并根据选取的所述若干个子句组生成文本摘要。

【技术特征摘要】
1.一种文本摘要生成方法,其特征在于,包括以下步骤:基于一待处理文本生成一子句组集合,所述子句组集合中包含多个子句组,每个子句组中包含的子句数量相同;对每个子句组中的子句进行分词;以每个子句组为节点构建文本网络图,并计算所述文本网络图中任意两个节点之间的边的权重;根据所述任意两个节点之间的边的权重计算所述每个子句组的最终得分;将所述每个子句组按照最终得分从高到低进行排序,选取排序靠前的若干个子句组,并根据选取的所述若干个子句组生成文本摘要。2.如权利要求1所述的文本摘要生成方法,其特征在于,所述计算所述文本网络图中任意两个节点之间的边的权重的步骤包括:采用BM25模型、TF模型或TF-IDF模型计算权重。3.如权利要求2所述的文本摘要生成方法,其特征在于,当采用BM25模型计算权重时,所述计算所述文本网络图中任意两个节点之间的边的权重的步骤具体包括:采用如下公式计算任意两个节点i和节点j之间的BM25得分:其中,IDF(q)的计算公式如下:其中,BM25(i,j)表示节点i和节点j之间的BM25得分,节点i表示第i个子句组,节点j表示第j个子句组,si表示节点i中的所有词,q∈si表示节点i中的每一个词q,IDF(q)表示词q的逆文档频率,TF(q,sj)表示词q在节点j中的出现频率,Len(sj)表示节点j的总词数,AvgLen表示待处理文本中所有子句组的平均词数,k1和b为预设参数;在计算IDF(q)的公式中,N表示待处理文本中总共包含的子句组数,freq(q)表示待处理文本中包含词q的子句组数;采用如下公式对节点i和节点j之间的BM25得分进行增强处理并将处理后的结果作为节点i和节点j之间的边的权重:其中,wij表示节点i和节点j之间的边的权重,α表示增强系数,I(i,j)表示节点i和节点j之间的整句从属关系,当节点i和节点j属于同一个整句时,I(i,j)取值为1,当节点i和节点j不属于同一个整句时,I(i,j)取值为0;BM25(i,k)表示节点i和节点k之间的BM25得分,I(i,k)表示节点i和节点k之间的整句从属关系。4.如权利要求1-3中任意一项所述的文本摘要生成方法,其特征在于,所述计算所述每个子句组的最终得分的步骤之前还包括:计算所述每个子句组的领域知识得分和/或社区结构得分;其中,所述领域知识得分用于表征所述子句组中包含的词与预设领域的相关度,且所述领域知识得分与所述相关度呈正相关;所述社区结构得分用于表征所述子句组所属的社区中包含的子句组的数量,且所述社区结构得分与所述子句组的数量呈负相关;所述计算所述每个子句组的最终得分的步骤具体包括:以计算出的所述边的权重为基础,融合所述每个子句组的领域知识得分和/或社区结构得分,计算所述每个子句组的最终得分。5.如权利要求4所述的文本摘要生成方法,其特征在于,在所述计算所述每个子句组的领域知识得分和/或社区结构得分的步骤中,当计算所述每个子句组的领域知识得分时,采用如下公式进行计算:KnowledgeScorei=LawScorei+EntityScorei其中,KnowledgeScorei表示第i个子句组的领域知识得分;LawScorei表示第i个子句组的法律知识得分,当第i个子句组与预设法律正则表达式相匹配时,LawScorei取值为1,否则LawScorei取值为0;EntityScorei表示第i个子句组的实体知识得分,当第i个子句组中包含预设词性的词时,EntityScorei取值为1,否则EntityScorei取值为0;当计算所述每个子句组的社区结构得分时,采用如下公式进行计算:其中,CommunityScorei表示第i个子句组的社区结构得分,N表示待处理文本中总共包含的子句组的数量,Ci为第i个子句组所属的社区;NC为社区数量,由社区发现算法自动确定;A(x,y)为指示函数,当x=y时A(x,y)=1,否则A(x,y)=0。6.如权利要求5所述的文本摘要生成方法,其特征在于,在所述计算所述每个子句组的领域知识得分和/或社区结构得分的步骤中,当计算所述每个子句组的社区结构得分时,采用如下步骤对所述子句组集合进行社区划分:构建二分图,所述二分图包含词节点和子句组节点,且所述二分图中不同类型的节点之间有边相连,同类型的节点之间没有边;采用如下公式计算所述二分图中任意第J个词节点和第I个子句组节点之间的边的权重:wIJ=TF(qJ,sI)·IDF(qJ)其中,w′IJ表示第J个词节点和第I个子句组节点之间的边的权重,TF(qJ,sI)表示词qJ在子句组sI中的出现频率,IDF(qJ)表示词汇qJ的逆文档频率;初始化所述二分图中每个词节点的社区归属,将每个词节点分别作为一个独立社区;迭代更新所述二分图中每个节点的社区分配,包括根据当前时刻词节点的社区分配更新子句组节点的社区分配,具体公式如下:其中,CI(t+1)表示第t+1次迭代更新后第I个子句组节点的所属社区,表示第t次迭代更新后第J个词节点的所属社区;以及根据当前时刻子句组节点的社区分配更新词节点的社区分配,具体公式如下:其中,表示第t+1次迭代更新后第J个词节点的所属社区,cI(t+1)表示第t+1次迭代更新后第I个子句组节点的所属社区;重复上述迭代更新社区分配的步骤,直至所述二分图中所有节点的社区分配保持不变。7.如权利要求5所述的文本摘要生成方法,其特征在于,在所述计算所述每个子句组的最终得分的步骤中,当以计算出的所述边的权重为基础,同时融合每个子句组的领域知识得分和社区结构得分时,计算所述每个子句组的最终得分具体包括以下步骤:初始化所述文本网络图中每个节点的得分,令scorei(0)=1,其中scorei(0)表示第i个节点的初始得分;采用如下公式迭代更新每个节点的得分:其中,d和β为预设参数,且0≤d≤1,β取值范围为0-1;重复上述迭代更新得分的步骤,直至满足以下条件时结束迭代并得到每个节点的最终得分:其中,ε为设定阈值。8.如权利要求1所述的文本摘要生成方法,其特征在于,所述根据选取的所述若干个子句组生成文本摘要的步骤具体包括:按照最终得分从高到低的顺序将选取的子句组依次加入至摘要文本中,并且对于摘要文本中的子句进行去重处理,直至去重后的摘要文本中的所有子句的长度之和大于预设长度阈值;按照子句在所述待处理文本中的顺序将摘要文本中的子句拼接起来,生成最终的文本摘要。9.如权利要求1所述的文本摘要生成方法,其特征在于,所述基于一待处理文本生成一子句组集合的步骤具体包括:将所述待处理文本划分为多个子句,以滑动窗口的方式将所述待处理文本中的连续K个子句连接成一个子句组,根据连接成的子句组构建所述子句组集合,其中K为正整数且K≥2。10.一种文本摘要生成系统,其特征在于,包括:集合生成模块,用于基于一待处理文本生成一子句组集合,所述子句组集合中包含多个子句组,每个子句组中包含的子句数量相同;分词模块,用于对每个子句组中的子句进行分词;构建模块,用于以每个子句组为节点构建文...

【专利技术属性】
技术研发人员:周剑弘雷小庆赵福江罗承炳
申请(专利权)人:河北科技师范学院
类型:发明
国别省市:河北,13

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1