摘要提取方法、系统、设备及存储介质技术方案

技术编号:39439391 阅读:7 留言:0更新日期:2023-11-19 16:22
本申请公开了摘要提取方法、系统、设备及存储介质,该方法包括:构建文本关系网络,并将所述文本关系网络划分为多个子主题社团,所述文本关系网络由多个句子节点和句子节点之间的连接边构成;根据各个子主题社团中,每个句子的句子权重和每个句子中的词对句子的贡献值,得到每个句子的评分结果;基于所述评分结果从文本中选取目标句子,并根据所述目标句子生成文本摘要。提高摘要抽取结果的准确性。提高摘要抽取结果的准确性。提高摘要抽取结果的准确性。

【技术实现步骤摘要】
摘要提取方法、系统、设备及存储介质


[0001]本申请涉及数据处理
,尤其涉及一种摘要提取方法

系统

设备及存储介质


技术介绍

[0002]近年来,随着业务的不断拓展和用户数量的增多,企业收到的客户投诉数量也随之增加,客户投诉问题逐渐得到关注

想要快速准确地处理用户投诉,其重点在于及时从大量的投诉中发现热点问题,以便相关部门尽早地制定解决方案去应对,避免问题处理不及时而造成不良的影响

其中,热点问题包括普通热点问题和突发性热点问题

与普通热点问题相比,突发性热点问题一般不易发现,在实际应用场景中,对突发性热点问题的检测至关重要

[0003]相关技术中,采用文本摘要提取算法抽取文本摘要,但是文本摘要提取算法抽取文本摘要时,只考虑句子的重要性,忽视词与句子的相互关联,导致摘要抽取结果不够准确


技术实现思路

[0004]本申请实施例通过提供一种摘要提取方法

系统

设备及存储介质,旨在提高摘要抽取结果的准确性

[0005]本申请实施例提供了一种摘要提取方法,所述摘要提取方法包括:构建文本关系网络,并将所述文本关系网络划分为多个子主题社团,所述文本关系网络由多个句子节点和句子节点之间的连接边构成;根据各个子主题社团中,每个句子的句子权重和每个句子中的词对句子的贡献值,得到每个句子的评分结果;基于所述评分结果从文本中选取目标句子,并根据所述目标句子生成文本摘要

[0006]可选地,所述根据各个子主题社团中,每个句子的句子权重和每个句子中的词对句子的贡献值,得到每个句子的评分结果的步骤包括:获取各个子主题社团中,每个句子在上次迭代后的句子权重

阻尼系数

所述文本关系网络的节点数量和句子节点之间的连接边的权重;根据每个句子在上次迭代后的句子权重

所述阻尼系数

所述文本关系网络的节点数量和所述句子节点之间的连接边的权重,确定每个句子在本次迭代后的句子权重;获取每个句子中的每个词的复杂网络综合特征值;根据每个句子在本次迭代后的句子权重和所述每个句子中的每个词的复杂网络综合特征值,得到每个句子中的词对句子的贡献值;融合所述每个句子在本次迭代后的句子权重和所述每个句子中的词对句子的贡献值,得到每个句子的评分结果

[0007]可选地,所述基于所述评分结果从文本中选取目标句子,并根据所述目标句子生
成文本摘要的步骤包括:基于所述评分结果对所述文本中的各个句子进行排序,得到各个句子对应的重要程度,并将重要程度大于预设程度的句子确定为所述目标句子;基于各个目标句子在所述文本中的初始位置,连接各个所述目标句子,得到所述文本摘要

[0008]可选地,所述构建文本关系网络的步骤包括:根据文本中各个句子的词向量,确定各个句子对应的句向量;确定任意两个句向量之间的余弦相似度,并根据所述余弦相似度确定各个句子之间的连接边的权重,其中,每个句子表征一个句子节点;根据各个所述句子节点和对应的连接边的权重,生成所述文本关系网络

[0009]可选地,所述将所述文本关系网络划分为多个子主题社团的步骤包括:初始化所述文本关系网络,得到多个初始子社团和所述文本关系网络的第一模块度,其中,所述初始子社团的数量与所述文本关系网络中句子节点的数量相等;获取每个初始子社团中各个句子节点的相邻社团,并预测在将各个所述句子节点合并到对应的相邻社团之后,所述文本关系网络的第二模块度;根据所述第一模块度和所述第二模块度,确定各个句子节点合并前后,所述文本关系网络的模块度增量;在所述模块度增量大于预设值时,将模块度增量大于预设值时对应的句子节点合并至对应的相邻社团中,并更新所述文本关系网络;在文本关系网络的模块度不变时,根据更新后的文本关系网络确定社团划分结果

[0010]可选地,所述构建文本关系网络,并将所述文本关系网络划分为多个子主题社团的步骤之前,还包括:检测所述文本对应的热点类型;在所述热点类型为突发性热点类型时,执行所述构建文本关系网络,并将所述文本关系网络划分为多个子主题社团的步骤;在所述热点类型为普通热点类型时,构建
BTM
主题模型,使用所述
BTM
主题模型对文本进行主题信息的检测,得到所述文本中的主题数量和所述文本中的词对集合,根据所述文本中的主题数量和所述文本中的词对集合确定当前词对的主题分布

[0011]可选地,所述构建
BTM
主题模型,使用所述
BTM
主题模型对文本进行主题信息的检测,得到所述文本中的主题数量和所述文本中的词对集合,根据所述文本中的主题数量和所述文本中的词对集合确定当前词对的主题分布之前,还包括:初始化主题数量,并利用主题模型建模生成主题;计算任意两个主题的余弦相似度与平均主题相似度,并比较历史主题相似度与所述平均主题相似度的大小;在所述历史主题相似度小于所述平均主题相似度时,在下次迭代过程中将主题方向与本轮主题方向相反;根据历史主题相似度小于所述平均主题相似度的主题数量,确定噪声主题数量;当主题方向变化时,更新所述主题数量,并根据更新后的主题数量

所述噪声主题
数量与主题方向,确定下一次迭代过程中的主题数量;重复以上步骤,直到主题数量不变或者达到预设迭代次数,输出所述文本中的主题数量

[0012]此外,为实现上述目的,本申请还提供了一种摘要提取系统包括:网络构建模块,用于构建文本关系网络,并将所述文本关系网络划分为多个子主题社团,所述文本关系网络由多个句子节点和句子节点之间的连接边构成;评分结果确定模块,用于根据各个子主题社团中,每个句子的句子权重和每个句子中的词对句子的贡献值,得到每个句子的评分结果;文本摘要生成模块,用于基于所述评分结果从文本中选取目标句子,并根据所述目标句子生成文本摘要

[0013]此外,为实现上述目的,本申请还提供了一种摘要提取设备包括:存储器

处理器及存储在所述存储器上并可在所述处理器上运行的摘要提取程序,所述摘要提取程序被所述处理器执行时实现上述的摘要提取方法的步骤

[0014]此外,为实现上述目的,本申请还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有摘要提取程序,所述摘要提取程序被处理器执行时实现上述的摘要提取方法的步骤

[0015]本申请实施例中提供的一种摘要提取方法

系统

设备及存储介质的技术方案,相比于现有技术在摘要提取过程中,只考虑句子的重要性进行文本摘要提取

本申请由于采用了构建文本关系网络,并将所述文本关系网络划分为多个子主题社团,所述文本关系网络本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种摘要提取方法,其特征在于,所述摘要提取方法包括:构建文本关系网络,并将所述文本关系网络划分为多个子主题社团,所述文本关系网络由多个句子节点和句子节点之间的连接边构成;根据各个子主题社团中,每个句子的句子权重和每个句子中的词对句子的贡献值,得到每个句子的评分结果;基于所述评分结果从文本中选取目标句子,并根据所述目标句子生成文本摘要
。2.
如权利要求1所述的摘要提取方法,其特征在于,所述根据各个子主题社团中,每个句子的句子权重和每个句子中的词对句子的贡献值,得到每个句子的评分结果的步骤包括:获取各个子主题社团中,每个句子在上次迭代后的句子权重

阻尼系数

所述文本关系网络的节点数量和句子节点之间的连接边的权重;根据每个句子在上次迭代后的句子权重

所述阻尼系数

所述文本关系网络的节点数量和所述句子节点之间的连接边的权重,确定每个句子在本次迭代后的句子权重;获取每个句子中的每个词的复杂网络综合特征值;根据每个句子在本次迭代后的句子权重和所述每个句子中的每个词的复杂网络综合特征值,得到每个句子中的词对句子的贡献值;融合所述每个句子在本次迭代后的句子权重和所述每个句子中的词对句子的贡献值,得到每个句子的评分结果
。3.
如权利要求1或2所述的摘要提取方法,其特征在于,所述基于所述评分结果从文本中选取目标句子,并根据所述目标句子生成文本摘要的步骤包括:基于所述评分结果对所述文本中的各个句子进行排序,得到各个句子对应的重要程度,并将重要程度大于预设程度的句子确定为所述目标句子;基于各个目标句子在所述文本中的初始位置,连接各个所述目标句子,得到所述文本摘要
。4.
如权利要求1所述的摘要提取方法,其特征在于,所述构建文本关系网络的步骤包括:根据文本中各个句子的词向量,确定各个句子对应的句向量;确定任意两个句向量之间的余弦相似度,并根据所述余弦相似度确定各个句子之间的连接边的权重,其中,每个句子表征一个句子节点;根据各个所述句子节点和对应的连接边的权重,生成所述文本关系网络
。5.
如权利要求1或4所述的摘要提取方法,其特征在于,所述将所述文本关系网络划分为多个子主题社团的步骤包括:初始化所述文本关系网络,得到多个初始子社团和所述文本关系网络的第一模块度,其中,所述初始子社团的数量与所述文本关系网络中句子节点的数量相等;获取每个初始子社团中各个句子节点的相邻社团,并预测在将各个所述句子节点合并到对应的相邻社团之后,所述文本关系网络的第二模块度;根据所述第一模块度和所述第二模块度,确定各个句子节点合并前后,所述文本关系网络的模块度增量;在所述模块度增量大于预设值时,将模块度增量大于预设值时对应的句子节点合并至
...

【专利技术属性】
技术研发人员:孟远田国良蒋强邵森单浩
申请(专利权)人:中国移动通信集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1