一种基于信息熵和特征提取的时序对话抽取式摘要方法技术

技术编号:35591804 阅读:17 留言:0更新日期:2022-11-16 15:09
一种基于信息熵和特征提取的时序对话抽取式摘要方法,其包括对聊天记录进行划分并计算信息熵,从而删除无关信息;提取动态词向量并获取文本特征,计算得出文本摘要,其解决了现有的摘要获取方法存在的准确率较低的技术问题,且本发明专利技术改善了现有摘要方法无法解决聊天记录短文本、口语化等问题,考虑记录时序性特点,避免了摘要与原记录事实不一致的现象,可广泛应用于大数据处理领域。可广泛应用于大数据处理领域。可广泛应用于大数据处理领域。

【技术实现步骤摘要】
一种基于信息熵和特征提取的时序对话抽取式摘要方法


[0001]本专利技术涉及大数据处理领域,尤其是涉及一种基于信息熵和特征提取的时序对话抽取式摘要方法。

技术介绍

[0002]目前,针对诸如微信,QQ等社交软件在线聊天已经成为人们相互交流不可或缺的方式,大量工作与会议转为线上进行,人们更加依赖在线聊天,并被大量的聊天信息所淹没,快速掌握对话的主要内容能够节省大量时间,提高工作效率。但是聊天记录这种对话式文本内容较短、口语化程度较高且存在一词多义的现象,相较于书面文本语义并不完整、格式非常不规范,这些特点造成对话摘要的困难。
[0003]现有对话摘要仍处于探索阶段,在对话理解上,利用对话结构信息(如对话性温和对话篇章结构),主题信息等进行对话摘要建模,超参结合同一说话人和不同说话人之间的注意力机制,增强表示对话信息,引入背景知识和常识知识理解对话上文,均取得不错效果,但是这些方法没有解决聊天中存在的口语化、短文本、话题跨越度大、语义信息不连贯、无关信息较多等问题,且没有考虑聊天记录的时序性;而且现有的方法大多为基于深度学习的生成式方法,一方面需要大量带标注的数据进行训练,对话文摘的公开数据集还比较匮乏;另一方面生成式方法会不可避免地造成事实一致性错误,无法保证摘要与原文意思相符,这对于本专利技术的开发背景是致命的。目前已有少量针对客服对话、弹幕等口语化文本进行特征提取的方法,但是多用于文本分类和意图识别,并不能获取摘要。

技术实现思路

[0004]本申请的目的在于提供一种基于信息熵和特征提取的时序对话抽取式摘要方法,旨在解决传统的摘要获取方法存在的准确率较低的技术问题。
[0005]本申请实施例的提供了一种基于信息熵和特征提取的时序对话抽取式摘要方法,其包括:
[0006]对聊天记录进行划分并计算信息熵,从而删除无关信息;
[0007]提取动态词向量并获取文本特征,计算得出文本摘要。
[0008]优选的,对聊天记录进行划分并计算信息熵,从而删除无关信息,具体通过以下方式实现:
[0009]获取聊天记录并划分,以对聊天记录进行分词;
[0010]对分词后的文本计算信息熵,判断信息熵的大小,以加入停用词列表或专业知识库;
[0011]删除停用词列表中的无关信息,保留专业知识库中相关信息。
[0012]优选的,获取聊天记录并划分,以对聊天记录进行分词,具体通过以下方式实现:
[0013]获取聊天记录,进行数据预处理,使用字符串匹配以及正则匹配的方式删除明显无关的记录,利用聊天记录的时序性划分文档,确定上下文。
[0014]优选的,对分词后的文本计算信息熵,判断信息熵的大小,以加入停用词列表或专业知识库,具体通过以下方式实现:
[0015]对于分词后的文本,计算每个词语的信息熵,得到每个词语在文档中频率分布的方差情况,若出现频率高且分布均匀的词语信息熵较小,加入停用词列表,将分布方差大、信息熵较大的词语加入专业知识库。
[0016]优选的,提取动态词向量并获取文本特征,计算得出文本摘要,具体通过以下方式实现:
[0017]获取专业知识库中的处理对象,生成动态词向量;
[0018]进行特征提取,获得候选摘要;
[0019]进行关键记录抽取,删除候选摘要中相似度较高的冗余记录,形成最终摘要。
[0020]优选的,采用中文预训练模型BERT

wwm生成动态词向量。
[0021]优选的,采用双向长短时记忆模型BiLSTM进行特征提取。
[0022]优选的,进行特征提取,获得候选摘要,具体通过以下方式实现:
[0023]双向长短时记忆模型BiLSTM拼接前向LSTM的输出和后向LSTM的输出,得到同时包含从左向右隐特征和从右向左隐特征的特征向量,BiLSTM的隐含层的输出即为候选摘要。
[0024]优选的,采用TextRank算法进行关键记录抽取。
[0025]优选的,进行关键记录抽取,删除候选摘要中相似度较高的冗余记录,形成最终摘要,具体通过以下方式实现:
[0026]把句子作为图中的顶点,句子之间的推荐强度作为边,来构造加权无向图,以文本特征向量的余弦值作为权重,通过迭代计算得到句子的最终权重,按照权重对句子的重要性排序,删除候选摘要中相似度较高的冗余记录,形成最终摘要。
[0027]本专利技术利用聊天记录具有时序性的特点,将聊天记录根据聊天对象和聊天时间进行话题划分,确定每条记录的上下文;利用信息熵确定停用词列表和专业知识库,删除聊天记录中的停用词,根据关键词和上下文删除无关记录;使用中文预训练模型BERT

wwm提取语义丰富的动态词向量,双向长短时记忆模型BiLSTM获取文本特征,有效解决聊天记录的口语化以及一词多义的问题;基于文本特征使用TextRank算法获得候选摘要,最后删除候选摘要中的冗余记录得到最终摘要;改善了现有摘要方法无法解决聊天记录短文本、口语化等问题,考虑记录时序性特点,避免了摘要与原记录事实不一致的现象。通过对时序对话数据的噪声处理,清洗过滤掉无关信息。
附图说明
[0028]图1为本申请一实施例提供的一种基于信息熵和特征提取的时序对话抽取式摘要方法的流程示意图;
[0029]图2为图1所示实施例中对聊天记录进行噪声处理的流程示意图;
[0030]图3为图1所示实施例中对聊天记录进行噪声处理的具体流程示意图;
[0031]图4为图1所示实施例中文本摘要获取的流程示意图;
[0032]图5为图1所示实施例中文本摘要获取的具体流程示意图。
具体实施方式
[0033]为了使本申请所要解决的技术问题、技术方案及有益效果更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
[0034]需要说明的是,术语“上”、“下”、“内”、“外”、“顶”、“底”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本专利技术和简化描述,而不能理解为指示或暗示所指的装置或元件必须具备特定的方位、以特定的方位构造和操作,因此不能理解为对本专利技术的限制。
[0035]请参阅图1,为本申请一实施例提供的一种基于信息熵和特征提取的时序对话抽取式摘要方法的流程示意图,为了便于说明,仅示出了与本实施例相关的部分,详述如下:
[0036]在其中一实施例中,一种基于信息熵和特征提取的时序对话抽取式摘要方法,其包括:
[0037]S1、对聊天记录进行噪声处理:对聊天记录进行划分并计算信息熵,从而删除无关信息。
[0038]请参阅图2,为图1所示实施例中对聊天记录进行噪声处理的流程示意图,为了便于说明,仅示出了与本实施例相关的部分,详述如下:
[0039]S101、获取聊天记录并划分,以对聊天记录进行分词。
[0040]具体地,如图3所示,首先本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于信息熵和特征提取的时序对话抽取式摘要方法,其特征在于,包括:对聊天记录进行划分并计算信息熵,从而删除无关信息;提取动态词向量并获取文本特征,计算得出文本摘要。2.根据权利要求1所述的一种基于信息熵和特征提取的时序对话抽取式摘要方法,其特征在于,对聊天记录进行划分并计算信息熵,从而删除无关信息,具体通过以下方式实现:获取聊天记录并划分,以对聊天记录进行分词;对分词后的文本计算信息熵,判断信息熵的大小,以加入停用词列表或专业知识库;删除停用词列表中的无关信息,保留专业知识库中相关信息。3.根据权利要求2所述的一种基于信息熵和特征提取的时序对话抽取式摘要方法,其特征在于,获取聊天记录并划分,以对聊天记录进行分词,具体通过以下方式实现:获取聊天记录,进行数据预处理,使用字符串匹配以及正则匹配的方式删除明显无关的记录,利用聊天记录的时序性划分文档,确定上下文。4.根据权利要求2所述的一种基于信息熵和特征提取的时序对话抽取式摘要方法,其特征在于,对分词后的文本计算信息熵,判断信息熵的大小,以加入停用词列表或专业知识库,具体通过以下方式实现:对于分词后的文本,计算每个词语的信息熵,得到每个词语在文档中频率分布的方差情况,若出现频率高且分布均匀的词语信息熵较小,加入停用词列表,将分布方差大、信息熵较大的词语加入专业知识库。5.根据权利要求2所述的一种基于信息熵和特征提取的时序对话抽取式摘要方法,其特征在于,提取动态词向量并获取文本特征,计算得出文本摘要,具体通过以下方式实...

【专利技术属性】
技术研发人员:刘扬康梦瑶黄俊恒王佰玲辛国栋
申请(专利权)人:威海天之卫网络空间安全科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1