一种基于信息熵和特征提取的时序对话抽取式摘要方法技术

技术编号：35591804 阅读：35 留言：0更新日期：2022-11-16 15:09

一种基于信息熵和特征提取的时序对话抽取式摘要方法，其包括对聊天记录进行划分并计算信息熵，从而删除无关信息；提取动态词向量并获取文本特征，计算得出文本摘要，其解决了现有的摘要获取方法存在的准确率较低的技术问题，且本发明专利技术改善了现有摘要方法无法解决聊天记录短文本、口语化等问题，考虑记录时序性特点，避免了摘要与原记录事实不一致的现象，可广泛应用于大数据处理领域。可广泛应用于大数据处理领域。可广泛应用于大数据处理领域。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于信息熵和特征提取的时序对话抽取式摘要方法

[0001]本专利技术涉及大数据处理领域，尤其是涉及一种基于信息熵和特征提取的时序对话抽取式摘要方法。

技术介绍

[0002]目前，针对诸如微信，QQ等社交软件在线聊天已经成为人们相互交流不可或缺的方式，大量工作与会议转为线上进行，人们更加依赖在线聊天，并被大量的聊天信息所淹没，快速掌握对话的主要内容能够节省大量时间，提高工作效率。但是聊天记录这种对话式文本内容较短、口语化程度较高且存在一词多义的现象，相较于书面文本语义并不完整、格式非常不规范，这些特点造成对话摘要的困难。
[0003]现有对话摘要仍处于探索阶段，在对话理解上，利用对话结构信息(如对话性温和对话篇章结构)，主题信息等进行对话摘要建模，超参结合同一说话人和不同说话人之间的注意力机制，增强表示对话信息，引入背景知识和常识知识理解对话上文，均取得不错效果，但是这些方法没有解决聊天中存在的口语化、短文本、话题跨越度大、语义信息不连贯、无关信息较多等问题，且没有考虑聊天记录的时序性；而且现有的方法大多为基于深度...

【技术保护点】

【技术特征摘要】
1.一种基于信息熵和特征提取的时序对话抽取式摘要方法，其特征在于，包括：对聊天记录进行划分并计算信息熵，从而删除无关信息；提取动态词向量并获取文本特征，计算得出文本摘要。2.根据权利要求1所述的一种基于信息熵和特征提取的时序对话抽取式摘要方法，其特征在于，对聊天记录进行划分并计算信息熵，从而删除无关信息，具体通过以下方式实现：获取聊天记录并划分，以对聊天记录进行分词；对分词后的文本计算信息熵，判断信息熵的大小，以加入停用词列表或专业知识库；删除停用词列表中的无关信息，保留专业知识库中相关信息。3.根据权利要求2所述的一种基于信息熵和特征提取的时序对话抽取式摘要方法，其特征在于，获取聊天记录并划分，以对聊天记录进行分词，具体通过以下方式实现：获取聊天记录，进行数据预处理，使用字符串匹配以及正则匹配的方式删除明显无关的记录，利用聊天记录的时序性划分文档，确定上下文。4.根据权利要求2所述的一种基于信息熵和特征提取的时序对话抽取式摘要方法，其特征在于，对分词后的文本计算信息熵，判断信息熵的大小，以加入停用词列表或专业知识库，具体通过以下方式实现：对于分词后的文本，计算每个词语的信息熵，得到每个词语在文档中频率分布的方差情况，若出现频率高且分布均匀的词语信息熵较小，加入停用词列表，将分布方差大、信息熵较大的词语加入专业知识库。5.根据权利要求2所述的一种基于信息熵和特征提取的时序对话抽取式摘要方法，其特征在于，提取动态词向量并获取文本特征，计算得出文本摘要，具体通过以下方式实...

【专利技术属性】
技术研发人员：刘扬，康梦瑶，黄俊恒，王佰玲，辛国栋，
申请(专利权)人：威海天之卫网络空间安全科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人