一种基于信息熵和特征提取的时序对话抽取式摘要方法技术

技术编号:35591804 阅读:35 留言:0更新日期:2022-11-16 15:09
一种基于信息熵和特征提取的时序对话抽取式摘要方法,其包括对聊天记录进行划分并计算信息熵,从而删除无关信息;提取动态词向量并获取文本特征,计算得出文本摘要,其解决了现有的摘要获取方法存在的准确率较低的技术问题,且本发明专利技术改善了现有摘要方法无法解决聊天记录短文本、口语化等问题,考虑记录时序性特点,避免了摘要与原记录事实不一致的现象,可广泛应用于大数据处理领域。可广泛应用于大数据处理领域。可广泛应用于大数据处理领域。

【技术实现步骤摘要】
一种基于信息熵和特征提取的时序对话抽取式摘要方法


[0001]本专利技术涉及大数据处理领域,尤其是涉及一种基于信息熵和特征提取的时序对话抽取式摘要方法。

技术介绍

[0002]目前,针对诸如微信,QQ等社交软件在线聊天已经成为人们相互交流不可或缺的方式,大量工作与会议转为线上进行,人们更加依赖在线聊天,并被大量的聊天信息所淹没,快速掌握对话的主要内容能够节省大量时间,提高工作效率。但是聊天记录这种对话式文本内容较短、口语化程度较高且存在一词多义的现象,相较于书面文本语义并不完整、格式非常不规范,这些特点造成对话摘要的困难。
[0003]现有对话摘要仍处于探索阶段,在对话理解上,利用对话结构信息(如对话性温和对话篇章结构),主题信息等进行对话摘要建模,超参结合同一说话人和不同说话人之间的注意力机制,增强表示对话信息,引入背景知识和常识知识理解对话上文,均取得不错效果,但是这些方法没有解决聊天中存在的口语化、短文本、话题跨越度大、语义信息不连贯、无关信息较多等问题,且没有考虑聊天记录的时序性;而且现有的方法大多为基于深度学习的生成式方法,一本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于信息熵和特征提取的时序对话抽取式摘要方法,其特征在于,包括:对聊天记录进行划分并计算信息熵,从而删除无关信息;提取动态词向量并获取文本特征,计算得出文本摘要。2.根据权利要求1所述的一种基于信息熵和特征提取的时序对话抽取式摘要方法,其特征在于,对聊天记录进行划分并计算信息熵,从而删除无关信息,具体通过以下方式实现:获取聊天记录并划分,以对聊天记录进行分词;对分词后的文本计算信息熵,判断信息熵的大小,以加入停用词列表或专业知识库;删除停用词列表中的无关信息,保留专业知识库中相关信息。3.根据权利要求2所述的一种基于信息熵和特征提取的时序对话抽取式摘要方法,其特征在于,获取聊天记录并划分,以对聊天记录进行分词,具体通过以下方式实现:获取聊天记录,进行数据预处理,使用字符串匹配以及正则匹配的方式删除明显无关的记录,利用聊天记录的时序性划分文档,确定上下文。4.根据权利要求2所述的一种基于信息熵和特征提取的时序对话抽取式摘要方法,其特征在于,对分词后的文本计算信息熵,判断信息熵的大小,以加入停用词列表或专业知识库,具体通过以下方式实现:对于分词后的文本,计算每个词语的信息熵,得到每个词语在文档中频率分布的方差情况,若出现频率高且分布均匀的词语信息熵较小,加入停用词列表,将分布方差大、信息熵较大的词语加入专业知识库。5.根据权利要求2所述的一种基于信息熵和特征提取的时序对话抽取式摘要方法,其特征在于,提取动态词向量并获取文本特征,计算得出文本摘要,具体通过以下方式实...

【专利技术属性】
技术研发人员:刘扬康梦瑶黄俊恒王佰玲辛国栋
申请(专利权)人:威海天之卫网络空间安全科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1