【技术实现步骤摘要】
一种基于信息熵和特征提取的时序对话抽取式摘要方法
[0001]本专利技术涉及大数据处理领域,尤其是涉及一种基于信息熵和特征提取的时序对话抽取式摘要方法。
技术介绍
[0002]目前,针对诸如微信,QQ等社交软件在线聊天已经成为人们相互交流不可或缺的方式,大量工作与会议转为线上进行,人们更加依赖在线聊天,并被大量的聊天信息所淹没,快速掌握对话的主要内容能够节省大量时间,提高工作效率。但是聊天记录这种对话式文本内容较短、口语化程度较高且存在一词多义的现象,相较于书面文本语义并不完整、格式非常不规范,这些特点造成对话摘要的困难。
[0003]现有对话摘要仍处于探索阶段,在对话理解上,利用对话结构信息(如对话性温和对话篇章结构),主题信息等进行对话摘要建模,超参结合同一说话人和不同说话人之间的注意力机制,增强表示对话信息,引入背景知识和常识知识理解对话上文,均取得不错效果,但是这些方法没有解决聊天中存在的口语化、短文本、话题跨越度大、语义信息不连贯、无关信息较多等问题,且没有考虑聊天记录的时序性;而且现有的方法大多为基于深度 ...
【技术保护点】
【技术特征摘要】
1.一种基于信息熵和特征提取的时序对话抽取式摘要方法,其特征在于,包括:对聊天记录进行划分并计算信息熵,从而删除无关信息;提取动态词向量并获取文本特征,计算得出文本摘要。2.根据权利要求1所述的一种基于信息熵和特征提取的时序对话抽取式摘要方法,其特征在于,对聊天记录进行划分并计算信息熵,从而删除无关信息,具体通过以下方式实现:获取聊天记录并划分,以对聊天记录进行分词;对分词后的文本计算信息熵,判断信息熵的大小,以加入停用词列表或专业知识库;删除停用词列表中的无关信息,保留专业知识库中相关信息。3.根据权利要求2所述的一种基于信息熵和特征提取的时序对话抽取式摘要方法,其特征在于,获取聊天记录并划分,以对聊天记录进行分词,具体通过以下方式实现:获取聊天记录,进行数据预处理,使用字符串匹配以及正则匹配的方式删除明显无关的记录,利用聊天记录的时序性划分文档,确定上下文。4.根据权利要求2所述的一种基于信息熵和特征提取的时序对话抽取式摘要方法,其特征在于,对分词后的文本计算信息熵,判断信息熵的大小,以加入停用词列表或专业知识库,具体通过以下方式实现:对于分词后的文本,计算每个词语的信息熵,得到每个词语在文档中频率分布的方差情况,若出现频率高且分布均匀的词语信息熵较小,加入停用词列表,将分布方差大、信息熵较大的词语加入专业知识库。5.根据权利要求2所述的一种基于信息熵和特征提取的时序对话抽取式摘要方法,其特征在于,提取动态词向量并获取文本特征,计算得出文本摘要,具体通过以下方式实...
【专利技术属性】
技术研发人员:刘扬,康梦瑶,黄俊恒,王佰玲,辛国栋,
申请(专利权)人:威海天之卫网络空间安全科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。