当前位置: 首页 > 专利查询>东南大学专利>正文

一种问题驱动的社交网络答案摘要自动生成方法与装置制造方法及图纸

技术编号:32338523 阅读:32 留言:0更新日期:2022-02-16 18:46
本发明专利技术公开了一种问题驱动的社交网络答案摘要自动生成方法,所述方法包括以下步骤:步骤1:社交网络文本采集;步骤2:数据预处理;步骤3:模型训练;步骤4:模型测试与文本生成,本发明专利技术能够改善传统摘要生成方法中过度依赖语义关联性而导致泛化能力低和缺乏可推理性等问题,进而提升生成摘要的可读性、流畅性和简洁性。简洁性。简洁性。

【技术实现步骤摘要】
一种问题驱动的社交网络答案摘要自动生成方法与装置


[0001]本专利技术涉及一种问题驱动的社交网络答案摘要自动生成方法与装置,属于互联网和人工智能


技术介绍

[0002]随着互联网技术的飞速发展,社交媒体称为人们快速发布和获取信息的重要平台,随之带来各种网络知识查询平台上信息量的爆炸式增长。这些需要复杂答案的开放式问题被定义为非事实性问题,比如描述、观点或解释,该类问题所对应的答案中往往包含多个句子或段落,包括很多分析和解释,导致答案十分冗长,并呈现了大量无意义的信息,从而造成了阅读困难和理解偏差。因此,对于非事实类问答,根据问题,对答案进行全面分析、抽取、提炼出重要的信息,从而生成简短而清晰的答案摘要呈现给用户,可以有效帮助用户迅速、方便的获得所需,提高社交平台的体验感。
[0003]摘要生成主要分为抽取式摘要模型和生成式摘要模型。抽取式摘要模型是从源文档中提取关键字或目的句,通过合理拼接形成摘要。这种方法更适合于新闻或文章类的事实类内容总结,不能保证总结信息的一致性。然而,与事实问答不同的是,非事实类文本包含非正式的写作风本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种问题驱动的社交网络答案摘要自动生成方法,其特征在于,所述方法包括以下步骤:步骤1:社交网络文本采集;步骤2:数据预处理;步骤3:模型训练;步骤4:模型测试与文本生成。2.根据权利要求1所述的一种问题驱动的社交网络答案摘要自动生成方法,其特征在于,步骤1:社交网络文本采集,首先从社交网络平台中抓取大量的问答文本,并根据人工规则生成答案的标准摘要,问题,答案与标准答案摘要共同组成样本数据集D,标准答案摘要的生成规则主要是利用“众包”技术对答案进行摘要,形成标准答案摘要,最后将所有得到的数据按照8∶1∶1进行分割形成训练集、验证集和测试集。3.根据权利要求1所述的一种问题驱动的社交网络答案摘要自动生成方法,其特征在于,步骤2:数据预处理,首先对数据进行数据清洗,保留只包含问题、正确答案以及正确答案的摘要的数据,利用nltk库对问题和正确答案进行分句处理,并剔除只包含两句以下的数据组,最后,将数据集分别处理为三元组的形式,以便于后续步骤的应用。4.根据权利要求1所述的一种问题驱动的社交网络答案摘要自动生成方法,其特征在于,步骤3:模型训练,利用步骤2处理后的数据集对问题驱动下的分层滑动推理生成器进行训练,该步骤的实施分为以下子步骤:子步骤3

1,构建数据层,将三元组利用预训练的Glove对问题和答案中的每个单词序列转化为词向量表示,构建50k的词汇表,并分别得到映射后的问题词向量序列E
q
,答案词向量序列E
a
,其中答案中的句子级别的词向量序列为子步骤3

2,构建文本编码层,采用一个双层Bi

LSTM循环神经网络编码器分别对问题词向量序列E
q
和答案词向量序列E
a
进行语义编码提取,得到学习后的上下文语义表示:H
q
=Bi

LSTM(E
q
)同时得到为整个答案的整体语义表示,其中[,]表示连接操作;子步骤3

3,构建推理层,推理层包含两大步骤,分别为分层滑动融合机制和cross

attention机制,首先利用分层滑动融合机制将答案中的每个句子融合为小节的形式,具体的做法如下:的做法如下:对答案中相邻的k个句子进行融合操作,并再次通过Bi

LSTM编码器进行小节的上下文信息表示,得到相邻k个句子的语义表示,此时整个答案的语义表示为接着对上述融合后的小节语义信息通过cross

attention机制:
head
i
=Attention(Q,K,V)W
iV
MultiHead(Q,K,V)=[head1,...,head
h
]W
O
其中W
iQ
、W
ik
、W
iV
、W
O
为可学习参数,然后利用multi

head attention机制分别对问题和答案进行权值计算:对于问题中的信息,主要计算问题和答案中的每个句子的权值,并通过池化层得到在答案中单个句子的影响下的被分配了权重的问题的上下文语义表示:池化层得到在答案中单个句子的影响下的被分配了权重的问题的上下文语义表示:对于答案中的句子信息,为了学习句子中单词的依存关系,捕捉句子的内部结构,首先对融合k个句子之后的小节语义表示利用self

attention机制找出句子内部的关键信息所在位置;在突出字级别的语义表示的基础上,利用multi

head attention机制计算k级融合句子与问题之间的关系,获得在问题的影响下被分配了权重的k级融合后的答案句子的上下文语义表示文语义表示文语义表示最后,将k级融合句子表示执行平均池化层,获得最后在问题影响下的句子级别的答案表示,这可以应用在解码阶段取评估答案中每个句子的重要程度,表示,这可以应用在解码阶段取评估答案中每个句子的重要程度,表示,这可以应用在解码阶段取评估答案中每个句子的重要程度,子步骤3

4,构建生成层,主要通过设计一种双驱动的选择生...

【专利技术属性】
技术研发人员:杨鹏李冰陈维威于晓潭
申请(专利权)人:东南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1