当前位置: 首页 > 专利查询>浙江大学专利>正文

一种基于商品方面对齐的抽象式评论摘要生成方法技术

技术编号:26342605 阅读:39 留言:0更新日期:2020-11-13 20:35
本发明专利技术公开了一种基于商品方面对齐的抽象式评论摘要生成方法,包括:(1)获取商品评论数据,对商品下的评论进行划分,筛选出低质量评论和高质量评论,并用方面对齐的方式将筛选出的评论构建成多评论摘要数据集;(2)建立一个序列模型,所述的序列模型包含基于循环神经网络的编码器、解码器和注意力机制;同时加入基于方面的注意力机制;(3)利用多评论摘要数据集对序列模型进行训练,直到模型收敛;(4)使用训练好的模型进行评论摘要生成任务,输入商品的评论后,自动生成摘要。利用本发明专利技术,能够高效地构造(评论集,摘要)对用于神经网络模型训练,大大地降低了人工标注的成本;训练出来的模型够生成高质量的多评论摘要。

【技术实现步骤摘要】
一种基于商品方面对齐的抽象式评论摘要生成方法
本专利技术属于自然语言处理
,尤其是涉及一种基于商品方面对齐的抽象式评论摘要生成方法。
技术介绍
评论系统旨在帮助用户在网上购物时做出更好的交易,并已成为活跃的电子商务环境的重中之重。但是,当评论数量很大时,考虑到大多数评论可能缺乏关键信息,用户不太可能有效地处理历史的评论。另一方面,电商产品下面的评论往往是简短的,点赞量很少,涵盖的商品方面(Aspect)也很少。因此,需要一个多评论摘要系统来帮助用户有效地使用多条评论并消化最相关的信息。先前的一些工作是提取性的,着重于预测实体的总体评级或估计不同产品特征的评级。抽象方法可能更适合于汇总评估文本,因为在多文档摘要的背景下,抽取式评论摘要可能会导致摘要过于冗长或偏向某些来源。先前的抽象多评论摘要工作采用无监督方法,将多评论摘要减少为选择最佳短语的子集,然后使用自然语言生成(NLG)生成摘要。由人工编写的评论摘要组成的训练数据的准确性成为多评论摘要的瓶颈。因此,我们几乎无法定义监督学习范式用来大规模地评估新兴的方法。这使得了研究人员采用复本文档来自技高网...

【技术保护点】
1.一种基于商品方面对齐的抽象式评论摘要生成方法,其特征在于,包括:/n(1)获取商品评论数据,对商品下的评论进行划分,筛选出低质量评论和高质量评论,并用方面对齐的方式将筛选出的评论构建成多评论摘要数据集;/n(2)建立一个序列模型,所述的序列模型包含基于循环神经网络的编码器、解码器和注意力机制;同时加入基于方面的注意力机制;/n(3)利用多评论摘要数据集对序列模型进行训练,直到模型收敛;/n(4)使用训练好的模型进行评论摘要生成任务,输入商品的评论后,自动生成摘要。/n

【技术特征摘要】
1.一种基于商品方面对齐的抽象式评论摘要生成方法,其特征在于,包括:
(1)获取商品评论数据,对商品下的评论进行划分,筛选出低质量评论和高质量评论,并用方面对齐的方式将筛选出的评论构建成多评论摘要数据集;
(2)建立一个序列模型,所述的序列模型包含基于循环神经网络的编码器、解码器和注意力机制;同时加入基于方面的注意力机制;
(3)利用多评论摘要数据集对序列模型进行训练,直到模型收敛;
(4)使用训练好的模型进行评论摘要生成任务,输入商品的评论后,自动生成摘要。


2.根据权利要求1所述的基于商品方面对齐的抽象式评论摘要生成方法,其特征在于,步骤(1)的具体过程为:
(1-1)收集商品的评论数据,修剪一些自动生成的低质量评论,并删除同一产品下显示超过20次高频次评论;
(1-2)在这些剩余的评论数据上运行方面Aspect提取器,并删除未涵盖任何预先定义的方面的评论;从而得到每个产品包含不同方面的评论;
(1-3)对于每个产品,首先找到点赞数大于10且包含大于3个方面的高质量评论;然后对对应的每个方面,找到10~40个低质量评论组成低质量评论集,所述的低质量评论为点赞数小于1且只包含一个方面的评论;
(1-4)重复上述步骤,生成多组由低质量评论集和对应的高质量评论所组成的(评论集,摘要)对,作为评论摘要数据集。


3.根据权利要求1所述的基于商品方面对齐的抽象式评论摘要生成方法,其特征在于,步骤(2)中,所述编码器中的循环神经网络为双向长短时记忆网络。
<...

【专利技术属性】
技术研发人员:潘浩杰蔡登杨荣钦周鑫王睿刘晓钟
申请(专利权)人:浙江大学
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1