一种基于用户评论的典型意见生成装置制造方法及图纸

技术编号:23162023 阅读:47 留言:0更新日期:2020-01-21 22:02
本申请属于语义分析技术领域,公开了一种基于用户评论的典型意见生成装置,该装置包括:抽取模块,用于基于所述用户评论抽取多个主题词;生成模块,用于根据所述多个主题词生成所述用户评论的典型意见。本申请能够帮助基于用户评论进行动机挖掘,获得更精准效果。

A typical opinion generating device based on user comments

【技术实现步骤摘要】
一种基于用户评论的典型意见生成装置
本专利技术涉及语义分析领域,尤其涉及一种基于用户评论的典型意见生成装置。
技术介绍
在当前线上交易(如购物)已经成为大众主流消费方式的情况下,用户的评论对于产品具有非常重要的影响。例如,在车辆领域,众多的车辆线上平台或资源中,如各类门户网站、论坛或app,存在大量的用户评价信息。用户在了解、购买、使用某款车辆的全过程中都会浏览这些线上的用户评价信息,从而结合自己的感觉来对该款车辆进行评价,从而发生连锁效应。通过上述示例可知,对于各类产品来说,通过大量用户评价信息的积累,会产生海量的用户意见线上数据,进而逐渐形成占据主流地位的典型意见。这对于该产品的市场竞争有着关键性的影响力。目前通过用户评论来挖掘用户的典型意见,主要通过两个途径:一是通过人工浏览相关网站评论进行总结,二是通过问卷公司对用户进行问卷调查,汇总问卷结果。上述主要通过人工处理用户评论的方式,难以对巨大数据量的评论意见进行数据处理,并且需耗费大量人力、时间,且还可能存在覆盖不全面或区分不精细等问题。有鉴于此,如何高效且准确地对线上的用户评论进行分析处理,进而获得典型意见,成为本领域需要解决的技术问题。
技术实现思路
有鉴于此,本申请提出了一种基于用户评论的典型意见生成装置,以通过对用户评论自然语言的构成进行分析的技术手段来实现用户的动机挖掘。根据本申请的一个方面,提出了一种基于用户评论的典型意见生成装置,该装置包括:抽取模块,用于基于所述用户评论抽取多个主题词;生成模块,用于根据所述多个主题词生成所述用户评论的典型意见。优选地,所述抽取模块,利用编码器-解码器模型抽取所述多个主题词,其中编码器应用注意力机制,解码器所使用的分类器输出存在于词典且存在于所述用户评论中的主题词的概率以及不存在于词典从所述用户评论复制主题词的概率。优选地,所述生成模块,还用于针对所述多个主题词使用注意力模型生成所述用户评论的典型意见;其中所述注意力模型为:gtj=covt-1,jvaTtanh(Waht-1+Uatopicj)gtj为第j个主题topicj在时间为t时的注意力系数,t-1为t的前一时间,T={topic1,topic2,…topick},vaT、Wa、Ua为随机初始化矩阵,N表示生成的文本的词的个数,σ为sigmoid函数,k表示主题的数量,dw表示每个主题向量的维度,Uf表示k个dw维主题向量的合并。优选地,所述编码器模型为:ht=f(xt,ht-1);c=q(h1,h2,…,hM);h=(h1,h2,…,hM);其中,输入序列X=(x1,x2,…,xM),f是GRU函数,语境向量c作为输入序列经过非线性函数q后的全部表达,向量c的每个维度经过q函数得到。优选地,所述解码器模型为:St=f(yt-1,St-1,c);p(yt|y1,…,t-1,X)=g(yt-1,St,c);其中,St为解码器在t时刻的隐状态,输出序列y=(y1,y2,…,yM′),非线性函数g是柔性最大值传输函数分类器,a(si-1,hj)是测量si-1和hj相似度的柔性对齐函数,si-1表示位置i的输出内容,hj表示位置硐的输入内容,ci表示向量c的第i个维度,M表示隐状态向量的个数。优选地,p(yt|y1,…,t-1,X)=pg(yt|y1,…,t-1,X)+pc(yt|y1,…,t-1,X);其中,pg(yt|y1,…,t-1,X)=g(yt-1,St,c);其中,非线性函数g是一个柔性最大值传输函数分类器,χ是源用户评论中所有唯一词汇的集合;σ是sigmoid函数;是利用反向传播方式得到的参数矩阵;Z是所有分数的总和。优选地,该装置还包括初始化模块,用于对原始用户评论进行数据过滤和数据标准化。根据本申请的技术方案,通过对海量的线上用户评价信息进行筛选、标记进而根据分析模型的语义结构处理,从而准确地获取用户评论的典型意见。通过上述方式可以以有效处理更大体量的数据,自动生成方式比人工更快速高效,短时间内生成大量典型意见,从而能够高效地实现典型意见的获取。另一方面,由于用户评价信息数据量较大,因此覆盖评论更广,利用本申请的技术手段能够过滤掉人为的情感因素,从而获得更精准的分析结果。本申请的其它特征和优点将在随后的具体实施方式部分予以详细说明。附图说明构成本申请的一部分的附图用来提供对本申请的进一步理解,本申请的示意性实施方式及其说明用于解释本申请。在附图中:图1为本申请实施例提供的基于用户评论的典型意见生成方法示意图;图2为本申请实施例提供的基于用户评论的典型意见生成装置。具体实施方式需要说明的是,在不冲突的情况下,本申请中的实施方式及各个实施方式中的特征可以相互组合。下面将参考附图并结合实施方式来详细说明本申请。图1示出了本申请提供的基于用户评论的典型意见生成方法流程,该方法包括:步骤105,数据初始化。数据初始化主要包括数据过滤和数据标准化。用户评论中有些词出现频率高,但是与主题无关,不适合用来生成典型意见,需要过滤掉。另外,在数据处理过程中需要用到字典,字典规模过大会使得数据处理变得困难,例如低频词会由于其稀疏性导致错误,因而需要将低频词过滤掉,低频词可以为出现频次小于一定数据的词。例如,{DW1,DW2,…,DWn}是一簇不同用户发表的语义相似的评论的词汇集,n为原始评论中词汇数,其可以表征原始用户评论。首先,进行数据过滤,将评论中停用词和“是”、“的”等出现频率高但与主题无关的词删除;再次,进行数据标准化,将出现频次小于3次的稀疏词删去,使数据更加简洁清晰,得到{DW1′,DW2′,…,DWm′},称为“信息池”,其中m为过滤后的文章词汇数,可以表征源用户评论。后续生成标题时,直接从“信息池”中抽取信息,可有效排除频率高但与主题无关的词干扰,防止低频词造成词汇稀疏,避免标题偏离正确主题。步骤110,关键短语抽取。关键短语抽取可以通过数据处理模型来实现,本申请实施例采用带有复制机制的编码器-解码器模型抽取评论中的关键短语。编码器-解码器模型可以通过机器学习的方式来实现。在本申请实施例中,假设“信息池”中包含N个数据样本的关键短语集,第i个数据样本为(X(i),P(i)),包含一个源用户评论X(i)和Mi个目标关键短语源文本X(i)和关键短语P(i,j)都是词序列。其中和分别表示X(i)和P(i,j)的词序列长度。为了便于说明,将数据样本(X(i),P(i))分成Mi对,下文中用(x,y)来表示的每一个数据对。编码器-解码器模型中,编码器将源用户评论压缩为隐藏的表示形式,解码器用来生成对应的关键短语。编码器和解码器可以使本文档来自技高网...

【技术保护点】
1.一种基于用户评论的典型意见生成装置,其特征在于,该装置包括:/n抽取模块,用于基于所述用户评论抽取多个主题词;/n生成模块,用于根据所述多个主题词生成所述用户评论的典型意见。/n

【技术特征摘要】
20190729 CN 20191068992921.一种基于用户评论的典型意见生成装置,其特征在于,该装置包括:
抽取模块,用于基于所述用户评论抽取多个主题词;
生成模块,用于根据所述多个主题词生成所述用户评论的典型意见。


2.根据权利要求1所述的装置,其特征在于,所述抽取模块,利用编码器-解码器模型抽取所述多个主题词,其中编码器应用注意力机制,解码器所使用的分类器输出存在于词典且存在于所述用户评论中的主题词的概率以及不存在于词典从所述用户评论复制主题词的概率。


3.根据权利要求1所述的装置,其特征在于,所述生成模块,还用于针对所述多个主题词使用注意力模型生成所述用户评论的典型意见;其中所述注意力模型为:
gtj=covt-1,jvaTtanh(Waht-1+Uatopicj)












gtj为第j个主题topicj在时间为t时的注意力系数,t-1为t的前一时间,T={topic1,topic2,…topick},vaT、Wa、Ua为随机初始化矩阵,N表示生成的文本的词的个数,σ为sigmoid函数,k表示主题的数量,dw表示每个主题向量的维度,Uf表示k个dw维主题向量的合并。


4.根据权利要求3所述的装置,其特征在于,所述编码器模型为:
ht=f(xt,ht-1);
c=q(h1,h2,…...

【专利技术属性】
技术研发人员:孔洋洋李阳车皓阳杜涛朱劲松
申请(专利权)人:北京车慧科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1