一种个性化情感摘要的计算方法与装置制造方法及图纸

技术编号:21200186 阅读:36 留言:0更新日期:2019-05-25 01:20
本发明专利技术公开一种个性化情感摘要的计算方法与装置,用于根据不同用户,自动生成个性化情感摘要。该计算方法包括:基于用户评论数据信息构建数据集;基于预设要素信息对数据集进行过滤,得到过滤结果;通过用户敏感编码器,对过滤结果使用双向LSTM进行编码后,基于用户选择机制从过滤结果中,获取用户关注度高的评论内容进行建模,得到建模结果;通过用户敏感解码器对建模结果进行解码,并输入用户向量及用户特定词汇至解码器的词汇预测阶段,使得解码器输出个性化情感摘要。采用本发明专利技术的技术方案,在编码阶段采用了基于用户的选择机制在对评论根据用户关注的差异进行过滤,在解码阶段融合了用户相关词汇表以生成个性化的情感摘要。

A Computing Method and Device for Personalized Emotional Summary

The invention discloses a calculation method and device for personalized emotional summary, which can automatically generate personalized emotional summary according to different users. The calculation method includes: building data sets based on user comment data information; filtering data sets based on presupposed factor information to get filtering results; coding the filtering results using bidirectional LSTM by user sensitive encoder, modeling the content of comments with high user attention from filtering results based on user selection mechanism, and obtaining the modeling results; User-sensitive decoders decode the modeling results and input user vectors and user-specific vocabulary to the vocabulary prediction stage of the decoder, which makes the decoder output personalized emotional abstracts. According to the technical scheme of the invention, the user-based selection mechanism is adopted in the coding stage to filter comments according to the differences of users'concerns, and the user-related vocabulary is fused in the decoding stage to generate personalized emotional summaries.

【技术实现步骤摘要】
一种个性化情感摘要的计算方法与装置
本专利技术涉及网络信息领域,特别涉及一种个性化情感摘要的计算方法与装置。
技术介绍
情感摘要的目的是给一篇或者是多篇评论生成一个简要的摘要。给定一篇评论,由于不同的用户有着不同的经历以及不同的想法,导致他们会关注评论的不同内容。图1给出了酒店评论的一个例子。用户A可能是商务出行,他对酒店的位置和房间的关注多于对酒店价格的关注,而用户B可能是穷游,因此在选择酒店时更关注于酒店的价格。不仅如此,不同用户也有他们各自的用词习惯,用户C可能就经常总结会用一些显示表达他情感的词来总结他的评论,然而用户A和用户B却不这么做。传统的情感摘要系统仅仅关注评论内容,生成的摘要对于所有的用户都是一样的。而个性化的情感摘要可以针对不同的读者,生成不同的摘要。这些摘要可以直接反映读者对产品要素的不同偏好,应该能更有助于他们选择产品。鉴于此,提出本专利技术。
技术实现思路
本专利技术提供个性化情感摘要的计算方法与装置,用于解决传统的情感摘要系统仅仅关注评论内容,生成的摘要对于所有的用户都是一样,而不具备个性化的问题。为了达到上述目的,根据本专利技术的第一个方面,提供一种个性化情感摘要的计算方法,并采用如下具体方案:一种个性化情感摘要的计算方法包括:基于用户评论数据信息构建数据集;基于预设要素信息对所述数据集进行过滤,得到过滤结果;通过用户敏感编码器,对所述过滤结果使用双向LSTM进行编码后,基于用户选择机制从所述过滤结果中,获取用户关注度高的评论内容进行建模,得到建模结果;通过用户敏感解码器对所述建模结果进行解码,并输入用户向量及用户特定词汇至所述解码器的词汇预测阶段,使得所述解码器输出个性化情感摘要。根据本专利技术的另外一个专利技术,提供一种个性化情感摘要的计算装置,并采用如下技术方案:一种情感摘要的个性化计算装置包括:构建模块,用于基于用户评论数据信息构建数据集;过滤模块,用于基于预设要素信息对所述数据集进行过滤,得到过滤结果;编码模块,用于通过用户敏感编码器,对所述过滤结果使用双向LSTM进行编码后,基于用户选择机制从所述过滤结果中,获取用户关注度高的评论内容进行建模,得到建模结果;解码模块,用于通过用户敏感解码器对所述建模结果进行解码,并输入用户向量及用户特定词汇至所述解码器的词汇预测阶段,使得所述解码器输出个性化情感摘要。本专利技术的通过用户敏感编码器与用户敏感解码器,对红红评论数据信息进行编码解码处理,在生成情感摘要时增添用户向量及用户特定词汇,生成个性化情感摘要。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对本专利技术实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术
技术介绍
个性化情感摘要示例;图2为本专利技术实施例所述的个性化情感摘要的计算方法流程图;图3为本专利技术实施例所述的用户敏感的序列结构图;图4为本专利技术实施例所述的用户特定词表现规模对模型的影响示意图;图5为本专利技术实施例所述的个性化情感摘要的计算装置结构示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本专利技术保护的范围。图2为本专利技术实施例所述的个性化情感摘要的计算方法流程图。参见图2所示,一种个性化情感摘要的计算方法包括:S101:基于用户评论数据信息构建数据集;S103:基于预设要素信息对所述数据集进行过滤,得到过滤结果;S105:通过用户敏感编码器,对所述过滤结果使用双向LSTM进行编码后,基于用户选择机制从所述过滤结果中,获取用户关注度高的评论内容进行建模,得到建模结果;S107:通过用户敏感解码器对所述建模结果进行解码,并输入用户向量及用户特定词汇至所述解码器的词汇预测阶段,使得所述解码器输出个性化情感摘要。具体而言,步骤S101中,基于用户评论数据信息构建数据集,本步骤构建了一个数据集并将其命名为TripSet。TripSet可以从网站上抓取,例如猫途鹰网站,用户在猫途鹰网站上经常会写评论并给评论一个标题。评论的标题可以看成是发表评论的用户对评论内容的一个精炼的总结,因此可以将这个标题作为该评论的摘要内容。从猎途鹰网站上抓取了2832872用户-评论-摘要三元组。在步骤S103中,基于预设要素信息对所述数据集进行过滤,得到过滤结果;由于数据集中的这些数据存在着大量的噪音,由于用户在撰写标题时并没有任何约束,用户可以任意的给出标题,这就导致了很多没有意义的标题,例如″notmyfirstchoice″,″iwillbebackagain″和″twiceinonetrip″等。为了过滤这些噪音样本,在步骤S103中提出了三个过滤器:要素过滤器:要素过滤器是为了过滤那些没有描述任何要素的标题。对于酒店领域,可以人工定义了6类要素及其种子词:位置、服务、房间、价格、设施和食物,详细信息可参见表1。然后采用文献提出的要素分割算法,自动拓展种子词,并标注评论标题的要素类别。最后过滤掉那些没有被标注任何要素的题目。长度过滤器:长度过滤器是为了过滤那些过短的题目,这里设定如果评论的题目的词汇数目小于5,则删除它。压缩比过滤器:压缩比过滤器是为了过滤那些评论长度与题目长度比值过大的评论数据,这里设置的压缩比阈值为50,如果评论的长度与评论题目长度比值大于这个阈值,则删除它。表1人工定义的要素及其关键词使用完这些过滤器之后,只保留了那些发表评论超过20篇用户的评论,最终得到了536255的用户-评论-摘要三元组的TripSet数据集。表2中给出了的一些统计信息。随机从TripSet中选取了1000条评论进行人工分析,来查看摘要中涉及的要素是否全都在评论中出现过。最终发现90%以上的摘要涉及的要素全都在评论中出现过,这也就明TripSet的可靠性。随机从这个数据集抽取5000篇做测试集,500篇做开发集剩下的做训练集。表2TripSet的统计信息通过上述过滤后,在步骤S105中,通过用户敏感编码器,对所述过滤结果使用双向LSTM进行编码后,基于用户选择机制从所述过滤结果中,获取用户关注度高的评论内容进行建模,得到建模结果。首先,数据集D是由m个用户-评论-摘要三元组,每个三元组包含了一条评论x,评论的发布者u,以及u对x总结形成的摘要y。评论x包含了n个词汇,分别是{x,x2,...,xn},其中xi∈Vs并且V是源端词表。摘要y包含了I≤n个汇,它们分别是{y1,y2...,yl},其中yi∈Vt并且V是目标端的词表。个性化情感摘要的目的是从评论x自动生成摘要y并考虑用户u在对评论摘要过程中的特定习惯。具体参见图3所示,给定评论x,编码器首先将评论内部的词汇xi映射成词向量xi,然后评论内部所有词汇的词向量将依次进入编码模块(一个单层的双向LSTM),从而得到词汇xi的隐层表示hi。具体来说,基于用户的选择机制网络的输入是用户向量u和编码端的隐层状态hi,输出的是一个门向量来过滤hi。gatei=本文档来自技高网
...

【技术保护点】
1.一种个性化情感摘要的计算方法,其特征在于,包括:基于用户评论数据信息构建数据集;基于预设要素信息对所述数据集进行过滤,得到过滤结果;通过用户敏感编码器,对所述过滤结果使用双向LSTM进行编码后,基于用户选择机制从所述过滤结果中,获取用户关注度高的评论内容进行建模,得到建模结果;通过用户敏感解码器对所述建模结果进行解码,并输入用户向量及用户特定词汇至所述解码器的词汇预测阶段,使得所述解码器输出个性化情感摘要。

【技术特征摘要】
1.一种个性化情感摘要的计算方法,其特征在于,包括:基于用户评论数据信息构建数据集;基于预设要素信息对所述数据集进行过滤,得到过滤结果;通过用户敏感编码器,对所述过滤结果使用双向LSTM进行编码后,基于用户选择机制从所述过滤结果中,获取用户关注度高的评论内容进行建模,得到建模结果;通过用户敏感解码器对所述建模结果进行解码,并输入用户向量及用户特定词汇至所述解码器的词汇预测阶段,使得所述解码器输出个性化情感摘要。2.根据权利要求1所述的计算方法,其特征在于,所述基于用户评论数据信息构建数据集包括:从目标网站抓取所述用户评论信息;将所述用户评论信息按照用户-评论-摘要三元组形式构建所述数据集。3.根据权利要求1所述的计算方法,其特征在于,所述基于预设要素信息对所述数据集进行过滤,得到过滤结果包括:基于所述目标网站定义所述预设要素信息;根据要素分割算法将所述预设要素信息自动拓展种子词;基于所述预设要素信息及所述种子词对所述数据集进行第一次过滤,得到第一次过滤结果;对所述第一过滤结果进行长度过滤,过滤掉题目词汇小于预设数量的用户评论信息,得到第二次过滤结果;对所述第二次过滤结果进行压缩比过滤,过滤掉评论长度与题目长度比值大于预设阈值的所述用户评论信息,得到所述过滤结果。4.根据权利要求1所述的计算方法,其特征在于,所述通过用户敏感编码器,对所述过滤结果使用双向LSTM进行编码后,基于用户选择机制从所述过滤结果中,获取用户关注度高的评论内容进行建模,得到建模结果包括:基于用户选择机制的网络输入是用户向量u和编码端的隐层状态hi,输出是通过一个门向量gatei进行过滤后得到的源端隐层向量:gatei=σ(Wk[hi;u]+bk)(1)其中wk和bk是选择机制的参数,[;]是连接符号,σ表示的是sigmoid活函数,并且指的是逐位相乘的操作,h’i指的是保留hi信息的量,称为源端隐层向量。5.根据权利要求4所述的计算方法,其特征在于,所述通过用户敏感解码器对所述建模结果进行解码,并输入用户向量及用户特定词汇至所述解码器的词汇预测阶段,使得所述解码器输出个性化情感摘要包括:在t时刻的解码过程中,解码器通过接受上一时刻解码出的词向量生成t时刻的解码状态st,然后用所述解码状态st去关注所述源端隐层向量h’i,得到t时刻的上下文向量c’t,具体计算公式如(3)(4)(5)所示:其中,Wc,W’c,bc和vTa是注意力层的参数,at,i度量的是编码隐层状态hi和当前解码状态st的重要性得分,e′t,i为使用用户敏感编码器过滤后编码器顶层的隐藏状态,包含了待输入到连接层的隐藏向量,c′t为t时刻的上下文向量,和要素at相关的句子i的表示;将用户关注词汇表融入到词汇预测模块,得到影响词汇的概率分布Pvoc,,使用注意力机制来从所述用户特定词汇表中抽取词汇得到用户词表,用mt表示;mt=∑kβt,kUk(8)其中,wm,W′m,bm和vTb是...

【专利技术属性】
技术研发人员:张世博沙芸杨飞
申请(专利权)人:北京石油化工学院
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1