【技术实现步骤摘要】
用于生成信息评估模型的方法和装置
本申请实施例涉及计算机
,具体涉及网络信息处理
,尤其涉及用于生成信息评估模型的方法和装置。
技术介绍
随着互联网技术的发展,网络用户和互联网产品的数量不断增多,网络用户关于互联网产品的评论也爆炸式增长。用户在浏览互联网信息时常常会参考其他用户的评论来进行行为决策,例如,用户可以参考产品的评论来做出消费决策。然而,由于网络中的评论的质量参差不齐,且数量巨大,难以从高效地从海量的评论中筛选出有价值的评论作为参考。因此,存在对评论的价值进行评估的需求。目前的方法是通过众包的方式,设置一系列票选按钮请求其他用户对评论的价值进行投票,这种方式可以收集到少量的投票结果。
技术实现思路
本公开的实施例提出了用于生成信息评估模型的方法和装置、用于确定评论信息的有用性的方法和装置、电子设备以及计算机可读介质。第一方面,本公开的实施例提供了一种用于生成信息评估模型的方法,包括:获取训练样本,训练样本包括具有有用性标签的第一样本评论信息和不具有有用性标签的第二样本评论信息;获取基于生成式对抗网络中的生成网络和判别网络分别构建的预测器模型和判别器模型,利用第一样本评论信息预训练预测器模型,预测器模型用于预测评论信息的有用性标签,判别器模型用于判别有用性标签的真实性;通过迭代执行多次训练操作对预测器模型和判别器模型进行训练,将训练完成的预测器模型作为信息评估模型;训练操作包括:采用预测器模型对第二样本评论信息的有用性标签进行预测,将第一样本评论信息的有用性标签 ...
【技术保护点】
1.一种用于生成信息评估模型的方法,包括:/n获取训练样本,所述训练样本包括具有有用性标签的第一样本评论信息和不具有有用性标签的第二样本评论信息;/n获取基于生成式对抗网络中的生成网络和判别网络分别构建的预测器模型和判别器模型,利用所述第一样本评论信息预训练所述预测器模型,所述预测器模型用于预测评论信息的有用性标签,所述判别器模型用于判别有用性标签的真实性;/n通过迭代执行多次训练操作对所述预测器模型和所述判别器模型进行训练,将训练完成的预测器模型作为信息评估模型;/n所述训练操作包括:/n采用预测器模型对第二样本评论信息的有用性标签进行预测,将第一样本评论信息的有用性标签作为真实标签,第二样本评论信息的有用性标签作为虚假标签,采用判别器模型对第一样本评论信息的有用性标签和第二样本评论信息的有用性标签的真实性进行判别,基于判别器模型的判别结果的误差迭代更新判别器模型的参数和与判别器模型的参数和预测器模型的参数关联的奖励函数,根据所述奖励函数和预测器模型确定所述预测器模型的期望奖励,基于所述期望奖励的误差迭代更新所述预测器模型的参数。/n
【技术特征摘要】
1.一种用于生成信息评估模型的方法,包括:
获取训练样本,所述训练样本包括具有有用性标签的第一样本评论信息和不具有有用性标签的第二样本评论信息;
获取基于生成式对抗网络中的生成网络和判别网络分别构建的预测器模型和判别器模型,利用所述第一样本评论信息预训练所述预测器模型,所述预测器模型用于预测评论信息的有用性标签,所述判别器模型用于判别有用性标签的真实性;
通过迭代执行多次训练操作对所述预测器模型和所述判别器模型进行训练,将训练完成的预测器模型作为信息评估模型;
所述训练操作包括:
采用预测器模型对第二样本评论信息的有用性标签进行预测,将第一样本评论信息的有用性标签作为真实标签,第二样本评论信息的有用性标签作为虚假标签,采用判别器模型对第一样本评论信息的有用性标签和第二样本评论信息的有用性标签的真实性进行判别,基于判别器模型的判别结果的误差迭代更新判别器模型的参数和与判别器模型的参数和预测器模型的参数关联的奖励函数,根据所述奖励函数和预测器模型确定所述预测器模型的期望奖励,基于所述期望奖励的误差迭代更新所述预测器模型的参数。
2.根据权利要求1所述的方法,其中,所述采用判别器模型对第一样本评论信息的有用性标签和第二样本评论信息的有用性标签的真实性进行判别,包括:
选取数量相等的第一样本评论信息和第二样本评论信息的有用性标签,采用判别器模型对选取出的有用性标签的真实性进行判别。
3.根据权利要求1所述的方法,其中,所述判别器模型的判别结果的误差包括第一交叉熵的相反数和第二交叉熵的相反数的和;
所述第一交叉熵包括:第一样本评论信息的有用性标签为真实标签的第一概率分布与判别器模型将第一样本评论信息的有用性标签判定为真实标签的第二概率分布之间的交叉熵;
所述第二交叉熵包括:预测器模型预测出的第二样本评论信息的有用性标签为真实标签的第三概率分布与判别器模型将第二样本评论信息的有用性标签判定为真实标签的第四概率分布之间的交叉熵。
4.根据权利要求1所述的方法,其中,所述奖励函数的输入为第二样本评论信息时,输出为所述判别器模型对所述第二样本评论信息的有用性标签的真实性判别结果;以及
所述根据所述奖励函数和预测器模型确定所述预测器模型的期望奖励,基于所述期望奖励的误差迭代更新所述预测器模型的参数,包括:
将所述奖励函数与所述预测器模型的预测结果相乘计算出期望奖励,响应于确定所述期望奖励未达到预设的奖励值条件,迭代更新所述预测器模型的参数。
5.根据权利要求4所述的方法,其中,所述奖励函数的输入为第一样本评论信息且所述判别器模型将所述第一样本评论信息的有用性标签判别为真实标签时,所述奖励函数的值为1;
所述奖励函数的输入为第一样本评论信息且所述判别器模型将所述第一样本评论信息的有用性标签判别为虚假标签时,所述奖励函数的值为0。
6.根据权利要求1所述的方法,其中,所述第一样本评论信息还具有有用性指数标签,所述有用性指数标签用于表征有用性的程度,所述预测器模型还用于预测评论信息的有用性指数标签;
所述训练操作还包括:
采用预测器模型对第二样本评论信息的有用性指数标签进行预测;
确定所述预测器模型对有用性指数标签的预测误差;以及
所述基于所述期望奖励的误差迭代更新所述预测器模型的参数,包括:
基于所述期望奖励的误差和所述预测器模型对有用性指数标签的预测误差交替迭代更新所述预测器模型的参数。
7.根据权利要求1所述的方法,其中,所述方法还包括:
获取所述训练样本对应的评论对象信息;以及
所述预测器模型包括信息预处理网络和分类网络;
所述信息预处理网络用于将所述训练样本和对应的评论对象信息转换为数学表示,所述分类网络基于所述数学表示预测所述训练样本的有用性标签。
8.根据权利要求7所述的方法,其中,所述信息预处理网络包括第一双向长短期记忆网络和第二双向长短期记忆网络;
所述第一双向长短期记忆网络将所述训练样本转换为第一向量表示,所述第二双向长短期记忆网络将所述训练样本对应的评论对象信息转换为第二向量表示;
所述信息预处理网络基于注意力机制将所述训练样本的第一向量表示和对应的评论对象信息的第二向量表示整合为与所述训练样本对应的数学表示。
9.一种用于确定评论信息的有用性的方法,包括:
获取评论信息集合;
将所述评论信息集合中的评论信息输入采用如权利要求1-8任一项所述的方法生成的信息评估模型,得到所述评论信息的有用性标签。
10.根据权利要求9所述的方法,其中,所述方法还包括:
基于所述评论信息的有用性标签,呈现所述评论信息集合中的评论信息。
11.一种用于生成信息评估模型的装置,包括:
第一获取单元,被配置为获取训练样本,所述训练样本包括具有有用性标签的第一样本评论信息和不具有有用性标签的第二样本评论信息;
预处理单元,被配置为获取基于生成式对抗网络中的生成网络和判别网络分别构建的预测器模型和判别器模型,利用所述第...
【专利技术属性】
技术研发人员:范淼,叶森,冯超,孙明明,李平,王海峰,
申请(专利权)人:百度在线网络技术北京有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。