【技术实现步骤摘要】
评论信息处理方法、装置、计算机设备和介质
本申请涉及计算机
的自然语言处理
,尤其涉及一种评论信息处理方法、装置、计算机设备和介质。
技术介绍
随着电商的快速发展,越来越多的用户通过电商平台购买商品,在用户购物时,通常会参考其他已购买商品的用户发表的评论信息,以根据评论信息确定商品的质量。商品的评论信息对于辅助用户进行消费决策和帮助商家提升服务质量具有重要的意义。然而,随着数据量的爆炸性增长,用户需要从海量评论数据中获取到有用的信息。相关技术中,对评论数据进行处理可以包括评论观点抽取、观点级情感分类和观点分类等子任务。针对观点抽取任务,采用基于有监督序列标注的方法从评论信息中抽取评论观点,需要用户标注评论观点在原始评论句中出现的位置,依次训练有监督的序列标注模型。针对观点分类任务,需要每个用户标注自定义的观点分类体系,导致观点分类数据无法在不同用户之间共享。因此,对于不同应用场景的数据标注,需要浪费大量的人力成本去标注数据,严重影响用户体验。
技术实现思路
本申请提出一种评论信息处理方法、装置、计算机设备和介质,通过仅标注观点词组对应的类别即可生成训练样本,从而减少了工作量,在一定程度上节约了人力成本。本申请第一方面实施例提出了一种评论信息处理方法,包括:响应于用户操作,对评论观点词典中每一个观点词组,确定对应的观点类别;从多个评论语料中,获取每一个观点词组所匹配的目标语料;对每一个观点词组,采用对应的观点类别标注相应观点词组所匹配的目标 ...
【技术保护点】
1.一种评论信息处理方法,其特征在于,所述方法包括:/n响应于用户操作,对评论观点词典中每一个观点词组,确定对应的观点类别;/n从多个评论语料中,获取每一个观点词组所匹配的目标语料;/n对每一个观点词组,采用对应的观点类别标注相应观点词组所匹配的目标语料,得到第一训练样本;/n采用所述第一训练样本训练分类模型,以采用经过训练的分类模型识别评论的观点类别。/n
【技术特征摘要】
1.一种评论信息处理方法,其特征在于,所述方法包括:
响应于用户操作,对评论观点词典中每一个观点词组,确定对应的观点类别;
从多个评论语料中,获取每一个观点词组所匹配的目标语料;
对每一个观点词组,采用对应的观点类别标注相应观点词组所匹配的目标语料,得到第一训练样本;
采用所述第一训练样本训练分类模型,以采用经过训练的分类模型识别评论的观点类别。
2.根据权利要求1所述的评论信息处理方法,其特征在于,每一个观点词组包括实体词和描述词;所述从多个评论语料中,获取每一个观点词组所匹配的目标语料,包括:
对每一个观点词组,从所述多个评论语料中,筛选包含相应观点词组中实体词和描述词的候选语料;
若所述候选语料中的实体词和描述词出现于同一短句中,且间隔单词个数不大于阈值,则将所述候选语料作为与相应观点词组匹配的目标语料。
3.根据权利要求1所述的评论信息处理方法,其特征在于,所述从多个评论语料中,获取每一个观点词组所匹配的目标语料之后,还包括:
对每一个目标语料,采用所匹配的观点词组进行标注,得到第二训练样本;
将多个评论语料中与任一个观点词组均不匹配的评论语料作为隐式语料,采用人工标注信息对所述隐式语料标注观点词组,得到第三训练样本;
采用所述第二训练样本和所述第三训练样本,训练编码-解码模型,以采用经过训练的编码-解码模型抽取评论的观点词组。
4.根据权利要求3所述的评论信息处理方法,其特征在于,所述编码-解码模型包括:编码器和解码器;
其中,所述编码器,用于对输入的评论进行语义编码,得到相应评论的隐状态向量;
所述解码器,用于对所述隐状态向量解码,输出所述观点词组,其中,所述解码器已学习得到隐状态向量与观点词组之间的映射关系。
5.根据权利要求3所述的评论信息处理方法,其特征在于,所述采用所述第二训练样本和所述第三训练样本,训练编码-解码模型之后,还包括:
对需抽取观点词组的评论,确定所述评论观点词典中是否存在匹配的观点词组;
若存在,将匹配的观点词组作为所述评论的观点词组;
若不存在,将所述评论输入经过训练的编码-解码模型,以将所述经过训练的编码-解码模型输出的观点词组作为所述评论的观点词组。
6.根据权利要求5所述的评论信息处理方法,其特征在于,所述评论观点词典中每一个观点词组具有固定搭配的情感词;
所述将匹配的观点词组作为所述评论的观点词组之后,还包括:
根据匹配的观点词组固定搭配的情感词,确定所述评论的情感倾向。
7.根据权利要求1-6任一项所述的评论信息处理方法,其特征在于,所述响应于用户操作,对评论观点词典中每一个观点词组,确定对应的观点类别之前,还包括:
依据预设的抽取规则,对所述多个评论语料进行词组抽取,得到多个候选词组;
根据各候选词组在所述多个评论语料中的出现频率,从所述多个候选词组中筛选得到多个评论观点词组。
8.一种评论信息处理装置,其特征在于,所述装置包括:
响应模块,用于响应于用户操作,对评论观点词典中每一个观点词组,确定对应的观点类别;
获取模块,用于从多个评论...
【专利技术属性】
技术研发人员:刘昊,何伯磊,肖欣延,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。