评论信息处理方法、装置、计算机设备和介质制造方法及图纸

技术编号:24251976 阅读:54 留言:0更新日期:2020-05-22 23:48
本申请公开了一种评论信息处理方法、装置、计算机设备和介质,涉及计算机技术领域的自然语言处理技术领域。具体实现方案为:通过响应于用户操作,对评论观点词典中每一个观点词组,确定对应的观点类别,从多个评论语料中,获取每一个观点词组所匹配的目标语料,对每一个观点词组,采用对应的观点类别标注相应观点词组所匹配的目标语料,得到第一训练样本,采用第一训练样本训练分类模型,以采用经过训练的分类模型识别评论的观点类别。该方法仅需要标注观点词组对应的观点类别即可生成训练样本,解决了相关技术中对于不同应用场景的评论需要用户标注所有训练样本,浪费大量人力成本的技术问题,从而减少了工作量,节约了人力成本。

Comment on information processing methods, devices, computer equipment and media

【技术实现步骤摘要】
评论信息处理方法、装置、计算机设备和介质
本申请涉及计算机
的自然语言处理
,尤其涉及一种评论信息处理方法、装置、计算机设备和介质。
技术介绍
随着电商的快速发展,越来越多的用户通过电商平台购买商品,在用户购物时,通常会参考其他已购买商品的用户发表的评论信息,以根据评论信息确定商品的质量。商品的评论信息对于辅助用户进行消费决策和帮助商家提升服务质量具有重要的意义。然而,随着数据量的爆炸性增长,用户需要从海量评论数据中获取到有用的信息。相关技术中,对评论数据进行处理可以包括评论观点抽取、观点级情感分类和观点分类等子任务。针对观点抽取任务,采用基于有监督序列标注的方法从评论信息中抽取评论观点,需要用户标注评论观点在原始评论句中出现的位置,依次训练有监督的序列标注模型。针对观点分类任务,需要每个用户标注自定义的观点分类体系,导致观点分类数据无法在不同用户之间共享。因此,对于不同应用场景的数据标注,需要浪费大量的人力成本去标注数据,严重影响用户体验。
技术实现思路
本申请提出一种评论信息处理方法、装置、计算机设备和介质,通过仅标注观点词组对应的类别即可生成训练样本,从而减少了工作量,在一定程度上节约了人力成本。本申请第一方面实施例提出了一种评论信息处理方法,包括:响应于用户操作,对评论观点词典中每一个观点词组,确定对应的观点类别;从多个评论语料中,获取每一个观点词组所匹配的目标语料;对每一个观点词组,采用对应的观点类别标注相应观点词组所匹配的目标语料,得到第一训练样本;采用所述第一训练样本训练分类模型,以采用经过训练的分类模型识别评论的观点类别。作为本申请实施例的第一种可能的实现方式,每一个观点词组包括实体词和描述词;所述从多个评论语料中,获取每一个观点词组所匹配的目标语料,包括:对每一个观点词组,从所述多个评论语料中,筛选包含相应观点词组中实体词和描述词的候选语料;若所述候选语料中的实体词和描述词出现于同一短句中,且间隔单词个数不大于阈值,则将所述候选语料作为与相应观点词组匹配的目标语料。作为本申请实施例的第二种可能的实现方式,所述从多个评论语料中,获取每一个观点词组所匹配的目标语料之后,还包括:对每一个目标语料,采用所匹配的观点词组进行标注,得到第二训练样本;将多个评论语料中与任一个观点词组均不匹配的评论语料作为隐式语料,采用人工标注信息对所述隐式语料标注观点词组,得到第三训练样本;采用所述第二训练样本和所述第三训练样本,训练编码-解码模型,以采用经过训练的编码-解码模型抽取评论的观点词组。作为本申请实施例的第三种可能的实现方式,所述编码-解码模型包括:编码器和解码器;其中,所述编码器,用于对输入的评论进行语义编码,得到相应评论的隐状态向量;所述解码器,用于对所述隐状态向量解码,输出所述观点词组,其中,所述解码器已学习得到隐状态向量与观点词组之间的映射关系。作为本申请实施例的第四种可能的实现方式,所述采用所述第二训练样本和所述第三训练样本,训练编码-解码模型之后,还包括:对需抽取观点词组的评论,确定所述评论观点词典中是否存在匹配的观点词组;若存在,将匹配的观点词组作为所述评论的观点词组;若不存在,将所述评论输入经过训练的编码-解码模型,以将所述经过训练的编码-解码模型输出的观点词组作为所述评论的观点词组。作为本申请实施例的第五种可能的实现方式,所述评论观点词典中每一个观点词组具有固定搭配的情感词;所述将匹配的观点词组作为所述评论的观点词组之后,还包括:根据匹配的观点词组固定搭配的情感词,确定所述评论的情感倾向。作为本申请实施例的第六种可能的实现方式,所述响应于用户操作,对评论观点词典中每一个观点词组,确定对应的观点类别之前,还包括:依据预设的抽取规则,对所述多个评论语料进行词组抽取,得到多个候选词组;根据各候选词组在所述多个评论语料中的出现频率,从所述多个候选词组中筛选得到所述多个评论观点词组。本申请第二方面实施例提出了一种评论信息处理装置,包括:响应模块,用于响应于用户操作,对评论观点词典中每一个观点词组,确定对应的观点类别;获取模块,用于从多个评论语料中,获取每一个观点词组所匹配的目标语料;标注模块,用于对每一个观点词组,采用对应的观点类别标注相应观点词组所匹配的目标语料,得到第一训练样本;训练模块,用于采用所述第一训练样本训练分类模型,以采用经过训练的分类模型识别评论的观点类别。本申请第三方面实施例提出了一种计算机设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行第一方面实施例中所述的评论信息处理方法。本申请第四方面实施例提出了一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使所述计算机执行第一方面实施例中所述的评论信息处理方法。上述申请中的一个实施例具有如下优点或有益效果:通过响应于用户操作,对评论观点词典中每一个观点词组,确定对应的观点类别,从多个评论语料中,获取每一个观点词组所匹配的目标语料,对每一个观点词组,采用对应的观点类别标注相应观点词组所匹配的目标语料,得到第一训练样本,采用第一训练样本训练分类模型,以采用经过训练的分类模型识别评论的观点类别。该方法仅需要标注观点词组对应的观点类别即可生成训练样本,解决了相关技术中对于不同应用场景的评论需要用户标注所有训练样本,浪费大量人力成本的技术问题,从而减少了工作量,节约了人力成本。上述可选方式所具有的其他效果将在下文中结合具体实施例加以说明。附图说明附图用于更好地理解本方案,不构成对本申请的限定。其中:图1为本申请实施例提供的一种评论信息处理方法的流程示意图;图2为本申请实施例提供的另一种评论信息处理方法的流程示意图;图3为本申请实施例提供的又一种评论信息处理方法的流程示意图图4为本申请实施例提供的一种评论信息处理装置的结构示意图;图5是用来实现本申请实施例的评论信息处理方法的计算机设备的框图。具体实施方式以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。评论分析的核心应用场景为电商评论分析,然而在电商场景下的评论分析往往面临着多种技术难点:首先,在评论观点抽取子任务中,往往存在维度和评论表达多样性的问题。其次,存在可训练数据少、样本标注成本高的问题。本文档来自技高网...

【技术保护点】
1.一种评论信息处理方法,其特征在于,所述方法包括:/n响应于用户操作,对评论观点词典中每一个观点词组,确定对应的观点类别;/n从多个评论语料中,获取每一个观点词组所匹配的目标语料;/n对每一个观点词组,采用对应的观点类别标注相应观点词组所匹配的目标语料,得到第一训练样本;/n采用所述第一训练样本训练分类模型,以采用经过训练的分类模型识别评论的观点类别。/n

【技术特征摘要】
1.一种评论信息处理方法,其特征在于,所述方法包括:
响应于用户操作,对评论观点词典中每一个观点词组,确定对应的观点类别;
从多个评论语料中,获取每一个观点词组所匹配的目标语料;
对每一个观点词组,采用对应的观点类别标注相应观点词组所匹配的目标语料,得到第一训练样本;
采用所述第一训练样本训练分类模型,以采用经过训练的分类模型识别评论的观点类别。


2.根据权利要求1所述的评论信息处理方法,其特征在于,每一个观点词组包括实体词和描述词;所述从多个评论语料中,获取每一个观点词组所匹配的目标语料,包括:
对每一个观点词组,从所述多个评论语料中,筛选包含相应观点词组中实体词和描述词的候选语料;
若所述候选语料中的实体词和描述词出现于同一短句中,且间隔单词个数不大于阈值,则将所述候选语料作为与相应观点词组匹配的目标语料。


3.根据权利要求1所述的评论信息处理方法,其特征在于,所述从多个评论语料中,获取每一个观点词组所匹配的目标语料之后,还包括:
对每一个目标语料,采用所匹配的观点词组进行标注,得到第二训练样本;
将多个评论语料中与任一个观点词组均不匹配的评论语料作为隐式语料,采用人工标注信息对所述隐式语料标注观点词组,得到第三训练样本;
采用所述第二训练样本和所述第三训练样本,训练编码-解码模型,以采用经过训练的编码-解码模型抽取评论的观点词组。


4.根据权利要求3所述的评论信息处理方法,其特征在于,所述编码-解码模型包括:编码器和解码器;
其中,所述编码器,用于对输入的评论进行语义编码,得到相应评论的隐状态向量;
所述解码器,用于对所述隐状态向量解码,输出所述观点词组,其中,所述解码器已学习得到隐状态向量与观点词组之间的映射关系。


5.根据权利要求3所述的评论信息处理方法,其特征在于,所述采用所述第二训练样本和所述第三训练样本,训练编码-解码模型之后,还包括:
对需抽取观点词组的评论,确定所述评论观点词典中是否存在匹配的观点词组;
若存在,将匹配的观点词组作为所述评论的观点词组;
若不存在,将所述评论输入经过训练的编码-解码模型,以将所述经过训练的编码-解码模型输出的观点词组作为所述评论的观点词组。


6.根据权利要求5所述的评论信息处理方法,其特征在于,所述评论观点词典中每一个观点词组具有固定搭配的情感词;
所述将匹配的观点词组作为所述评论的观点词组之后,还包括:
根据匹配的观点词组固定搭配的情感词,确定所述评论的情感倾向。


7.根据权利要求1-6任一项所述的评论信息处理方法,其特征在于,所述响应于用户操作,对评论观点词典中每一个观点词组,确定对应的观点类别之前,还包括:
依据预设的抽取规则,对所述多个评论语料进行词组抽取,得到多个候选词组;
根据各候选词组在所述多个评论语料中的出现频率,从所述多个候选词组中筛选得到多个评论观点词组。


8.一种评论信息处理装置,其特征在于,所述装置包括:
响应模块,用于响应于用户操作,对评论观点词典中每一个观点词组,确定对应的观点类别;
获取模块,用于从多个评论...

【专利技术属性】
技术研发人员:刘昊何伯磊肖欣延
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1