观点标签的确定方法和装置制造方法及图纸

技术编号:20160718 阅读:23 留言:0更新日期:2019-01-19 00:13
本发明专利技术提供一种观点标签的确定方法和装置。该方法包括:根据待处理的评论数据,确定待处理的关键词;根据所述待处理的关键词和word2vec模型,确定所述待处理的关键词对应的词向量;根据所述待处理的关键词对应的词向量和预先建立的标签词典,确定所述待处理的评论数据对应的观点标签。上述方法可批量地为评论数据打标签,和现有技术中通过人工方式逐条打标签的方法相比,大大地提高了打标签的效率。

【技术实现步骤摘要】
观点标签的确定方法和装置
本专利技术涉及信息处理
,尤其涉及一种观点标签的确定方法和装置。
技术介绍
通常,消费者在对某件商品做出是否购买的决策时,会参考已经购买,及已经有使用体验的购买者对该商品的评论。然而,购买者对商品的评论数据相当庞大,动辄就上千甚至上万,如何为该成千上万的评论打上观点标签是目前各商家面临的主要问题。现有技术是通过人工的方式来分析提取评论数据中的评价观点,并根据提取到的观点为评论数据打标签。然而,通过人工的方式逐条打标签的方法人工成本高,且效率低下。
技术实现思路
本专利技术提供一种观点标签的确定方法和装置,用以提高为评论数据打标签的效率。第一方面,本专利技术提供一种观点标签的确定方法,包括:根据待处理的评论数据,确定待处理的关键词;根据所述待处理的关键词和word2vec模型,确定所述待处理的关键词对应的词向量;根据所述待处理的关键词对应的词向量和预先建立的标签词典,确定所述待处理的评论数据对应的观点标签。可选的,所述根据待处理的评论数据,确定待处理的关键词,包括:对所述待处理的评论数据进行分词处理,得到候选关键词;根据所述候选关键词,确定所述待处理的关键词。可选的,所述根据所述词向量和预先建立的标签词典,确定所述待处理的评论数据对应的观点标签之前,还包括:获取所述预先建立的标签词典。可选的,所述获取所述预先建立的标签词典,包括:获取预设数量的种子词,所述种子词用于指示为建立所述预先建立的标签词典通过人工方式提供的词语;根据所述种子词和所述word2vec模型,确定每个种子词对应的词向量;根据每个种子词对应的词向量,确定每个种子词的近义词;根据每个种子词的近义词,建立所述预先建立的标签词典。可选的,所述根据所述种子词和所述word2vec模型,确定每个种子词对应的词向量,包括:对每个种子词进行独热编码,得到每个种子词的独热编码信息;获取训练每个种子词的维度信息;根据所述独热编码信息和所述维度信息,采用word2vec模型确定每个种子词对应的词向量。可选的,所述根据所述每个种子词对应的词向量,确定每个种子词的近义词,包括:根据余弦距离公式,计算所述预设数量的种子词中目标种子词对应的词向量和其余种子词对应的词向量之间的距离;根据所述距离,确定所述目标种子词的近义词。可选的,所述根据所述待处理的关键词对应的词向量和预先建立的标签词典,确定所述待处理的评论数据的观点标签,包括:将所述待处理的关键词对应的词向量和所述预先建立的标签词典包含的词语对应的词向量进行匹配,得到匹配结果;根据所述匹配结果,确定所述待处理的评论数据的观点标签。第二方面,本专利技术提供一种观点标签的确定装置,包括:第一确定模块,用于根据待处理的评论数据,确定待处理的关键词;第二确定模块,用于根据所述待处理的关键词和word2vec模型,确定所述待处理的关键词对应的词向量;第三确定模块,用于根据所述待处理的关键词对应的词向量和预先建立的标签词典,确定所述待处理的评论数据对应的观点标签。可选的,所述第一确定模块,包括:处理模块,用于对所述待处理的评论数据进行分词处理,得到候选关键词;第一确定单元,用于根据所述候选关键词,确定所述待处理的关键词。可选的,所述观点标签的确定装置,还包括:获取模块,用于获取所述预先建立的标签词典。可选的,所述获取模块包括:获取单元,用于获取预设数量的种子词,所述种子词用于指示为建立所述预先建立的标签词典通过人工方式提供的词语;第二确定单元,用于根据所述种子词和所述word2vec模型,确定每个种子词对应的词向量;第三确定单元,根据每个种子词对应的词向量,确定每个种子词的近义词;建立模块,用于根据每个种子词的近义词,建立所述预先建立的标签词典。可选的,所述第二确定单元,具体用于对每个种子词进行独热编码,得到每个种子词的独热编码信息;获取训练每个种子词的维度信息;根据所述独热编码信息和所述维度信息,采用word2vec模型确定每个种子词对应的词向量。可选的,所述第三确定单元,具体用于根据余弦距离公式,计算所述预设数量的种子词中目标种子词对应的词向量和其余种子词对应的词向量之间的距离;根据所述距离,确定所述目标种子词的近义词。可选的,所述第三确定模块,具体用于将所述待处理的关键词对应的词向量和所述预先建立的标签词典包含的词语对应的词向量进行匹配,得到匹配结果;根据所述匹配结果,确定所述待处理的评论数据的观点标签。第三方面,本专利技术提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述观点标签的确定方法。第四方面,本专利技术提供一种服务器,包括:处理器;以及存储器,用于存储所述处理器的可执行指令;其中,所述处理器配置为经由执行所述可执行指令来实现上述观点标签的确定方法。本实施例提供的观点标签的确定方法和装置,首先根据待处理的评论数据,确定待处理的关键词;然后通过word2vec模型,确定所述待处理的关键词对应的词向量;最后根据该词向量和预先建立的标签词典,确定所述待处理的评论数据对应的观点标签;上述方法可批量地为成千上万的评论数据打标签,和现有技术中通过人工方式逐条打标签的方法相比,大大地提高了打标签的效率。附图说明图1为本专利技术提供的观点标签的确定方法的实施例一的流程示意图;图2为本专利技术提供的观点标签的确定方法的实施例二的流程示意图;图3为本专利技术提供的观点标签的确定方法的实施例二的另一流程示意图;图4为本专利技术提供的观点标签的确定装置的实施例一的结构示意图;图5为本专利技术提供的观点标签的确定装置的实施例二的结构示意图;图6为本专利技术提供的服务器的硬件结构示意图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。为商品打标签可以让消费者快速了解所要购买的商品,进而帮助消费者做出购买决策,现有技术中,是通过人工的方式来分析提取评论数据中的评论观点,并根据提取到的观点为评论数据打标签。然而,通过人工的方式逐条打标签的方法无疑会带来人工成本高,且效率低下的问题。本专利技术提供一种观点标签的确定方法和装置。预先建立一个标签词典。在有待处理的评论数据时,先根据待处理的评论数据确定待处理的关键词,然后将该待处理的关键词输入word2vec模型,得到待处理的关键词对应的词向量,最后将该词向量和上述标签词典中包含的词语的词向量进行匹配,将匹配成功时对应的标签词典中的词语作为该待处理的评论数据的观点标签。采用本专利技术的上述方法可对商品的所有评论数据批量打上观点标签,和现有技术中通过人工方式逐条打标签的方法相比,提高了效率。下面以具体地实施例对本专利技术的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本专利技术的实施例进行描述。图1为本专利技术提供的观点标签的确定方法的实施例一的流程示意图。如图1所示,本实施例提供的观点标签的确定方法,包本文档来自技高网...

【技术保护点】
1.一种观点标签的确定方法,其特征在于,包括:根据待处理的评论数据,确定待处理的关键词;根据所述待处理的关键词和word2vec模型,确定所述待处理的关键词对应的词向量;根据所述待处理的关键词对应的词向量和预先建立的标签词典,确定所述待处理的评论数据对应的观点标签。

【技术特征摘要】
1.一种观点标签的确定方法,其特征在于,包括:根据待处理的评论数据,确定待处理的关键词;根据所述待处理的关键词和word2vec模型,确定所述待处理的关键词对应的词向量;根据所述待处理的关键词对应的词向量和预先建立的标签词典,确定所述待处理的评论数据对应的观点标签。2.根据权利要求1所述的方法,其特征在于,所述根据待处理的评论数据,确定待处理的关键词,包括:对所述待处理的评论数据进行分词处理,得到候选关键词;根据所述候选关键词,确定所述待处理的关键词。3.根据权利要求1所述的方法,其特征在于,所述根据所述词向量和预先建立的标签词典,确定所述待处理的评论数据对应的观点标签之前,还包括:获取所述预先建立的标签词典。4.根据权利要求3所述的方法,其特征在于,所述获取所述预先建立的标签词典,包括:获取预设数量的种子词,所述种子词用于指示为建立所述预先建立的标签词典通过人工方式提供的词语;根据所述种子词和所述word2vec模型,确定每个种子词对应的词向量;根据每个种子词对应的词向量,确定每个种子词的近义词;根据每个种子词的近义词,建立所述预先建立的标签词典。5.根据权利要求4所述的方法,其特征在于,所述根据所述种子词和所述word2vec模型,确定每个种子词对应的词向量,包括:对每个种子词进行独热编码,得到每个种子词的独热编码信息;获取训练每个种子词的维度信息;根据所述独热编码信息和所述维度信息,采用wor...

【专利技术属性】
技术研发人员:赵慧魏进武刘颖慧
申请(专利权)人:中国联合网络通信集团有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1