本申请提出一种评论数据处理方法、装置、计算机设备和存储介质。根据待处理的目标评论数据中包含的标点符号的类型,将目标评论数据进行切分处理,确定目标评论数据中包括的子句集;若子句集中的第一子句包括N个中心词,则依据预设的规则,将第一子句进行切分处理,确定第一子句中包括的各短句;根据各短句及子句集中各第二子句,分别与预设的搭配词典的匹配关系,确定每个第二子句及每个短句分别包括的各词组;根据每个词组与预设的极性与词组的映射关系的匹配度,确定每个词组的情感极性;根据每个词组的情感极性,确定目标评论数据的情感极性。根据各子句及短句中的中心词和搭配词组对应的极性,确定评论数据的极性,简单、成本低,实用性高。
Review data processing methods, devices, computer equipment and storage media
【技术实现步骤摘要】
评论数据处理方法、装置、计算机设备和存储介质
本申请涉及计算机
,尤其涉及一种评论数据处理方法、装置、计算机设备和存储介质。
技术介绍
口碑指引着产品的营销方向,评价数据是用户对产品的使用反馈,可以从大量评价数据中挖掘口碑信息。目前,常用的评论数据分析方法是,采集大量评论数据,然后进行人工标注,之后利用标注好的数据训练神经网络模型,以用于对评论数据进行分析。但是上述评论数据分析方法,模型的效果依赖于人工标注数据的数量和质量,由于评论数据标注过程需要大量的人力和物力,从而使得该分析方法的成本太高,实用性较差。
技术实现思路
本申请提出一种评论数据处理方法、装置、计算机设备和存储介质方法,用于解决相关技术中,评论数据标注过程需要大量的人力和物力,从而使得利用模型分析方法的成本太高,实用性较差的问题。本申请一方面实施例提出了一种评论数据处理方法,包括:根据待处理的目标评论数据中包含的标点符号的类型,将所述目标评论数据进行切分处理,确定所述目标评论数据中包括的子句集;若所述子句集中的第一子句包括N个中心词,则依据预设的规则,将所述第一子句进行切分处理,确定所述第一子句中包括的各短句,其中,N为大于1的整数;根据所述各短句及所述子句集中各第二子句,分别与预设的搭配词典的匹配关系,确定每个第二子句及每个短句分别包括的各词组,每个词组中包括一个中心词及一个搭配词,其中,第二子句中仅包含一个中心词;根据每个词组与预设的极性与词组的映射关系的匹配度,确定每个词组的情感极性;根据每个词组的情感极性,确定所述目标评论数据的情感极性。本申请实施例的评论数据处理方法,通过首先根据待处理的目标评论数据中包含的标点符号的类型,将目标评论数据进行切分处理,确定目标评论数据中包括的子句集,若子句集中的第一子句包括N个中心词,则依据预设的规则,将第一子句进行切分处理,确定第一子句中包括的各短句,并根据各短句及子句集中各第二子句,分别与预设的搭配词典的匹配关系,确定每个第二子句及每个短句分别包括的各词组,每个词组中包括一个中心词及一个搭配词,之后根据每个词组与预设的极性与词组的映射关系的匹配度,确定每个词组的情感极性,再根据每个词组的情感极性,确定目标评论数据的情感极性。该方法通过将待处理的评论数据切分为仅包含一个中心词的子句及短句,进而根据各子句及短句中包含的中心词和搭配词组对应的情感极性,即可确定评论数据的情感极性,方法简单、成本低,实用性高。本申请另一方面实施例提出了一种评论数据处理装置,包括:第一确定模块,用于根据待处理的目标评论数据中包含的标点符号的类型,将所述目标评论数据进行切分处理,确定所述目标评论数据中包括的子句集;第二确定模块,用于当所述子句集中的第一子句包括N个中心词时,依据预设的规则,将所述第一子句进行切分处理,确定所述第一子句中包括的各短句,其中,N为大于1的整数;第三确定模块,用于根据所述各短句及所述子句集中各第二子句,分别与预设的搭配词典的匹配关系,确定每个第二子句及每个短句分别包括的各词组,每个词组中包括一个中心词及一个搭配词,其中,第二子句中仅包含一个中心词;第四确定模块,用于根据每个词组与预设的极性与词组的映射关系的匹配度,确定每个词组的情感极性;第五确定模块,用于根据每个词组的情感极性,确定所述目标评论数据的情感极性。本申请实施例的评论数据处理装置,通过根据待处理的目标评论数据中包含的标点符号的类型,将目标评论数据进行切分处理,确定目标评论数据中包括的子句集,若子句集中的第一子句包括N个中心词,则依据预设的规则,将第一子句进行切分处理,确定第一子句中包括的各短句,并根据各短句及子句集中各第二子句,分别与预设的搭配词典的匹配关系,确定每个第二子句及每个短句分别包括的各词组,每个词组中包括一个中心词及一个搭配词,根据每个词组与预设的极性与词组的映射关系的匹配度,确定每个词组的情感极性,根据每个词组的情感极性,确定目标评论数据的情感极性。该方法通过将待处理的评论数据切分为仅包含一个中心词的子句及短句,进而根据各子句及短句中包含的中心词和搭配词组对应的情感极性,即可确定评论数据的情感极性,方法简单、成本低,实用性高。本申请另一方面实施例提出了一种计算机设备,包括处理器和存储器;其中,所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序,以用于实现如上述一方面实施例所述的评论数据处理方法。本申请另一方面实施例提出了一种非临时性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述一方面实施例所述的评论数据处理方法。本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。附图说明本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:图1为本申请实施例提供的一种评论数据处理方法的流程示意图;图2为本申请实施例提供的另一种评论数据处理方法的流程示意图;图3为本申请实施例提供的另一种评论数据处理方法的流程示意图;图4为本申请实施例提供的另一种评论数据处理方法的流程示意图;图5为本申请实施例提供的一种评论数据处理装置的结构示意图。具体实施方式下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。下面参考附图描述本申请实施例的评论数据处理方法、装置、计算机设备和存储介质。本申请实施例,针对解决相关技术中,评论数据标注过程需要大量的人力和物力,从而使得利用模型分析方法的成本太高,实用性较差的问题,提出一种评论数据处理方法。本申请实施例的评论数据处理方法,通过将待处理的评论数据切分为仅包含一个中心词的子句及短句,进而根据各子句及短句中包含的中心词和搭配词组对应的情感极性,即可确定评论数据的情感极性,方法简单、成本低,实用性高。另外,传统的针对大数据量的运算主要采用的是基于分布式的MapReduce运算。但是,这种运算方式会将运算结果写回到磁盘中供下次计算使用,如果运算涉及大量循环数据处理操作,整个计算过程会不断重复地往磁盘里读写中间结果,数据处理速度慢。对此,本申请实施例的评论数据处理方法,可由虚拟机进程中的任务执行,虚拟机进程可包括多个任务,每个任务是对一条评论数据进行处理,确定评论数据的情感极性,由此通过虚拟机进程中的多个任务对多条评论数据进行并行处理,确定每条评论数据的情感极性,可以提高数据的处理速度。图1为本申请实施例提供的一种评论数据处理方法的流程示意图。如图1所示,该评论数据处理方法包括:步骤101,根据待处理的目标评论数据中包含的标点符号本文档来自技高网...
【技术保护点】
1.一种评论数据处理方法,其特征在于,包括:/n根据待处理的目标评论数据中包含的标点符号的类型,将所述目标评论数据进行切分处理,确定所述目标评论数据中包括的子句集;/n若所述子句集中的第一子句包括N个中心词,则依据预设的规则,将所述第一子句进行切分处理,确定所述第一子句中包括的各短句,其中,N为大于1的整数;/n根据所述各短句及所述子句集中各第二子句,分别与预设的搭配词典的匹配关系,确定每个第二子句及每个短句分别包括的各词组,每个词组中包括一个中心词及一个搭配词,其中,第二子句中仅包含一个中心词;/n根据每个词组与预设的极性与词组的映射关系的匹配度,确定每个词组的情感极性;/n根据每个词组的情感极性,确定所述目标评论数据的情感极性。/n
【技术特征摘要】
1.一种评论数据处理方法,其特征在于,包括:
根据待处理的目标评论数据中包含的标点符号的类型,将所述目标评论数据进行切分处理,确定所述目标评论数据中包括的子句集;
若所述子句集中的第一子句包括N个中心词,则依据预设的规则,将所述第一子句进行切分处理,确定所述第一子句中包括的各短句,其中,N为大于1的整数;
根据所述各短句及所述子句集中各第二子句,分别与预设的搭配词典的匹配关系,确定每个第二子句及每个短句分别包括的各词组,每个词组中包括一个中心词及一个搭配词,其中,第二子句中仅包含一个中心词;
根据每个词组与预设的极性与词组的映射关系的匹配度,确定每个词组的情感极性;
根据每个词组的情感极性,确定所述目标评论数据的情感极性。
2.如权利要求1所述的方法,其特征在于,所述依据预设的规则,将所述第一子句进行切分处理,包括:
若所述第一子句中包括连词,则根据所述第一子句中N个中心词分别与连词的位置关系及内容与连词的位置关系,将所述第一子句进行切分处理;
若所述第一子句中未包括连词,则根据所述第一子句中N个中心词间的位置关系及每个中心词与内容间的位置关系,将所述第一子句进行切分处理。
3.如权利要求1所述的方法,其特征在于,所述依据预设的规则,将所述第一子句进行切分处理,包括:
利用预设的模型,对所述第一子句进行编码、解码处理,确定所述第一子句中每个词对应的序列标签;
根据每个词对应的序列标签,确定所述第一子句中包括的各短句。
4.如权利要求1所述的方法,其特征在于,所述依据预设的规则,将所述第一子句进行切分处理之前,还包括:
根据所述子句集中每个子句中各分词分别与预设的中心词树中各中心词的匹配度,确定每个子句中包括的中心词数量。
5.如权利要求1所述的方法,其特征在于,所述确定每个第二子句及每个短句分别包括的各词组,包括:
根据每个第二子句中的各分词分别与预设的搭配词典的匹配关系,确定每个第二子句包含的搭配词集;
若所述搭配词集中的第一搭配词...
【专利技术属性】
技术研发人员:刘启明,赵立永,吴新丽,韩勇,代继涛,李丹,
申请(专利权)人:新华网股份有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。