标签短语处理和相似度计算方法及装置,电子和存储设备制造方法及图纸

技术编号:20075320 阅读:17 留言:0更新日期:2019-01-15 00:42
本申请公开一种评论数据中标签短语归一化的处理方法及装置,以及标签短语相似度的计算方法及装置,电子设备和存储设备,所述处理方法包括:根据评论数据,确定候选标签短语;从所述候选标签短语中确定高频标签短语和非高频标签短语;其中,所述高频标签短语为在所述候选标签短语中出现频率满足频率条件的标签短语;根据所述高频标签短语与所述非高频标签短语之间的相似度,将与所述高频标签短语满足相似度条件的所述非高频标签短语归一化到所述高频标签短语;将所述高频标签短语作为所述评论数据的代表标签短语;从而提高标签短语归一化处理的准确性。

Label phrase processing and similarity calculation methods and devices, electronic and storage devices

This application discloses a processing method and device for normalizing tag phrases in comment data, as well as a calculation method and device for tag phrase similarity, an electronic device and a storage device. The processing method includes: determining candidate tag phrases based on comment data; determining high frequency tag phrases and non-high frequency tag phrases from the candidate tag phrases; and among them, the high frequency tag phrases. The tag phrase is a tag phrase whose frequency satisfies the frequency condition in the candidate tag phrase; according to the similarity between the high frequency tag phrase and the non-high frequency tag phrase, the non-high frequency tag phrase satisfying the similarity condition is normalized to the high frequency tag phrase; and the high frequency tag phrase is used as the generation of the comment data. Tabular tag phrases; thus improving the accuracy of tag phrases normalization processing.

【技术实现步骤摘要】
标签短语处理和相似度计算方法及装置,电子和存储设备
本申请涉及互联网应用领域,具体涉及一种评论数据中标签短语归一化的处理方法和装置。本申请同时涉及一种评论数据中标签短语相似度的计算方法和装置,以及电子设备和存储设备。
技术介绍
随着互联网的发展,线上交易已成为常态。顾客可以通过互联网交易平台对购买的商品或服务进行评价,进而能够为其他顾客提供购买参考,以及能够使商家了解顾客对商品使用的反馈。通常情况下,同一商品交易量越大,则评论信息越多。为使用户能够快速了解商品使用信息,现有技术中对评论信息进行标签化处理,例如:针对大量评论信息内容,可以提取不同评论信息中的相同关键信息,将相同的关键信息统一作为评论标签显示在评论信息内容的上方,用户可以根据对评论信息参考需求进行点选评论标签获得该评论标签下的相关评论信息内容。公开号为CN107729317A的专利文献,提供一种评价标签的确定方法、装置及服务器,其记载通过对评价对象和/或评价词的进行标签挖掘,以得到评价目标对应的标签库或者通过语言技术平台(LTP)通过对每一条评价信息的分析得到标签库,接着确定每一条评价信息所包含的子句,最后将标签库中的标签与每一条评价信息所包含的子句中的词进行匹配,通过标签库的标签以及子句中的词确定每一条评价信息所包含的子句对应的评价标签。之后在确定每一条评价信息对应的评价标签后,还可以通过每一条评价信息对应的评价标签,统计出该评价目标对应的综合标签,通过综合标签准确标识评价目标提供的商品属性,供用户参考。上述专利文献仅记载了标签的确定过程以及根据评价目标统计综合标签,具体如何统计综合标签没有给出解决方案。现有技术中对评价标签的统计归类通常采用的方式之一包括:维护一个同义词典,把主题词或者情感词替换成同义的常见词,例如,优秀->好,马马虎虎->一般,但是在一些特定语境下,直接套用通用同义词典;对于评价标签的统计归类还可以采用主题模型LDA挖掘同义词的方式,但主题模型LDA的方式适合长文本语料,并不适合类似评论标签的短文本;上述评价标签归类的准确性不高,后期还需要人工再次整理维护。
技术实现思路
本申请提供一种评论数据中标签短语归一化的处理方法,以解决现有技术中标签短语归类不准确的问题。本申请提供一种评论数据中标签短语归一化的处理方法,包括:根据评论数据,确定候选标签短语;从所述候选标签短语中确定高频标签短语和非高频标签短语;其中,所述高频标签短语为在所述候选标签短语中出现频率满足频率条件的标签短语;根据所述高频标签短语与所述非高频标签短语之间的相似度,将与所述高频标签短语满足相似度条件的所述非高频标签短语归一化到所述高频标签短语;将所述高频标签短语作为所述评论数据的代表标签短语。优选的,所述从所述候选标签短语中确定高频标签短语和非高频标签短语包括:根据标签短语的模式,从所述候选标签短语中获取第一类候选标签短语;确定所述第一类候选标签短语中的高频标签短语和非高频标签短语,所述第一类候选标签短语中具有多个标签短语;和/或,从所述候选标签短语中获取满足指定字数要求的第二类候选标签短语;确定所述第二类候选标签短语中的高频标签短语和非高频标签短语,所述第二类候选标签短语中具有多个字数相同的标签短语。优选的,所述确定所述第一类候选标签短语中的高频标签短语,包括:确定所述第一类候选标签短语中相同描述类型的高频主题词和高频情感词;根据所述第一类候选标签短语中的高频主题词和高频情感词,确定所述第一类候选标签短语中的高频标签短语。优选的,所述确定所述第一类候选标签短语中相同描述类型的高频主题词和高频情感词,包括:统计所述第一类候选标签短语中主题词的词频,以及统计所述第一类候选标签短语中情感词的词频;将所述主题词符合高频主题词词频条件的确定为高频主题词,将所述情感词符合高频情感词词频条件的确定为高频情感词。优选的,所述根据标签短语的模式,从所述候选标签短语中获取第一类候选标签短语包括:选取所述候选标签短语中词性组合符合匹配要求的标签短语作为所述第一类候选标签短语。优选的,所述从所述候选标签短语中获取满足指定字数要求的第二类候选标签短语包括:选取所述候选标签短语中的四字短语作为所述第二类候选标签短语。优选的,所述确定所述第二类候选标签短语中的高频标签短语包括:统计所述第二类候选标签短语中第一描述类型的标签短语的出现频率;将所述第二类候选标签短语中满足频率条件的所述第一描述类型的标签短语确定为第一描述类型的高频标签短语。优选的,还包括:确定所述高频标签短语与所述非高频标签短语之间的相似度。优选的,所述确定所述高频标签短语与所述非高频标签短语之间的相似度,包括:针对所述第一类候选标签短语中所述高频标签短语和所述非高频标签短语中的主题词和情感词构建二部图;根据所述二部图获得所述第一类候选标签短语中所述高频标签短语和所述非高频标签短语的相似度。优选的,所述确定所述高频标签短语与所述非高频标签短语之间的相似度包括:计算所述第二类候选标签短语中高频标签短语的字向量和非高频标签短语的字向量;根据所述高频标签短语的字向量获得所述高频标签短语的短语向量,根据所述非高频标签短语的字向量获得所述非高频标签短语的短语向量;根据所述高频标签短语的短语向量和所述非高频标签短语的短语向量,确定所述高频标签短语与所述非高频标签短语的相似度。优选的,所述根据所述高频标签短语的字向量获得所述高频标签短语的短语向量,包括:将所述第二类候选标签短语中的标签短语的字向量进行加和处理;将加和处理后的标签短语字向量平均值作为所述标签短语的短语向量;所述根据所述高频标签短语的短语向量和所述非高频标签短语的短语向量,确定所述高频标签短语与所述非高频标签短语的相似度,包括:将所述标签短语之间的向量余弦夹角满足余弦夹角阈值条件的标签短语的短语向量确定为所述第二类候选标签短语中所述高频标签短语与所述非高频标签短语之间的相似度。优选的,所述根据所述高频标签短语与所述非高频标签短语之间的相似度,将与所述高频标签短语满足相似度条件的所述非高频标签短语归一化到所述高频标签短语,包括:将所述第一候选标签短语中的高频标签短语和非高频标签短语进行分组,获得标签短语对;判断每组所述标签短语对的相似度是否满足设定的相似度阈值,若满足,则建立相似度标签短语集合;将所述相似度标签短语集合中的非高频标签短语归一化到所述相似度标签短语集合中的高频标签短语。优选的,所述根据所述高频标签短语与所述非高频标签短语之间的相似度,将与所述高频标签短语满足相似度条件的所述非高频标签短语归一化到所述高频标签短语,包括:将所述第二候选标签短语中的高频标签短语和非高频标签短语进行分组,获得标签短语对;判断每组所述标签短语对的相似度是否满足设定的相似度阈值,若满足,则建立相似度标签短语集合;将所述相似度集合中的非高频标签短语归一化到所述相似度集合中的高频标签短语。优选的,还包括:建立所述非高频标签短语对应的评论数据与所述高频标签短语的对应关系。优选的,所述从所述候选标签短语中确定非高频标签短语包括:从所述非高频标签短语中删除满足设定的过滤阈值的标签短语。优选的,所述从所述候选标签短语中确定非高频标签短语,包括:从所述非高频标本文档来自技高网
...

【技术保护点】
1.一种评论数据中标签短语归一化的处理方法,其特征在于,包括:根据评论数据,确定候选标签短语;从所述候选标签短语中确定高频标签短语和非高频标签短语;其中,所述高频标签短语为在所述候选标签短语中出现频率满足频率条件的标签短语;根据所述高频标签短语与所述非高频标签短语之间的相似度,将与所述高频标签短语满足相似度条件的所述非高频标签短语归一化到所述高频标签短语;将所述高频标签短语作为所述评论数据的代表标签短语。

【技术特征摘要】
1.一种评论数据中标签短语归一化的处理方法,其特征在于,包括:根据评论数据,确定候选标签短语;从所述候选标签短语中确定高频标签短语和非高频标签短语;其中,所述高频标签短语为在所述候选标签短语中出现频率满足频率条件的标签短语;根据所述高频标签短语与所述非高频标签短语之间的相似度,将与所述高频标签短语满足相似度条件的所述非高频标签短语归一化到所述高频标签短语;将所述高频标签短语作为所述评论数据的代表标签短语。2.根据权利要求1所述的评论数据中标签短语归一化的处理方法,其特征在于,所述从所述候选标签短语中确定高频标签短语和非高频标签短语包括:根据标签短语的模式,从所述候选标签短语中获取第一类候选标签短语;确定所述第一类候选标签短语中的高频标签短语和非高频标签短语,所述第一类候选标签短语中具有多个标签短语;和/或,从所述候选标签短语中获取满足指定字数要求的第二类候选标签短语;确定所述第二类候选标签短语中的高频标签短语和非高频标签短语,所述第二类候选标签短语中具有多个字数相同的标签短语。3.一种评论数据中标签短语归一化的处理装置,其特征在于,包括:第一确定单元,用于根据评论数据,确定候选标签短语;第二确定单元,用于从所述候选标签短语中确定高频标签短语和非高频标签短语;其中,所述高频标签短语为在所述候选标签短语中出现频率满足频率条件的标签短语;归一单元,用于根据所述高频标签短语与所述非高频标签短语之间的相似度,将与所述高频标签短语满足相似度条件的所述非高频标签短语归一化到所述高频标签短语;第三确定单元,用于将所述高频标签短语作为所述评论数据的代表标签短语。4.一种评论数据中标签短语相似度的计算方法,其特征在于,包括:根据评论数据,获得指定字数的候选标签短语;获得所述候选标签短语的字向量;根据所述候选标签短语的字向量获得所述候选标签短语的短语向量;根据所述候选标签短语的短语向量确定指定字数的候选标签短语之间的相似度。5.根据权利要求4所述的评论数据中标签短语相似度的计算方法,其特征在于,所述获得所述候选标签短语的字向量包括:对指定字数的所述候选标签短语按字切分;计算切分后的所述候选标签短语的字向量。6.一种评论数据中标签短语相似度的计算装置,其特征在于,包括:候选标签短语获得单元,用于根据评论数据,...

【专利技术属性】
技术研发人员:沈珑斌
申请(专利权)人:口口相传北京网络技术有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1