This application discloses a processing method and device for normalizing tag phrases in comment data, as well as a calculation method and device for tag phrase similarity, an electronic device and a storage device. The processing method includes: determining candidate tag phrases based on comment data; determining high frequency tag phrases and non-high frequency tag phrases from the candidate tag phrases; and among them, the high frequency tag phrases. The tag phrase is a tag phrase whose frequency satisfies the frequency condition in the candidate tag phrase; according to the similarity between the high frequency tag phrase and the non-high frequency tag phrase, the non-high frequency tag phrase satisfying the similarity condition is normalized to the high frequency tag phrase; and the high frequency tag phrase is used as the generation of the comment data. Tabular tag phrases; thus improving the accuracy of tag phrases normalization processing.
【技术实现步骤摘要】
标签短语处理和相似度计算方法及装置,电子和存储设备
本申请涉及互联网应用领域,具体涉及一种评论数据中标签短语归一化的处理方法和装置。本申请同时涉及一种评论数据中标签短语相似度的计算方法和装置,以及电子设备和存储设备。
技术介绍
随着互联网的发展,线上交易已成为常态。顾客可以通过互联网交易平台对购买的商品或服务进行评价,进而能够为其他顾客提供购买参考,以及能够使商家了解顾客对商品使用的反馈。通常情况下,同一商品交易量越大,则评论信息越多。为使用户能够快速了解商品使用信息,现有技术中对评论信息进行标签化处理,例如:针对大量评论信息内容,可以提取不同评论信息中的相同关键信息,将相同的关键信息统一作为评论标签显示在评论信息内容的上方,用户可以根据对评论信息参考需求进行点选评论标签获得该评论标签下的相关评论信息内容。公开号为CN107729317A的专利文献,提供一种评价标签的确定方法、装置及服务器,其记载通过对评价对象和/或评价词的进行标签挖掘,以得到评价目标对应的标签库或者通过语言技术平台(LTP)通过对每一条评价信息的分析得到标签库,接着确定每一条评价信息所包含的子句,最后将标签库中的标签与每一条评价信息所包含的子句中的词进行匹配,通过标签库的标签以及子句中的词确定每一条评价信息所包含的子句对应的评价标签。之后在确定每一条评价信息对应的评价标签后,还可以通过每一条评价信息对应的评价标签,统计出该评价目标对应的综合标签,通过综合标签准确标识评价目标提供的商品属性,供用户参考。上述专利文献仅记载了标签的确定过程以及根据评价目标统计综合标签,具体如何统计综合标签没有 ...
【技术保护点】
1.一种评论数据中标签短语归一化的处理方法,其特征在于,包括:根据评论数据,确定候选标签短语;从所述候选标签短语中确定高频标签短语和非高频标签短语;其中,所述高频标签短语为在所述候选标签短语中出现频率满足频率条件的标签短语;根据所述高频标签短语与所述非高频标签短语之间的相似度,将与所述高频标签短语满足相似度条件的所述非高频标签短语归一化到所述高频标签短语;将所述高频标签短语作为所述评论数据的代表标签短语。
【技术特征摘要】
1.一种评论数据中标签短语归一化的处理方法,其特征在于,包括:根据评论数据,确定候选标签短语;从所述候选标签短语中确定高频标签短语和非高频标签短语;其中,所述高频标签短语为在所述候选标签短语中出现频率满足频率条件的标签短语;根据所述高频标签短语与所述非高频标签短语之间的相似度,将与所述高频标签短语满足相似度条件的所述非高频标签短语归一化到所述高频标签短语;将所述高频标签短语作为所述评论数据的代表标签短语。2.根据权利要求1所述的评论数据中标签短语归一化的处理方法,其特征在于,所述从所述候选标签短语中确定高频标签短语和非高频标签短语包括:根据标签短语的模式,从所述候选标签短语中获取第一类候选标签短语;确定所述第一类候选标签短语中的高频标签短语和非高频标签短语,所述第一类候选标签短语中具有多个标签短语;和/或,从所述候选标签短语中获取满足指定字数要求的第二类候选标签短语;确定所述第二类候选标签短语中的高频标签短语和非高频标签短语,所述第二类候选标签短语中具有多个字数相同的标签短语。3.一种评论数据中标签短语归一化的处理装置,其特征在于,包括:第一确定单元,用于根据评论数据,确定候选标签短语;第二确定单元,用于从所述候选标签短语中确定高频标签短语和非高频标签短语;其中,所述高频标签短语为在所述候选标签短语中出现频率满足频率条件的标签短语;归一单元,用于根据所述高频标签短语与所述非高频标签短语之间的相似度,将与所述高频标签短语满足相似度条件的所述非高频标签短语归一化到所述高频标签短语;第三确定单元,用于将所述高频标签短语作为所述评论数据的代表标签短语。4.一种评论数据中标签短语相似度的计算方法,其特征在于,包括:根据评论数据,获得指定字数的候选标签短语;获得所述候选标签短语的字向量;根据所述候选标签短语的字向量获得所述候选标签短语的短语向量;根据所述候选标签短语的短语向量确定指定字数的候选标签短语之间的相似度。5.根据权利要求4所述的评论数据中标签短语相似度的计算方法,其特征在于,所述获得所述候选标签短语的字向量包括:对指定字数的所述候选标签短语按字切分;计算切分后的所述候选标签短语的字向量。6.一种评论数据中标签短语相似度的计算装置,其特征在于,包括:候选标签短语获得单元,用于根据评论数据,...
【专利技术属性】
技术研发人员:沈珑斌,
申请(专利权)人:口口相传北京网络技术有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。