一种创建词典的方法、装置、电子设备及存储介质制造方法及图纸

技术编号:21399320 阅读:31 留言:0更新日期:2019-06-19 07:05
本发明专利技术实施例涉及数据处理领域,公开了一种创建词典的方法、装置、电子设备及存储介质。本申请的部分实施例中,创建词典的方法,包括:获取语料库中的词汇;针对语料库中的每个不属于第一情感词典的词汇,分别进行以下操作:确定第一情感词典中与不属于第一情感词典的词汇最接近的单词;根据最接近的单词的极性分数,确定不属于第一情感词典的词汇的极性分数;其中,第一情感词典中包括N个单词,以及每个单词的极性分数;N为正整数;根据语料库中的词汇,以及语料库中的词汇的极性分数,创建第二情感词典。该实现中,能够将不属于情感词典的词汇写入情感词典中,丰富了情感词典的词汇量。

【技术实现步骤摘要】
一种创建词典的方法、装置、电子设备及存储介质
本专利技术实施例涉及数据处理领域,特别涉及一种创建词典的方法、装置、电子设备及存储介质。
技术介绍
目前,社交媒体上有大量关于产品和服务的用户评论或评价,它已经成为用户日常决策的信息来源。由于对某个产品的大量不同意见,用户可能很难根据这些评论或评价总结出总体的情感。情感词典(SentiWordNet)被认为是一种有效的情感分析词汇资源。SentiWordNet中的每个术语都与一组表示其积极性、消极性和中性的分数相关联。分数可以取决于术语的词性标记。它通常用于情感分析,它是确定文本情感取向(积极、消极或中性)的方法的集合。然而,专利技术人发现现有技术中至少存在如下问题:目前,SentiWordNet是确定文本极性的最常用的情感词典。然而,SentiWordNet中的词汇量有限,这将限制情感分析的结果的正确率。需要说明的是,在上述
技术介绍
部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
技术实现思路
本专利技术实施方式的目的在于提供一种创建词典的方法、装置、电子设备及存储介质,使得丰富了情本文档来自技高网...

【技术保护点】
1.一种创建词典的方法,其特征在于,包括:获取语料库中的词汇;针对所述语料库中的每个不属于所述第一情感词典的词汇,分别进行以下操作:确定所述第一情感词典中与所述不属于所述第一情感词典的词汇最接近的单词;根据所述最接近的单词的极性分数,确定所述不属于所述第一情感词典的词汇的极性分数;其中,所述第一情感词典中包括N个单词,以及每个单词的极性分数;N为正整数;根据所述语料库中的词汇,以及所述语料库中的词汇的极性分数,创建第二情感词典。

【技术特征摘要】
2018.12.29 CN 20181163339681.一种创建词典的方法,其特征在于,包括:获取语料库中的词汇;针对所述语料库中的每个不属于所述第一情感词典的词汇,分别进行以下操作:确定所述第一情感词典中与所述不属于所述第一情感词典的词汇最接近的单词;根据所述最接近的单词的极性分数,确定所述不属于所述第一情感词典的词汇的极性分数;其中,所述第一情感词典中包括N个单词,以及每个单词的极性分数;N为正整数;根据所述语料库中的词汇,以及所述语料库中的词汇的极性分数,创建第二情感词典。2.根据权利要求1所述创建词典的方法,其特征在于,所述确定所述第一情感词典中与所述不属于所述第一情感词典的词汇最接近的单词,具体包括:确定所述不属于所述第一情感词典的词汇的第一词向量,以及所述第一情感词典的每个单词的第二词向量;确定每个所述第二词向量各自与所述第一词向量之间的距离;将与所述第一词向量距离最近的第二词向量所对应的单词,作为与所述不属于所述第一情感词典的词汇最接近的单词。3.根据权利要求2所述的创建词典的方法,其特征在于,所述确定每个所述第二词向量各自与所述第一词向量之间的距离,具体包括:针对每个第二词向量,分别进行以下操作:按照公式a计算所述第二词向量与所述第一词向量的距离;其中,公式a为:其中,ai表示所述第二词向量,j表示所述第一词向量,||A||[F]表示所述第一词向量与所述第二词向量之间的距离,abs是绝对值函数。4.根据权利要求2所述的创建词典的方法,其特征在于,所述确定所述不属于所述第一情感词典的词汇的第一词向量,以及所述第一情感词典的每个单词的第二词向量,具体包括:使用词向量模型Word2VEC方法,确定所述第一词向量,以及所述第二词向量。5.根据权利要...

【专利技术属性】
技术研发人员:陈海波
申请(专利权)人:深兰科技上海有限公司
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1