【技术实现步骤摘要】
一种基于检索和对比学习的情感分析方法
[0001]本专利技术涉及自然语言处理
,特别指一种基于检索和对比学习的情感分析方法。
技术介绍
[0002]随着互联网的普及,互联网用户数呈几何式增长,伴随的是用户越来越倾向于在互联网上发表自己的看法,如在微博、Facebook等社交媒体网站上分享自己的即时动态,或对其他用户的动态发表自己的评论,或在购物网站上对商品的使用体验进行评价等。通过分析这些带有浓厚情感色彩的文本,在社会舆情检测、商品个性化推荐、聊天机器人设计等方面都能提供科学有效的帮助。
[0003]随着情感分析任务的精细化,当前最常见、应用最广的是属性级情感分析任务,研究的是一段文本中所有情感对象,识别各个情感对象的情感polarity。传统上,情感分析主要采用基于深度学习的方法,通过对文本进行语义计算,挖掘深层语义含义,抽取出文本本质的特征,获得文本抽象表示,再进行情感polarity分类。虽然传统方法已经取得了巨大的成功,但大都独立的对每个句子单独进行计算,并没有对不同句子间可能存在的关系进行建模,因此不 ...
【技术保护点】
【技术特征摘要】
1.一种基于检索和对比学习的情感分析方法,其特征在于:包括如下步骤:步骤S10、获取大量的情感文本数据,并对各所述情感文本数据进行预处理;步骤S20、提取预处理后的各所述情感文本数据中的实体,对各所述实体进行标注以构建样本,进而生成情感数据集;步骤S30、通过Elasticsearch对所述情感数据集中的样本进行倒排索引,为各所述样本检索与其相似的样本;步骤S40、基于神经网络创建一情感分类模型,利用所述情感数据集对情感分类模型进行训练,训练的同时,使用对比学习技术拉近各所述样本与相似的样本的向量距离;步骤S50、利用训练完成的所述情感分类模型进行情感分析。2.如权利要求1所述的一种基于检索和对比学习的情感分析方法,其特征在于:所述步骤S10具体为:自动获取大量的情感文本数据,并对各所述情感文本数据进行去除超链接、特殊字符以及重复字符的预处理。3.如权利要求1所述的一种基于检索和对比学习的情感分析方法,其特征在于:所述步骤S20具体为:使用命名实体识别技术提取预处理后的各所述情感文本数据中的实体,选取部分所述实体作为aspect,对各所述实体进行情感polarity的标注以构建样本,进而生成情感数据集。4.如权利要求3所述的一种基于检索和对比学习的情感分析方法,其特征在于:所述步骤S30具体为:基于预设比例将所述情感数据集划分为训练集、验证集以及测试集;通过Elasticsearch对所述训练集中的样本进行倒排索引,构建一个键值列表,键为样本的aspect以及polarity,值为对应的样本;基于所述aspect以及polarity为各样本检索与其相似的样本。5.如权利要求1所述的一种基于检索和对比学习的情感分析方法,其特征在于:所述步骤S40中,所述情感分类模型用于对样本进行分词,基于BERT将分词输入转换为样本向量,使用对比学习技术,拉近各所述样本与相似的样本的向量距离,再将所述样本向量输入线性层以及softmax函数以获...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。