情感分类模型的训练方法、舆情监测方法及相关设备技术

技术编号:37961294 阅读:24 留言:0更新日期:2023-06-30 09:36
本申请公开了一种情感分类模型的训练方法、舆情监测方法及相关设备。所述训练方法包括:分别对第一文本的关键句中的单个词语进行删除操作,得到多个候选句;通过情感分类模型对所述关键句和所述多个候选句分别进行情感分类,得到所述关键句的情感分类结果和各候选句的情感分类结果;基于所述关键句的情感分类结果和各候选句的情感分类结果,确定所述关键句中的关键词;对所述关键句中的关键词进行词语替换,得到所述关键句对应的增强关键句;基于所述关键句和所述关键句对应的增强关键句,对所述情感分类模型进行优化训练。对所述情感分类模型进行优化训练。对所述情感分类模型进行优化训练。

【技术实现步骤摘要】
情感分类模型的训练方法、舆情监测方法及相关设备


[0001]本申请涉及自然语言处理
,尤其涉及一种情感分类模型的训练方法、舆情监测方法及相关设备。

技术介绍

[0002]在证券、银行等金融机构里面通常需要对重要的宏观财经类新闻、中观的行业新闻和微观的企业新闻进行信息抽取。在这些新闻中进行信息提取,识别新闻的正负向情感,进行情感分析来辅助业务方进行决策是一项重要的任务。
[0003]但对于新闻的情感分析来说,又有诸多的问题。一般来说,新闻情感分析一般是一个长文本的文本分类任务,若直接将数据送入到模型中进行二分类的情感分析分类,效果会很不理想,模型无法抓取数据的特征而导致过拟合;若直接从新闻中提取关键句进行模型训练,进而利用训练好的模型进行分类,又会导致训练数据有偏,比如股票上涨/股票下跌出现的新闻数量会远远高于类似高管减持这类新闻,这就导致模型对于很多其他类型的数据是陌生的,进而导致模型精度下降。
[0004]相关技术中,为了使模型在没见过的新闻上也能有较好的识别效果,通常在数据侧编码后增加一些扰动,例如采用多次dropou本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种情感分类模型的训练方法,其特征在于,包括:分别对第一文本的关键句中的单个词语进行删除操作,得到多个候选句;通过情感分类模型对所述关键句和所述多个候选句分别进行情感分类,得到所述关键句的情感分类结果和各候选句的情感分类结果;基于所述关键句的情感分类结果和各候选句的情感分类结果,确定所述关键句中的关键词;对所述关键句中的关键词进行词语替换,得到所述关键句对应的增强关键句;基于所述关键句和所述关键句对应的增强关键句,对所述情感分类模型进行优化训练。2.根据权利要求1所述的方法,其特征在于,所述基于所述关键句的情感分类结果和各候选句的情感分类结果,确定所述关键句中的关键词,包括:基于所述关键句的情感分类结果和各候选句的情感分类结果,确定各候选句对应的情感变化分值,候选句对应的情感变化分值用于表示候选句相对于所述关键句的情感变化;从所述多个候选句中选取所述情感变化分值最高的前N个候选句作为目标句,N为正整数;基于所述目标句相对于所述关键句被删除的词语,确定所述关键句中的关键词。3.根据权利要求2所述的方法,其特征在于,所述基于所述目标句相对于所述关键句被删除的词语,确定所述关键句中的关键词,包括:分别对所述关键句中的各词语进行嵌入处理,得到所述关键句中的各词语的词向量;基于自注意力机制以及所述关键句中的各词语的词向量,确定目标词语对应的第一注意力分值信息,其中,所述目标词语是指所述关键句与所述目标句共有的词语,所述第一注意力分值信息包括所述目标词语在所述关键句中相对于其他词语的注意力分值;基于自注意力机制以及所述目标句中的各词语的词向量,确定所述目标词语对应的第二注意力分值信息,其中,所述第二注意力分值信息包括所述目标词语在所述目标句中相对于其他词语的注意力分值;基于所述第一注意力分值信息和所述第二注意力分值信息,确定所述被删除的词语引起的不确定性变化分值;若所述不确定性变化分值大于或等于预设分值,则将所述被删除的词语确定为所述关键句中的关键词。4.根据权利要求3所述的方法,其特征在于,所述基于所述第一注意力分值信息和所述第二注意力分值信息,确定所述被删除的词语引起的不确定性变化分值,包括:基于所述目标词语在所述关键句中相对于其他词语的注意力分值、以及所述第一注意力分值信息中的最高注意力分值和次高注意力分值,确定所述目标词语对于所述关键句的第一不确定性分值;基于所述目标词语在所述目标句中相对于其他词语的注意力分值、以及所述第二注意力分值信息中的最高注意力分值和次高注意力分值,确定所述目标词语对于所述目标句的第二不确定性分值;确定所述第一不确定性分值与所述第二不确定性分值之间的差值,作为所述被删除的词语引起的不确定性变化分值。
5.根据权利要求1所述的方法,其特征在于,所述对所述关键句中的关键词进行词语替换,得到所述关键句对应的增强关键句,包括:将所述关键词分别与多个预设词典中的词语进行匹配,以确定所述关键词所属的目标类别,每个预设词典对应一个类别,所述类别为情感类或否定词类;使用所述目标类别对应的预设词典中的词语对所述关键句中的关键词进行词语替换,得到所述关键句对应的增强关键句。6.根据权利要求1所述的方法,其特征在于,在分别对第一文本的关键句中的单个词语进行删除操作之前,所述方法还包括:对所述第一文本进行分句处理,得到多个句子;基于第一句子包含的词语数量、第二句子包含的词语数量以及所述第一句子与所述第二句子之间的共有词语数量,确定所述第一句子与所述第二句子之间的相似度,其中,所述第一句子为所述多个句子中的任一个,所述第二句子为所述多个句子中除所述第一句子以外的其他句子;基于所述多个句子之间的共现关系以及所述多个句子之间的相似度,确定各句子的重要性分值;从所述多个句子中选取重要性分值最高的前M个句子,作为所述第一文本中的关键句,M为正整数。7.根据权利要求1所述的方法,其特征在于,在对所述关键句中的关键词进行词语替换,得到所述关键句对应的增强关键句之后,所述方法还包括:通过所述情感分类模型对所述增强关键句进行情感分类,得到所述增强关键句的情感分类结果;基于所述增强关键句的情感...

【专利技术属性】
技术研发人员:丁隆耀蒋宁夏粉肖冰李宽吕乐宾
申请(专利权)人:马上消费金融股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1