基于关键句子的Bert情感分析方法及装置制造方法及图纸

技术编号:37678538 阅读:12 留言:0更新日期:2023-05-26 04:44
本发明专利技术提供一种基于关键句子的Bert情感分析方法及装置,其中方法包括:对新闻数据的标题数据进行数据增广处理,得到多个同义数据;从新闻数据的内容数据中,获取与同义数据的关键句子数据;将得到的多个关键句子数据进行拼接,并将拼接后的句子数据输入Bert模型,确定新闻数据的情感倾向类型。本发明专利技术提供的基于关键句子的Bert情感分析方法及装置,通过对新闻数据的标题数据进行数据增广处理,得到标题数据的多个同义数据。从新闻数据的内容数据中提取与同义数据相关度高的句子作为Bert模型的输入,实现了从内容数据中获取更多能反映新闻主题数据,对新闻数据的情感倾向进行预测,提升了针对新闻数据的情感倾向预测的准确性。性。性。

【技术实现步骤摘要】
基于关键句子的Bert情感分析方法及装置


[0001]本专利技术涉及人工智能
,尤其涉及一种基于关键句子的Bert情感分析方法及装置。

技术介绍

[0002]对于新闻类的数据进行情感分析中,一般基于对新闻类数据进行抽取后输入Bert模型,确定新闻类数据的情感倾向类型。
[0003]现有的新闻类情感分析中,仅将新闻类数据进行直接截取并将截取得到的片段输入模型进行预测、将新闻类数据中的摘要进行匹配模型训练及预测或者基于新闻类数据进行片段级递归后进行模型预测,只截取了新闻数据的少量数据,截取的数据量不足,导致预测的准确度不高。

技术实现思路

[0004]本专利技术提供一种基于关键句子的Bert情感分析方法及装置,用以解决现有技术对新闻类数据进行截取,输入模型进行预测的过程,截取的数据量不足,导致预测的准确度不高的技术问题。
[0005]本专利技术提供一种基于关键句子的Bert情感分析方法,包括:
[0006]对新闻数据的标题数据进行数据增广处理,得到所述标题数据的多个同义数据;
[0007]从所述新闻数据的内容数据中,获取与所述同义数据的相似度大于预设相似度阈值的关键句子数据;
[0008]将得到的多个关键句子数据进行拼接,并将拼接后的句子数据输入Bert模型,确定所述新闻数据的情感倾向类型,所述Bert模型是基于新闻数据样本及其对应的情感倾向类型标签训练得到的。
[0009]根据本专利技术提供的一种基于关键句子的Bert情感分析方法,从所述新闻数据的内容数据中,获取与所述同义数据的相似度大于预设相似度阈值的关键句子数据,包括:
[0010]遍历所述内容数据中的句子数据,分别确定各同义数据与所述句子数据的相似度,并将所述相似度大于预设相似度阈值的句子数据作为所述内容数据的关键句子数据。
[0011]根据本专利技术提供的一种基于关键句子的Bert情感分析方法,确定各同义数据与所述句子数据的相似度,包括:
[0012]基于同义数据与句子数据中的共有词汇的数量、所述同义数据中所有词汇数量以及所述句子数据中所有词汇数量,确定同义数据与句子数据的相似度计算公式;
[0013]基于所述相似度计算公式,确定各同义数据与所述句子数据的相似度。
[0014]根据本专利技术提供的一种基于关键句子的Bert情感分析方法,相似度计算公式为:
[0015][0016]其中,W为同义数据与句子数据的相似度,X为同义数据与句子数据中的共有词汇
的数量,Y为同义数据中所有词汇数量,Z为句子数据中所有词汇数量。
[0017]根据本专利技术提供的一种基于关键句子的Bert情感分析方法,数据增广处理包括:同义词替换处理、随机插入处理、随机交换处理以及随机删除处理中的至少一项。
[0018]根据本专利技术提供的一种基于关键句子的Bert情感分析方法,将拼接后的句子数据输入Bert模型之前,还包括:
[0019]在所述拼接后的句子数据的长度大于预设长度的情况下,对所述拼接后的句子数据进行截取,确定拼接后的句子数据的长度小于等于所述预设长度。
[0020]本专利技术还提供一种基于关键句子的Bert情感分析装置,包括:
[0021]增广处理模块,用于对新闻数据的标题数据进行数据增广处理,得到所述标题数据的多个同义数据;
[0022]筛选模块,用于从所述新闻数据的内容数据中,获取与所述同义数据的相似度大于预设相似度阈值的关键句子数据;
[0023]模型处理模块,用于将得到的多个关键句子数据进行拼接,并将拼接后的句子数据输入Bert模型,确定所述新闻数据的情感倾向类型,所述Bert模型是基于新闻数据样本及其对应的情感倾向类型标签训练得到的。
[0024]本专利技术还提供一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述任一种所述基于关键句子的Bert情感分析方法。
[0025]本专利技术还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述任一种基于关键句子的Bert情感分析方法。
[0026]本专利技术还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述基于关键句子的Bert情感分析方法。
[0027]本专利技术提供的基于关键句子的Bert情感分析方法及装置,通过对新闻数据的标题数据进行数据增广处理,得到标题数据的多个同义数据。从新闻数据的内容数据中提取与多个同义数据相关度高的句子作为后续Bert模型的输入,实现了从新闻数据的内容数据中获取更多能反映新闻主题数据对新闻数据的情感倾向进行预测,提升了针对新闻数据的情感倾向预测的准确性。
附图说明
[0028]为了更清楚地说明本专利技术或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图简要地说明,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0029]图1是本专利技术提供的基于关键句子的Bert情感分析方法的流程示意图;
[0030]图2是应用本专利技术提供的基于关键句子的Bert情感分析方法的流程示意图;
[0031]图3是本专利技术提供的基于关键句子的Bert情感分析装置的结构示意图;
[0032]图4是本专利技术提供的电子设备的结构示意图。
具体实施方式
[0033]为使本专利技术的目的、技术方案和优点更加清楚,下面将结合本专利技术中的附图,对本专利技术中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0034]本专利技术提供一种基于关键句子的Bert情感分析方法,图1为本专利技术提供的基于关键句子的Bert情感分析方法的流程示意图。参照图1,本专利技术提供的基于关键句子的Bert情感分析方法可以包括:
[0035]步骤110,对新闻数据的标题数据进行数据增广处理,得到所述标题数据的多个同义数据;
[0036]步骤120,从所述新闻数据的内容数据中,获取与所述同义数据的相似度大于预设相似度阈值的关键句子数据;
[0037]步骤130,将得到的多个关键句子数据进行拼接,并将拼接后的句子数据输入Bert模型,确定所述新闻数据的情感倾向类型,所述Bert模型是基于新闻数据样本及其对应的情感倾向类型标签训练得到的。
[0038]本专利技术提供的基于关键句子的Bert情感分析方法的执行主体可以是电子设备、电子设备中的部件、集成电路、或芯片。该电子设备可以是移动电子设备,也可以为非移动电子设备。示例性的,移动电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、超级移动个人计算机(ultra

mob本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于关键句子的Bert情感分析方法,其特征在于,所述方法包括:对新闻数据的标题数据进行数据增广处理,得到所述标题数据的多个同义数据;从所述新闻数据的内容数据中,获取与所述同义数据的相似度大于预设相似度阈值的关键句子数据;将得到的多个关键句子数据进行拼接,并将拼接后的句子数据输入Bert模型,确定所述新闻数据的情感倾向类型,所述Bert模型是基于新闻数据样本及其对应的情感倾向类型标签训练得到的。2.根据权利要求1所述的基于关键句子的Bert情感分析方法,其特征在于,所述从所述新闻数据的内容数据中,获取与所述同义数据的相似度大于预设相似度阈值的关键句子数据,包括:遍历所述内容数据中的句子数据,分别确定各同义数据与所述句子数据的相似度,并将所述相似度大于预设相似度阈值的句子数据作为所述内容数据的关键句子数据。3.根据权利要求2所述的基于关键句子的Bert情感分析方法,其特征在于,所述确定各同义数据与所述句子数据的相似度,包括:基于同义数据与句子数据中的共有词汇的数量、所述同义数据中所有词汇数量以及所述句子数据中所有词汇数量,确定同义数据与句子数据的相似度计算公式;基于所述相似度计算公式,确定各同义数据与所述句子数据的相似度。4.根据权利要求3所述的基于关键句子的Bert情感分析方法,其特征在于,所述相似度计算公式为:其中,W为同义数据与句子数据的相似度,X为同义数据与句子数据中的共有词汇的数量,Y为同义数据中所有词汇数量,Z为句子数据中所有词汇数量。5.根据权利要求1所述的基于关键句子的Bert情感分析方法,其特征...

【专利技术属性】
技术研发人员:孙哲南张堃博张大朋赵晓玲陈丹丹弓峤
申请(专利权)人:中国科学院自动化研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1