文本情感分类模型训练方法、装置、计算机设备及介质制造方法及图纸

技术编号：26478742 阅读：26 留言：0更新日期：2020-11-25 19:22

本发明专利技术涉及人工智能技术领域，提供一种文本情感分类模型训练方法、装置、计算机设备及介质，包括：获取多个长文本，并对每个长文本进行切分得到多个文本语句；计算每个长文本中每个文本语句的TextRank值，并根据所述TextRank值为每个长文本生成文本摘要；计算每个文本摘要中的每个文本语句的情感得分；根据所述情感得分对每个文本摘要中的多个文本语句进行排序，并根据排序后的多个文本语句生成文本数据集；基于预训练模型训练多个文本数据集得到文本情感分类模型。本发明专利技术能够实现对长文本的情感的准确分类并且不损失原有长文本的位置信息、时序信息以及语义信息。

全部详细技术资料下载

【技术实现步骤摘要】
文本情感分类模型训练方法、装置、计算机设备及介质
本专利技术涉及人工智能
，具体涉及一种文本情感分类模型训练方法、装置、计算机设备及介质。
技术介绍
医疗长文本的情感分析是网络舆情监控的重要组成部分，能够有效地区分出负面信息，使管理者及时有效的对负面信息进行查证与说明，还能够对网络舆情的爆发进行时刻的监控。目前大多使用word2vec方法对文本进行编码的方式来实现对文本的分类，或者采用预训练模型BERT实现对文本的分类。然而，专利技术人在实现本专利技术的过程中发现，word2vec不能解决一词多义及语法等问题，预训练模型BERT虽能解决一词多义及语法等问题，但却只能对文本长度小于512个字的文本进行分类。可见，目前的文本分类方法对于短文本具有较好的分类效果，但却不适用于医疗长文本的分类。
技术实现思路
鉴于以上内容，有必要提出一种文本情感分类模型训练方法、装置、计算机设备及介质，能够实现对长文本的情感的准确分类并且不损失原有长文本的位置信息、时序信息以及语义信息。本专利技术的第一方面...

【技术保护点】
1.一种文本情感分类模型训练方法，其特征在于，所述方法包括：/n获取多个长文本，并对每个长文本进行切分得到多个文本语句；/n计算每个长文本中每个文本语句的TextRank值，并根据所述TextRank值为每个长文本生成文本摘要；/n计算每个文本摘要中的每个文本语句的情感得分；/n根据所述情感得分对每个文本摘要中的多个文本语句进行排序，并根据排序后的多个文本语句生成文本数据集；/n基于预训练模型训练多个文本数据集得到文本情感分类模型。/n

【技术特征摘要】
1.一种文本情感分类模型训练方法，其特征在于，所述方法包括：
获取多个长文本，并对每个长文本进行切分得到多个文本语句；
计算每个长文本中每个文本语句的TextRank值，并根据所述TextRank值为每个长文本生成文本摘要；
计算每个文本摘要中的每个文本语句的情感得分；
根据所述情感得分对每个文本摘要中的多个文本语句进行排序，并根据排序后的多个文本语句生成文本数据集；
基于预训练模型训练多个文本数据集得到文本情感分类模型。

2.如权利要求1所述的文本情感分类模型训练方法，其特征在于，所述计算每个长文本中每个文本语句的TextRank值，并根据所述TextRank值为每个长文本生成文本摘要包括：
基于预设的语言模型对每个文本语句进行语句嵌入获得语句向量；
计算所述语句向量间的相似度，并根据所述相似度生成相似矩阵；
根据所述相似矩阵生成文本图结构；
采用文本排名TextRank算法对所述文本图结构进行计算，得到每个文本语句的TextRank值；
对所述TextRank值进行排序并获取排序在前的多个TextRank值对应的多个目标文本语句；
基于所述多个目标文本语句生成文本摘要。

3.如权利要求1所述的文本情感分类模型训练方法，其特征在于，所述计算每个文本摘要中的每个文本语句的情感得分包括：
对每个文本语句进行分词得到多个分词；
识别每个分词的第一情感词性，其中，所述第一情感词性包括积极词性、消极词性和否定词性；
当识别分词的第一情感词性为积极词性时，识别所述分词的前后分词的第二情感词性，根据所述分词的前后分词的第二情感词性生成第一情感权重；
当识别分词的第一情感词性为消极词性时，识别所述分词的前一分词的第三情感词性，根据所述分词的前一分词的第三情感词性生成第二情感权重；
当识别分词的第一情感词性为否定词性时，将预设的情感权重确定为第三情感权重；
根据所述文本语句中的所有分词对应的所述第一情感权重、所述第二情感权重及所述第三情感权重计算所述文本语句的情感得分。

4.如权利要求1所述的文本情感分类模型训练方法，其特征在于，所述基于预训练模型训练多个文本数据集得到文本情感分类模型包括：
计算每个文本数据集中每个文本语句的字符长度；
从第一个文本语句开始并将所述第一个文本语句之后的文本语句进行字符累加，在累加得到的字符长度超过预设字符长度时，停止字符累加，将累加的文本语句进行拼接得到文本数据；
根据所述文本数据对应的情感得分为...

【专利技术属性】
技术研发人员：宋威，
申请(专利权)人：平安国际智慧城市科技股份有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人