一种面向语义识别筛查判断的深度学习分类算法制造技术

技术编号：40818118 阅读：4 留言：0更新日期：2024-03-28 19:37

本发明专利技术公开了一种面向语义识别筛查判断的深度学习分类算法，一种面向语义识别筛查判断的深度学习分类算法，包括利用多模态架构进行信息融合后对获取待测账户的文本信息、图像信息、语音信息进行筛查判断；文本信息主要包括多段文字的读取解析，将由多个语句组成的字段按照句号的间隔进行切分，对处理后的句段分别从长度，字词含量，词语先后顺序提取相应的特征值，再将获取语句的序列模态加权平均词语序列中各字词的语义表示向量；提出一种基于机器学习、深度学习模型、人工智能算法对文本信息、图像信息、语音信息等多模态信息联合分析大量账号接收的信息数据判断用户获取的信息是否为误发的筛查评估机制。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种面向语义识别筛查判断的深度学习分类算法。

技术介绍

1、信息分类产生于传统媒介报媒的鼎盛期，传统的信息分类后都是传播者强加给信息受众，使受众视、听、触等感觉被动接收。现今人们生活在一个信息冗余的社会环境下，被动式信息传播形式越加让大众反感，而人们更愿意采用主动方式，根据需要，定点、定量去查找目标信息，按信息内容的行业和信息类型、信息范围归类的信息表现形式-分类信息媒介应运而生。基于语义识别的消息筛查判别系统，能够作为一种分类信息是否为误发的定量评估手段。本专利技术采用了一种基于账号所获取信息样本的多分类训练模型，对消息中的图片、文字、语音等多模态信息分别测试，结合各模态的判别权重，综合计算出误发的概率，通过数据实现账号所获取消息的筛查分析。

技术实现思路

1、本专利技术的目的是提供一种面向语义识别筛查判断的深度学习分类算法，以解决现有技术中的上述不足之处。

2、为了实现上述目的，本专利技术提供如下技术方案：

3、一种面向语义识别筛查判断的深度学习分类算法，包括利用多模态架构进行信息融合后对获取待测账户的文本信息、图像信息、语音信息进行筛查判断；

4、文本信息主要包括多段文字的读取解析，将由多个语句组成的字段按照句号的间隔进行切分，对处理后的句段分别从长度，字词含量，词语先后顺序提取相应的特征值，再将获取语句的序列模态加权平均词语序列中各字词的语义表示向量，按照句子解析树的单词顺序，将句子组织为矩阵。保证词语的先后顺序,让文本信息

5、图像信息主要是账号所接收的与文本信息相关的图片或为表现消息发送者心情的表情包，通过动态采样收集正常交流所使用到的图片提取特征值后按照标签进行划分为不同的类，包括物体、人物、景观、表情、其他等；

6、语音信息主要是账号所接收中长段音频信息，将降噪后的音频提取声音信号的语义特征向量，将采集到的语音信号数字化，转换为便于计算机存储和处理的离散的数字信号序列，然后利用傅里叶变换、线性预测以及倒谱分析这三种技术对离散的数字信号序列进行声学特征向量的提取。用神经网络识别声音中的特征向量，进行多级非线性映射，学习特征向量中包含的不同抽象层次的信息。

7、本专利技术提供的实施例中，所述判断语音信息所获取的信息是否为误发，如果是，则纳入训练样本，同时结合所选分类模型的准确率以及样本中所收信息是否为误发的可能性指数综合得出图片标签的权值因子，将其归为正类。

8、本专利技术提供的实施例中，所述判断语音信息所获取的信息是否为误发，如果不是，则计算其图片模态归属于正样本(即误发)的概率，将其划分为反类。

9、本专利技术提供的实施例中，所述判断所获取的文本信息是否为误发，如果是，则纳入训练样本，结合所选取的分类模型准确率及样本中的所收信息是否为误发的可能性指数综合得出文本判别权值因子，将其分为正类。

10、本专利技术提供的实施例中，所述判断所获取的文本信息是否为误发，如果不是，则计算其文本模态归属于正样本(即误发)的概率，再将其划分为反类。

11、本专利技术提供的实施例中，所述判断所获取的图像信息是否为误发，如果是，则纳入训练样本，同时结合所选分类模型的准确率以及样本中所收信息是否为误发的可能性指数综合得出图片标签的权值因子，将其归为正类；

12、本专利技术提供的实施例中，所述判断所获取的图像信息是否为误发，如果不是，则计算其图像模态归属于正样本(即误发)的概率，将其归划分为反类。

13、本专利技术提供的实施例中，所述结合待测账号各模态归属于正样本(即误发)的概率以及该模态判别权值因子，加权平均计算标签类得出多模态联合评估概率p，根据训练样本测算出各级消息为误发的概率阈值pth，通过比较p与pth，推断出待测账号是否为误发，并将三种信息数据进行分类。

14、本专利技术提供的实施例中，算法主要步骤包括以下：

15、步骤1：利用多模态信息采集器采集文本、图像、语音等信息；

16、步骤2：分别对各模态信息进行特征提取，各个样本的集合为数据集t；

17、步骤3：计算文本、图像、语音信息样本的变量系数w和偏倚项b；

18、步骤4：计算各模态判别权值子；

19、步骤5：计算隐藏层中每类样本模型单层输出a；

20、步骤6：计算多模态联合评估概率p；

21、步骤7：设置信息为误发的概率阈值pth；

22、步骤8：通过概率阈值比较判别待测账号是否为误发。

23、在上述技术方案中，本专利技术提供的一种面向语义识别筛查判断的深度学习分类算法，1.首次提出一种基于机器学习、深度学习模型、人工智能算法对文本信息、图像信息、语音信息等多模态信息联合分析大量账号接收的信息数据判断用户获取的信息是否为误发的筛查评估机制；2.提出了针对不同模态信息的特征提取及多分类模型训练方法，通过深度学习的方法更有利于区分消息正常或为误发，解决了多分类任务中类别不平衡的问题；3.利用各模态模型准确率与信息为误发的可能性指数及其标签数据推算出各模态判别权值因子，区分了各模态对信息误发特征的准确程度；4.利用训练样本测算出各级信息是否为误发的概率阈值pth，通过与多模态联合评估概率p的比较，判断待测账号是否为误发，并将三种信息数据进行分类。

本文档来自技高网...

【技术保护点】

1.一种面向语义识别筛查判断的深度学习分类算法，其特征在于，包括利用多模态架构进行信息融合后对获取待测账户的文本信息、图像信息、语音信息进行筛查判断；

2.根据权利要求1所述的一种面向语义识别筛查判断的深度学习分类算法，其特征在于，所述判断语音信息所获取的信息是否为误发，如果是，则纳入训练样本，同时结合所选分类模型的准确率以及样本中所收信息是否为误发的可能性指数综合得出图片标签的权值因子，将其归为正类。

3.根据权利要求1所述的一种面向语义识别筛查判断的深度学习分类算法，其特征在于，所述判断语音信息所获取的信息是否为误发，如果不是，则计算其图片模态归属于正样本(即误发)的概率，将其划分为反类。

4.根据权利要求1所述的一种面向语义识别筛查判断的深度学习分类算法，其特征在于，所述判断所获取的文本信息是否为误发，如果是，则纳入训练样本，结合所选取的分类模型准确率及样本中的所收信息是否为误发的可能性指数综合得出文本判别权值因子，将其分为正类。

5.根据权利要求1所述的一种面向语义识别筛查判断的深度学习分类算法，其特征在于，所述判断所获取的

6.根据权利要求1所述的一种面向语义识别筛查判断的深度学习分类算法，其特征在于，所述判断所获取的图像信息是否为误发，如果是，则纳入训练样本，同时结合所选分类模型的准确率以及样本中所收信息是否为误发的可能性指数综合得出图片标签的权值因子，将其归为正类。

7.根据权利要求1所述的一种面向语义识别筛查判断的深度学习分类算法，其特征在于，所述判断所获取的图像信息是否为误发，如果不是，则计算其图像模态归属于正样本(即误发)的概率，将其归划分为反类。

8.根据权利要求1-7所述的一种面向语义识别筛查判断的深度学习分类算法，其特征在于，所述结合待测账号各模态归属于正样本(即误发)的概率以及该模态判别权值因子，加权平均计算标签类得出多模态联合评估概率P，根据训练样本测算出各级消息为误发的概率阈值Pth，通过比较P与Pth，推断出待测账号是否为误发，并将三种信息数据进行分类。

9.根据权利要求8所述的一种面向语义识别筛查判断的深度学习分类算法，其特征在于，算法主要步骤包括以下：

...

【技术特征摘要】

5.根据权利要求1所述的一种面向语义识别筛查判断的深度学习分类算法，其特征在于，所述判断所获取的文本信息是否...

【专利技术属性】
技术研发人员：赵国柱，徐安琪，赵欢欢，杨斌，马俪生，李一琛，刘竞遥，张海洋，刘晓兰，孙凯传，王杨，
申请(专利权)人：滁州学院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人