一种内容识别的系统和方法技术方案

技术编号：25279071 阅读：15 留言：0更新日期：2020-08-14 23:09

本申请提供了一种用于数据提供系统和服务提供系统进行交互的方法。所述方法可以包括从数据提供系统获取数据训练请求和一个或多个数据集。所述方法可以包括确定一个或多个数据集的一个或多个特征向量。所述方法可以包括通过将目标扰动引入一个或多个特征向量确定扰动训练集。所述方法可以包括基于扰动训练集和损失值训练识别模型。所述方法可以包括产生包括内容识别模型的电子信号。所述方法可以进一步包括将电子信号发送到服务提供系统用于内容识别。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】一种内容识别的系统和方法
本申请一般涉及用于从大数据中进行内容识别的人工智能系统和方法。
技术介绍
在大数据时代，商业可用信息急剧增加。数据分类技术是一种组织和管理信息的方式，应用于语音识别、图像识别、文本内容识别等内容识别
数据分类技术采用模型将信息分类为一个或多个类别。然而，由于模型的鲁棒性较差，数据分类技术经常受到噪声的影响，从而导致精度较低。因此，开发人工智能(AI)系统和方法来分类数据和更准确地识别内容是合乎需要的。
技术实现思路
根据本申请的一方面，提供了一种系统。所述系统可以与数据提供系统和服务提供系统进行交互。所述系统可以包括数据交换端口，从所述数据提供系统接收一个或多个数据集，数据传输端口，连接到所述服务提供系统以进行内容识别，一个或多个存储介质，包括一个或多个训练内容识别模型的指令集，一个或多个处理器，所述处理器与所述数据交换端口，所述数据传输端口，和所述一个或多个存储介质通信。其中当执行一个或多个所述指令集时，所述一个或多个处理器可以用于执行一个或多个下述操作。所述一个或多个处理器可以从所述数据提供系统获取数据训练请求和一个或多个数据集。响应于所述数据提供系统的所述数据训练请求，所述一个或多个处理器可以确定所述一个或多个数据集的一个或多个特征向量。所述一个或多个处理器可以通过将目标扰动引入所述一个或多个特征向量确定扰动训练集。所述目标扰动与所述一个或多个特征向量的密度相关。所述一个或多个处理器可以在多次迭代中，基于所述扰动训练集和损失值训练识别模型。所述损失值可以包括...

【技术保护点】
1.一种用于数据提供系统和服务提供系统进行交互的系统，包括：/n数据交换端口，从所述数据提供系统接收一个或多个数据集；/n数据传输端口，连接到所述服务提供系统以进行内容识别；/n一个或多个存储介质，包括一个或多个训练内容识别模型的指令集；/n一个或多个处理器，所述处理器与所述数据交换端口，所述数据传输端口，和所述一个或多个存储介质通信，其中当执行一个或多个所述指令集时，所述一个或多个处理器：/n从所述数据提供系统获取数据训练请求和一个或多个数据集；/n响应于所述数据提供系统的所述数据训练请求：/n确定所述一个或多个数据集的一个或多个特征向量；/n通过将目标扰动引入所述一个或多个特征向量确定扰动训练集，其中所述目标扰动与所述一个或多个特征向量的密度相关；和/n在多次迭代中，基于所述扰动训练集和损失值训练识别模型，其中，所述损失值包括与所述目标扰动相关联的Kullback-Leibler(KL)散度；/n响应于所述识别模型的所述训练完成的确定，产生包括所述识别模型电子信号；/n将所述电子信号发送到所述服务提供系统用于内容识别。/n

【技术特征摘要】
【国外来华专利技术】1.一种用于数据提供系统和服务提供系统进行交互的系统，包括：
数据交换端口，从所述数据提供系统接收一个或多个数据集；
数据传输端口，连接到所述服务提供系统以进行内容识别；
一个或多个存储介质，包括一个或多个训练内容识别模型的指令集；
一个或多个处理器，所述处理器与所述数据交换端口，所述数据传输端口，和所述一个或多个存储介质通信，其中当执行一个或多个所述指令集时，所述一个或多个处理器：
从所述数据提供系统获取数据训练请求和一个或多个数据集；
响应于所述数据提供系统的所述数据训练请求：
确定所述一个或多个数据集的一个或多个特征向量；
通过将目标扰动引入所述一个或多个特征向量确定扰动训练集，其中所述目标扰动与所述一个或多个特征向量的密度相关；和
在多次迭代中，基于所述扰动训练集和损失值训练识别模型，其中，所述损失值包括与所述目标扰动相关联的Kullback-Leibler(KL)散度；
响应于所述识别模型的所述训练完成的确定，产生包括所述识别模型电子信号；
将所述电子信号发送到所述服务提供系统用于内容识别。

2.根据权利要求1所述的系统，其中所述一个或多个数据集包括语音段，文本文件或图像中至少一种。

3.根据权利要求1所述的系统，其中与所述目标扰动相关联的所述KL散度是所述一个或多个特征向量的概率分布与所述扰动训练集的概率分布之间的KL散度。

4.根据权利要求1所述的系统，其中所述损失值进一步包括关于所述扰动训练集的概率分布的交叉熵。

5.根据权利要求4所述的系统，其中所述一个或多个特征向量的所述概率分布根据SoftMax方法确定。

6.根据权利要求1所述的系统，其中训练所述识别模型，所述一个或多个处理器进一步：
对于多个迭代中的每一个，
基于所述扰动训练集，根据随机梯度下降(SGD)方法，更新所述一个或多个特征向量和所述识别模型的一个或多个参数；和
指定所述更新的一个或多个特征向量和所述识别模型的所述更新的一个或多个参数作为下一次迭代的输入。

7.根据权利要求1所述的系统，其中所述目标扰动被确定通过：
将初始扰动引入到所述一个或多个特征向量；
确定所述一个或多个特征向量的所述概率分布和所述一个或多个特征向量与所述初始扰动的所述概率分布之间的KL散度；
确定所述KL散度的最大值；
基于所述一个或多个特征向量的密度确定向量长度；和
基于所述KL散度的所述最大值和所述向量长度确定所述目标扰动。

8.根据权利要求1所述的系统，所述一个或多个处理器进一步：
获取数据集；和
基于所述训练后的识别模型将所述数据集分类为一个或多个组。

9.根据权利要求1所述的系统，其中分类模型包括长短期记忆模型(LSTM)。

10.一种用于数据提供系统和服务提供系统进行交互的方法，所述方法在包括至少一个处理器以及至少一个计算机可读存储介质的计算设备上实施，所述方法包括：
从所述数据提供系统获取数据训练请求和一个或多个数据集；
响应于所述数据提供系统的所述数据训练请求：
...

【专利技术属性】
技术研发人员：李晓辉，贺利强，
申请(专利权)人：北京嘀嘀无限科技发展有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人