面向非结构化信息的特征判别与信息推荐系统技术方案

技术编号：23085089 阅读：30 留言：0更新日期：2020-01-11 01:09

本发明专利技术提供了一种基于机器学习技术的算法框架，以软件的形式实现。本项发明专利技术针对非结构化数据的提取、综合、判别与关联，以机器学习建模技术作为技术基础，在模型设计方面以独有的创新形式构建出可以对非结构化数据实体进行关联度分析，实现特征判别和信息推荐功能。该项技术可用广泛的应用于智能商业应用环境中的各种复杂信息推荐和文化教育应用中的学术信息推荐场景。特别是对海量的、具有高维度数据特性集合、且以非结构化数据特性为主的信息进行特征判别并形成信息关联。

Feature discrimination and information recommendation system for unstructured information

全部详细技术资料下载

【技术实现步骤摘要】
面向非结构化信息的特征判别与信息推荐系统
本专利技术属于涉及信息
，尤其是涉及采用深度神经网络对不同类型的非结构化数据进行特征提取和判别，并通过特征关联构建信息推荐服务。该项技术可以用来实现对各种复杂的非结构化信息进行关联，特别是根据当前信息和指定场景，判别与之相关的信息集合。该项技术可用广泛的应用于商业智能应用环境中的各种复杂信息推荐和文化教育应用中的学术信息推荐场景。
技术介绍
智能系统已经广泛应用于各类场景，处了判别类应用之外，在商业和学术环境中更多的是对知识和信息的关联，和由此产生的信息推荐系统，例如：商品推荐、文本信息推荐等。随着应用场景和需求的不断发展，越来越多的数据增量来自于不同类型的非结构化数据，因此如何定位非结构化数据的特征、如何提取非结构化信息之间的关联度为智能应用提供信息分析服务需要克服的技术挑战。传统的信息关联算法通过对结构化单体(通常是结构化数据，例如实物的名称，或商品的名称)出现场景和频率的统计，构建单结构化体间的信息关联。而对于非结构化单体数据，由于其可能的表达多种多样(例如同一人物的照片可能有很多种拍摄角度，从而在此多种表达)，无法形成精确的归类判别，对信息关联造成了巨大的障碍。深度神经网络已经广泛应用于不同类型的人工智能数据判别和分析领域，在对非结构化数据处理方面页取得了良好的进展。特别是在自然语言处理方面，基于递归神经网络和其变体的神经网络技术已经可以很好的应用于语音识别和语音、文本特征提取。在图形图像领域，深度卷积网络和其变体已经广泛应用于智能安防、医疗健康...

【技术保护点】
1.面向非结构化信息的特征判别与信息推荐系统，包括：提供了一种基于机器学习技术的算法框架，以软件的形式实现。该框架能够进行自动化特征判别，并结合信息关联构建信息推荐系统。本专利技术侧重于对海量具有高维度数据特性集合、且以非结构化数据特性为主的信息进行特征判别，并结合信息关联，生成根据用户给定信息生成相应的推荐信息的机器学习模型。不同于针对结构化信息的推荐系统，目前广泛出现在学术和商业场景中的数据更多表示为非结构化(如图像，音视频，文本信息等)，因此如何将这些信息有效的利用，需要强有力的特征提取、综合与判别能力。本项专利技术针对非结构化数据的提取、综合、判别与关联构成的挑战，以机器学习建模技术作为技术基础，在模型设计方面以独有的创新形式构建出可以对非结构化数据而非以往的结构化数据实体进行关联度分析，实现特征判别和信息推荐功能。该项技术可用广泛的应用于智能商业应用环境中的各种复杂信息推荐和文化教育应用中的学术信息推荐场景。/n

【技术特征摘要】
1.面向非结构化信息的特征判别与信息推荐系统，包括：提供了一种基于机器学习技术的算法框架，以软件的形式实现。该框架能够进行自动化特征判别，并结合信息关联构建信息推荐系统。本发明侧重于对海量具有高维度数据特性集合、且以非结构化数据特性为主的信息进行特征判别，并结合信息关联，生成根据用户给定信息生成相应的推荐信息的机器学习模型。不同于针对结构化信息的推荐系统，目前广泛出现在学术和商业场景中的数据更多表示为非结构化(如图像，音视频，文本信息等)，因此如何将这些信息有效的利用，需要强有力的特征提取、综合与判别能力。本项发明针对非结构化数据的提取、综合、判别与关联构成的挑战，以机器学习建模技术作为技术基础，在模型设计方面以独有的创新形式构建出可以对非结构化数据而非以往的结构化数据实体进行关联度分析，实现特征判别和信息推荐功能。该项技术可用广泛的应用于智能商业应用环境中的各种复杂信息推荐和文化教育应用中的学术信息推荐场景。

2.发明设计了一种面向非结构化数据信息关联的分析技术框架，该框架用以实现对不同数据类型的非结构化信息实现关联和映射，从而实现以信息体之间以相关形式出现的频度来判别不同信息体间的关联度的模型(参见图3)。具体包括：对音频类型的非机构和信息的特征向量表达能力：对音频信号通过递归神经网络网络实现编码，即向量化；对文本类型的非结构化信息的特征提取和向量化表达，所用算法以doc2vec为基础，该算法是google词向量技术的扩展，通过采用针对宽采样窗体(采样宽度为200)来实现对一般医疗图片和建筑场景描述的文本信息的精确特征捕捉和特征向量生成(参见图4)；对图片类型的非结构化信息的特征向量化表达能力：使用以残差网络resnet为基础的特征提取算法，该网络以深度卷积网络为基础，通过引入残差连接，避免了因增加网络深度导致的信息丢失。采用深度残差网络可以更有效的提取复杂图片的特征，特别是网络深度可以有效满足不同类型的信息提取和向量化需求(参见图4)；对视频类型的非结构化信息的特征向量表达能力：视频信息的特征向量生成需要采用3中的基于图片的特征向量生成技术对从视频中定期截取的帧进行编码(生成特征向量)，再将向量集合通过递归神经网络网络实现再编码，从而生成视频信息对应的特征向量；基于特征的信息分类：通过以几何距离的方...

【专利技术属性】
技术研发人员：赵继胜，吴宇，
申请(专利权)人：上海孚典智能科技有限公司，
类型：发明
国别省市：上海;31

全部详细技术资料下载我是这个专利的主人