面向非结构化信息的特征判别与信息推荐系统技术方案

技术编号:23085089 阅读:30 留言:0更新日期:2020-01-11 01:09
本发明专利技术提供了一种基于机器学习技术的算法框架,以软件的形式实现。本项发明专利技术针对非结构化数据的提取、综合、判别与关联,以机器学习建模技术作为技术基础,在模型设计方面以独有的创新形式构建出可以对非结构化数据实体进行关联度分析,实现特征判别和信息推荐功能。该项技术可用广泛的应用于智能商业应用环境中的各种复杂信息推荐和文化教育应用中的学术信息推荐场景。特别是对海量的、具有高维度数据特性集合、且以非结构化数据特性为主的信息进行特征判别并形成信息关联。

Feature discrimination and information recommendation system for unstructured information

【技术实现步骤摘要】
面向非结构化信息的特征判别与信息推荐系统
本专利技术属于涉及信息
,尤其是涉及采用深度神经网络对不同类型的非结构化数据进行特征提取和判别,并通过特征关联构建信息推荐服务。该项技术可以用来实现对各种复杂的非结构化信息进行关联,特别是根据当前信息和指定场景,判别与之相关的信息集合。该项技术可用广泛的应用于商业智能应用环境中的各种复杂信息推荐和文化教育应用中的学术信息推荐场景。
技术介绍
智能系统已经广泛应用于各类场景,处了判别类应用之外,在商业和学术环境中更多的是对知识和信息的关联,和由此产生的信息推荐系统,例如:商品推荐、文本信息推荐等。随着应用场景和需求的不断发展,越来越多的数据增量来自于不同类型的非结构化数据,因此如何定位非结构化数据的特征、如何提取非结构化信息之间的关联度为智能应用提供信息分析服务需要克服的技术挑战。传统的信息关联算法通过对结构化单体(通常是结构化数据,例如实物的名称,或商品的名称)出现场景和频率的统计,构建单结构化体间的信息关联。而对于非结构化单体数据,由于其可能的表达多种多样(例如同一人物的照片可能有很多种拍摄角度,从而在此多种表达),无法形成精确的归类判别,对信息关联造成了巨大的障碍。深度神经网络已经广泛应用于不同类型的人工智能数据判别和分析领域,在对非结构化数据处理方面页取得了良好的进展。特别是在自然语言处理方面,基于递归神经网络和其变体的神经网络技术已经可以很好的应用于语音识别和语音、文本特征提取。在图形图像领域,深度卷积网络和其变体已经广泛应用于智能安防、医疗健康等领域,对图片的特征提取已经取得了长足进步。本项专利技术通过提供一种针对多种非结构化数据进行特征提取,以此来建立基于特征(参见图2)的信息归类,在归类基础上进行信息关联的判别,从而实现了对非结构化信息的关联性判别(参见图1)。该项技术可以作为智能信息推荐引擎的基础技术平台,为商业智能(产品推荐)和学术研究(相关信息检索和搜索)提供有效支持。
技术实现思路
本项专利技术设计了一种面向非结构化数据信息关联的分析技术框架,该框架用以实现对不同数据类型的非结构化信息实现关联和映射,从而实现以信息体之间以相关形式出现的频度来判别不同信息体间的关联度的模型(参见图3)。具体包括:1.对音频类型的非机构和信息的特征向量表达能力:对音频信号通过递归神经网络网络实现编码,即向量化;2.对文本类型的非结构化信息的特征提取和向量化表达,所用算法以doc2vec为基础,该算法是google词向量技术的扩展,通过采用针对宽采样窗体(采样宽度为200)来实现对一般医疗图片和建筑场景描述的文本信息的精确特征捕捉和特征向量生成(参见图4);3.对图片类型的非结构化信息的特征向量化表达能力:使用以残差网络resnet为基础的特征提取算法,该网络以深度卷积网络为基础,通过引入残差连接,避免了因增加网络深度导致的信息丢失。采用深度残差网络可以更有效的提取复杂图片的特征,特别是网络深度可以有效满足不同类型的信息提取和向量化需求(参见图4);4.对视频类型的非结构化信息的特征向量表达能力:视频信息的特征向量生成需要采用3中的基于图片的特征向量生成技术对从视频中定期截取的帧进行编码(生成特征向量),再将向量集合通过递归神经网络网络实现再编码,从而生成视频信息对应的特征向量(参见图4);5.基于特征的信息分类:通过以几何距离的方式进行信息聚类操作,实现细粒度归类,每个信息单体以其特征向量所在的类别来标识,信息聚类的算法以kmeans为主(参见图4);6.基于信息单体集合中不同的信息组合建立以频度为基础的信息关联模型,输入信息单体通过5中的类型标识来表示,所用的关联模型构建算法为FP-Growth(参见图4)。面向非结构化数据信息关联的分析技术框架的构建包括如下步骤:1.构建特征提取训练模型:a.对于文本类型的特征提取模型:使用doc2vec技术在收集的文本素材上构建文本向量化模型;b.对于图片类型的特征提取模型:收集图片和分类标注信息作为训练样本,通过resnet网络架构训练深度神经网络,并以训练好的网络的全连接层输出作为特征提取向量输出;c.对于通过递归神经网络进行特征向量生成的音视频信息,通过以标签(通常采用音视频名称或作者)来表识训练数据集,建立基于递归神经网络的预测模型,再以训练好的递归神经网络模型的序列编码作为输出,即生成特征向量。2.信息分类模型构建:a.采用基于kmeans的聚类算法,以细粒度的分类方式将每一种非结构化信息进行归类(类型设置一般为大于20);b.将每一种非结构化信息的单体依据归类进行标识;3.建立信息关联模型:a.构建以信息归类为基础的关联集合作为训练数据,例如(照片1,照片2,文本1)同时出现,将这组数据作为信息单体‘照片1’,‘照片2’和‘文本1’的关联集合,‘照片1’的类型为‘p1’,‘照片2’的类型为‘p3’,‘文本1’的类型为‘t5’,原信息关联集合(照片1,照片2,文本1)被修改为(p1,p3,t5);b.以修改后的信息关联集合作为训练数据,通过FP-Growth算法建立信息关联模型,该模型可以预测当某个信息单体类型Tx出现时,最有可能出显的其他信息单体类型;4.查询信息关联:对于给定的非结构化信息单体x,预测最有可能与之相关的信息单体集合本项专利技术的上述技术方案有益结果如下:在商业智能、学术信息分析、金融智能投研领域,需要针对海量的非结构化信息作信息关联,以简化人工处理和搜索的工作量。越来越多的智能系统采用机器学习算法作为信息关联的技术基础。但之前的技术局限于对明确的结构化信息单体进行关联分析,对应非机构化数据,由于其相似度相对模糊,因此容易造成关联判别分类时的困难和最终形成的关联模型准确度大幅降低。因此需要一种针对非结构化数据的关联分析解决方案。本项专利技术通过使用深度神经网络实现对非结构化信息的特征向量生成,结合细粒度的信息归类,将非结构化信息转换为近似结构化信息单体的表达方式,在通过以频度为基础的机器学习算法构建关联度模型。在查询方面,用户数据的非结构化信息可以通过特征向量进行归类,并基于之前的关联度模型找到与之相关的信息类型,通过反向查询该类型对应的信息找到关联的信息。本项专利技术为实现商业智能提供了更为精确的非结构化信息关联技术,面向大规模的非结构化数据推荐、搜索和分析,提供了高效的技术平台。附图说明图1内容关联与推荐技术框架图2特征向量生成图3内容关联/推荐系统建模技术框架图4内容关联/推荐系统建模技术实现图5内容关联与推荐技术实现具体实施方式根据
技术实现思路
中所阐述的构建面向非结构化数据信息关联的分析技术框架,其具体实现如下几节所述:构建特征提取训练模型:a.对音频类型的非机构和信息的特征向量表达能力:对音频信号通过递归神经网络网络实现编码,递归神经网络的结构为2000个输入单元本文档来自技高网
...

【技术保护点】
1.面向非结构化信息的特征判别与信息推荐系统,包括:提供了一种基于机器学习技术的算法框架,以软件的形式实现。该框架能够进行自动化特征判别,并结合信息关联构建信息推荐系统。本专利技术侧重于对海量具有高维度数据特性集合、且以非结构化数据特性为主的信息进行特征判别,并结合信息关联,生成根据用户给定信息生成相应的推荐信息的机器学习模型。不同于针对结构化信息的推荐系统,目前广泛出现在学术和商业场景中的数据更多表示为非结构化(如图像,音视频,文本信息等),因此如何将这些信息有效的利用,需要强有力的特征提取、综合与判别能力。本项专利技术针对非结构化数据的提取、综合、判别与关联构成的挑战,以机器学习建模技术作为技术基础,在模型设计方面以独有的创新形式构建出可以对非结构化数据而非以往的结构化数据实体进行关联度分析,实现特征判别和信息推荐功能。该项技术可用广泛的应用于智能商业应用环境中的各种复杂信息推荐和文化教育应用中的学术信息推荐场景。/n

【技术特征摘要】
1.面向非结构化信息的特征判别与信息推荐系统,包括:提供了一种基于机器学习技术的算法框架,以软件的形式实现。该框架能够进行自动化特征判别,并结合信息关联构建信息推荐系统。本发明侧重于对海量具有高维度数据特性集合、且以非结构化数据特性为主的信息进行特征判别,并结合信息关联,生成根据用户给定信息生成相应的推荐信息的机器学习模型。不同于针对结构化信息的推荐系统,目前广泛出现在学术和商业场景中的数据更多表示为非结构化(如图像,音视频,文本信息等),因此如何将这些信息有效的利用,需要强有力的特征提取、综合与判别能力。本项发明针对非结构化数据的提取、综合、判别与关联构成的挑战,以机器学习建模技术作为技术基础,在模型设计方面以独有的创新形式构建出可以对非结构化数据而非以往的结构化数据实体进行关联度分析,实现特征判别和信息推荐功能。该项技术可用广泛的应用于智能商业应用环境中的各种复杂信息推荐和文化教育应用中的学术信息推荐场景。


2.发明设计了一种面向非结构化数据信息关联的分析技术框架,该框架用以实现对不同数据类型的非结构化信息实现关联和映射,从而实现以信息体之间以相关形式出现的频度来判别不同信息体间的关联度的模型(参见图3)。具体包括:对音频类型的非机构和信息的特征向量表达能力:对音频信号通过递归神经网络网络实现编码,即向量化;对文本类型的非结构化信息的特征提取和向量化表达,所用算法以doc2vec为基础,该算法是google词向量技术的扩展,通过采用针对宽采样窗体(采样宽度为200)来实现对一般医疗图片和建筑场景描述的文本信息的精确特征捕捉和特征向量生成(参见图4);对图片类型的非结构化信息的特征向量化表达能力:使用以残差网络resnet为基础的特征提取算法,该网络以深度卷积网络为基础,通过引入残差连接,避免了因增加网络深度导致的信息丢失。采用深度残差网络可以更有效的提取复杂图片的特征,特别是网络深度可以有效满足不同类型的信息提取和向量化需求(参见图4);对视频类型的非结构化信息的特征向量表达能力:视频信息的特征向量生成需要采用3中的基于图片的特征向量生成技术对从视频中定期截取的帧进行编码(生成特征向量),再将向量集合通过递归神经网络网络实现再编码,从而生成视频信息对应的特征向量;基于特征的信息分类:通过以几何距离的方...

【专利技术属性】
技术研发人员:赵继胜吴宇
申请(专利权)人:上海孚典智能科技有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1