一种基于机器学习和大数据处理的内容生产系统技术方案

技术编号:20242252 阅读:21 留言:0更新日期:2019-01-29 23:19
本发明专利技术公开了一种基于机器学习和大数据处理的内容生产系统,该系统包括用户管理模块、系统功能需求模块、数据管理模块、机器学习系统、特征收集系统、分析处理系统和Hadoop大数据底层系统,其中用户管理模块由用户管理和用户验证组成,其中系统功能需求模块由模板库、成果管理和回收站,其中数据管理由数据源和系统底层数据。该系统打破了传统内容的生产方式,以海量数据处理能力为基础,通过机器学习的模型算法运算来实现内容的自生产,同时机器学习的不断迭代与自适应将使得内容成果愈发精准。该系统的产生将极大的释放传统劳动力,任何有些许固化模式的内容都可以实现智能化自动生产,极大地提高社会和经济生产效率。

【技术实现步骤摘要】
一种基于机器学习和大数据处理的内容生产系统
本专利技术涉及一种生产系统,尤其是涉及一种基于机器学习和大数据处理的内容生产系统。
技术介绍
传统的内容的生产方式应用领域比较狭窄,并且需要大量的传统劳动力。该系统的本质是支持机器学习算法设计和大规模数据处理的一体化大数据机器学习系统。包括机器学习方面的模型、训练、精度问题以及大数据处理方面的数据挖掘、分布式存储、并行化计算、网络通信、局部性计算、任务调度、系统管理等诸多因素。该系统旨在利用AI机器学习和大数据处理技术自动化地进行数据采集、识别、清洗、加工、分析、模型运算与智能化输出,来实现内容的自动化生产,最终输出成果既包括结构化数据呈现、又包括文本及超文本类内容成果。
技术实现思路
本专利技术要解决的技术问题是现有传统的内容的生产方式应用领域比较狭窄,并且需要大量的传统劳动力,因此提供一种基于机器学习和大数据处理的内容生产系统,从而解决上述问题。为实现上述目的,本专利技术提供如下技术方案:一种基于机器学习和大数据处理的内容生产系统,其特征在于,该系统包括用户管理模块、系统功能需求模块、数据管理模块、机器学习系统、特征收集系统、分析处理系统和Hadoop大数据底层系统,其中用户管理模块由用户管理和用户验证组成,其中系统功能需求模块由模板库、成果管理和回收站,其中数据管理由数据源和系统底层数据。作为本专利技术的一种优选技术方案,用户管理包括本系统的用户设置主账号和子账号两个级别,主账号拥有上传模板、修改模板、查看及管理生产成果,以及管理子账号的权限;子账号拥有查看生产成果,以及由主账号指派的相应任务的操作权限;用户验证:如有需要,用于进一步进行数据源平台的权限登录验证。作为本专利技术的一种优选技术方案,模板库包括:1)模板库为在内容生成前期,需要研究及开发完成的样本库,其中集成了模型算法、数据源、加工逻辑、算法逻辑、模型逻辑、文本逻辑等;2)根据不同的内容类型及客户类型,将产生不同的模板,模板将存储在系统中,供选择性调用;3)对于系统已经开发完成的模板,管理员拥有上传模板,以及修改模板的权限;4)对于完全新的需要开发的模板,开放申请模块,可提交至系统进行判断审核是否进行下一步开发。作为本专利技术的一种优选技术方案,成果管理包括:1)新建内容任务:选择模板库和数据源,输入参数,点击一键生成,内容成果生成,手动在线校对与编辑,支持保存,指派其他用户编辑等操作,最终完成成果导出;2)进行中任务:指上一次保存下来,还需要继续进行编辑的半成品,可在此点击继续编辑直至完成;3)已完成成果:对已完成并导出的内容可重新编辑,也可删除。作为本专利技术的一种优选技术方案,回收站包括:1)用于暂时储存历史作废的内容成果;2)最长保存周期为30天,30天后自动永久清除;3)支持手动永久删除。作为本专利技术的一种优选技术方案,数据源根据不同的数据源和不同的算法模型设计,对数据源进行不同维度的存取与计算底层设计。作为本专利技术的一种优选技术方案,系统底层数据包括MySQL:业务数据库的处理、Hadoop:提供实时数据接口、文件系统:用于报告文件及文本等的处理。作为本专利技术的一种优选技术方案,机器学习系统包括核心算法库,核心算法库存储算法模型配置项等资料,通过不断的优化和提升来保证核心算法库的越发完善;步骤一:选择数据源,并训练数据、验证数据和测试数据;步骤二:模型数据:依据训练数据的特征来构建使用计算模型;步骤三:验证模型:将验证数据接入模型进行验证,并根据结果不断优化;步骤四:测试模型:使用测试数据检查被验证的模型的表现,并根据结果不断优化;步骤五:使用模型:使用完全训练好的模型在目标数据上做计算分析;步骤六:调优模型:在不断应用实践中,依据更多数据和不同的特征或调整过的参数来提升算法性能。作为本专利技术的一种优选技术方案,特征收集系统是根据业务数据的持续更新,数据源不断累加,特征指标不断丰富及提升完善,并存放于队列处理,然后分类存储;步骤一:根据数据源的特征库在获取到的元数据中抽取特征指标;步骤二:并将新抽取的特征指标更新到特征库;步骤三:分类存储及扩充;作为本专利技术的一种优选技术方案,分析处理系统包括:a、根据输入数据,判断分析并决策输出结果到业务系统中;b、判断分析决策原则:使用底层数据特征作为依赖条件;Hadoop大数据底层系统包括:a、hadoop大数据底层作为数据仓库,用于机器学习的底层数据支撑,主要用于海量数据的清洗、分析、以及数据特征和数据汇总的处理;b、数据处理完成后,使用数据分类模型进行数据归类处理。与目前技术相比,本专利技术的有益效果是:该系统打破了传统内容的生产方式,以海量数据处理能力为基础,通过机器学习的模型算法运算来实现内容的自生产,同时机器学习的不断迭代与自适应将使得内容成果愈发精准。该系统的产生将极大的释放传统劳动力,任何有些许固化模式的内容都可以实现智能化自动生产,可以广泛应用到营销活动、咨询行业、资本市场、行业研究、政府项目等领域,极大地提高社会和经济生产效率。附图说明附图用来提供对本专利技术的进一步理解,并且构成说明书的一部分,与本专利技术的实施例一起用于解释本专利技术,并不构成对本专利技术的限制。在附图中:图1为本专利技术的系统数据处理模型图;图2为本大明的机器学习系统流程图;图3为本专利技术的特征收集系统流程图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例,基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。如图1-3所示,一种基于机器学习和大数据处理的内容生产系统,该系统包括用户管理模块、系统功能需求模块、数据管理模块、机器学习系统、特征收集系统、分析处理系统和Hadoop大数据底层系统,其中用户管理模块由用户管理和用户验证组成,其中系统功能需求模块由模板库、成果管理和回收站,其中数据管理由数据源和系统底层数据。作为本专利技术的一种优选技术方案,用户管理包括本系统的用户设置主账号和子账号两个级别,主账号拥有上传模板、修改模板、查看及管理生产成果,以及管理子账号的权限;子账号拥有查看生产成果,以及由主账号指派的相应任务的操作权限;用户验证:如有需要,用于进一步进行数据源平台的权限登录验证。模板库包括:1)模板库为在内容生成前期,需要研究及开发完成的样本库,其中集成了模型算法、数据源、加工逻辑、算法逻辑、模型逻辑、文本逻辑等;2)根据不同的内容类型及客户类型,将产生不同的模板,模板将存储在系统中,供选择性调用;3)对于系统已经开发完成的模板,管理员拥有上传模板,以及修改模板的权限;4)对于完全新的需要开发的模板,开放申请模块,可提交至系统进行判断审核是否进行下一步开发。成果管理包括:1)新建内容任务:选择模板库和数据源,输入参数,点击一键生成,内容成果生成,手动在线校对与编辑,支持保存,指派其他用户编辑等操作,最终完成成果导出;2)进行中任务:指上一次保存下来,还需要继续进行编辑的半成品,可在此点击继续编辑直至完成;3)已完成成果:对已完成并导出的内容可重新编辑,也可删除。回收站包括:1)用于暂时储存历史作废的内容成果;2)最长保存周期为本文档来自技高网...

【技术保护点】
1.一种基于机器学习和大数据处理的内容生产系统,其特征在于,该系统包括用户管理模块、系统功能需求模块、数据管理模块、机器学习系统、特征收集系统、分析处理系统和Hadoop大数据底层系统,其中用户管理模块由用户管理和用户验证组成,其中系统功能需求模块由模板库、成果管理和回收站,其中数据管理由数据源和系统底层数据。

【技术特征摘要】
1.一种基于机器学习和大数据处理的内容生产系统,其特征在于,该系统包括用户管理模块、系统功能需求模块、数据管理模块、机器学习系统、特征收集系统、分析处理系统和Hadoop大数据底层系统,其中用户管理模块由用户管理和用户验证组成,其中系统功能需求模块由模板库、成果管理和回收站,其中数据管理由数据源和系统底层数据。2.根据权利要求1所述的一种基于机器学习和大数据处理的内容生产系统,其特征在于,用户管理包括本系统的用户设置主账号和子账号两个级别,主账号拥有上传模板、修改模板、查看及管理生产成果,以及管理子账号的权限;子账号拥有查看生产成果,以及由主账号指派的相应任务的操作权限;用户验证:如有需要,用于进一步进行数据源平台的权限登录验证。3.根据权利要求1所述的一种基于机器学习和大数据处理的内容生产系统,其特征在于,模板库包括:1)模板库为在内容生成前期,需要研究及开发完成的样本库,其中集成了模型算法、数据源、加工逻辑、算法逻辑、模型逻辑、文本逻辑等;2)根据不同的内容类型及客户类型,将产生不同的模板,模板将存储在系统中,供选择性调用;3)对于系统已经开发完成的模板,管理员拥有上传模板,以及修改模板的权限;4)对于完全新的需要开发的模板,开放申请模块,可提交至系统进行判断审核是否进行下一步开发。4.根据权利要求1所述的一种基于机器学习和大数据处理的内容生产系统,其特征在于,成果管理包括:1)新建内容任务:选择模板库和数据源,输入参数,点击一键生成,内容成果生成,手动在线校对与编辑,支持保存,指派其他用户编辑等操作,最终完成成果导出;2)进行中任务:指上一次保存下来,还需要继续进行编辑的半成品,可在此点击继续编辑直至完成;3)已完成成果:对已完成并导出的内容可重新编辑,也可删除。5.根据权利要求1所述的一种基于机器学习和大数据处理的内容生产系统,其特征在于,回收站包括:1)用于暂时储存历史作废的内容成果;2)最长保存周期为30天,3...

【专利技术属性】
技术研发人员:陈刚
申请(专利权)人:上海晏鼠计算机技术股份有限公司
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1