当前位置: 首页 > 专利查询>吉林大学专利>正文

一种多源异构数据融合平台及融合方法技术

技术编号:17138778 阅读:19 留言:0更新日期:2018-01-27 14:39
本发明专利技术涉及一种多源异构数据融合平台及融合方法,融合平台包括数据采集单元、数据存储单元、数据标准化单元、用户画像构建单元、知识图谱构建单元和可视化单元;数据采集单元用于采集多源异构数据;数据存储单元用于对多源异构数据进行缓存;数据标准化单元对多源异构数据进行词法、语法和/或语义分析,得到标准化文本数据;用户画像构建单元利用量化出的学生标签构建学生的用户画像;知识图谱构建单元构建学生的知识图谱、老师的知识图谱和课程的知识图谱,并将课程的知识图谱、学生的知识图谱和老师的知识图谱进行关联,得到以学生为中心的课程联系、社交关系和师生关系;可视化单元对以学生为中心的课程联系、社交关系和师生关系进行显示。

A multi source heterogeneous data fusion platform and fusion method

The invention relates to a heterogeneous data integration platform and fusion method. The fusion platform includes a data acquisition unit, data storage unit, data standardization unit, construction unit, user portrait knowledge mapping unit and visualization unit; data acquisition unit is used for collecting multi-source heterogeneous data; data storage unit for caching of multi-source heterogeneous data; data the standard unit of lexical, syntactic and / or semantic analysis of multi-source data, get the standard text data; the user portrait construction unit out of the students by using the quantitative structure label user portrait built student; knowledge map map construction of knowledge map, knowledge of the construction of teacher student unit map and curriculum, and knowledge map knowledge map, knowledge of the students and teachers of the association, to get students to The curriculum links, social relationships, and teacher-student relationships of the heart; the visual unit displays the student - centered curriculum, social and teacher-student relationships.

【技术实现步骤摘要】
一种多源异构数据融合平台及融合方法
本专利技术属于计算机
,具体涉及一种多源异构数据融合平台及融合方法。
技术介绍
随着信息技术的飞速发展,当今社会进入了信息爆炸时代,学生信息资源的数量越来越多。然而,大量的学生相关数据存储在多个信息孤岛中,难以被整合和关联,使得人们无法充分挖掘大数据所带来的价值。而现如今市场上大多的有关学生信息的知识库仍属于信息管理系统,其具有信息查询、个人资料管理、成绩统计等功能,并不能提供智能的检索和分析服务来帮助学生更好的对学习行为进行改进以及为个人的职业发展提供决策支持。
技术实现思路
为了解决现有技术存在的上述问题,本专利技术提供了一种学生多源异构数据融合平台及融合方法。本专利技术所采用的技术方案为:一种多源异构数据融合平台包括数据采集单元、数据存储单元、数据标准化单元、用户画像构建单元、知识图谱构建单元和可视化单元;所述数据采集单元用于采集多源异构数据;所述数据存储单元将采集到的多源异构数据进行缓存;所述数据标准化单元从所述数据存储单元中读取多源异构数据,并对多源异构数据进行词法、语法和/或语义分析,得到标准化文本数据;所述用户画像构建单元从标准化文本数据中提取出学生的动态信息数据和静态信息数据,并根据提取的数据量化出学生标签,利用量化出的学生标签构建学生的用户画像;所述知识图谱构建单元根据课程内容构建课程的知识图谱,根据学生的用户画像构建学生的知识图谱,根据老师的教学数据构建老师的知识图谱;并将课程的知识图谱、学生的知识图谱和老师的知识图谱进行关联,得到以学生为中心的课程联系、社交关系和师生关系;所述可视化单元对得到的以学生为中心的课程联系、社交关系和师生关系进行显示。进一步地,所述多源异构数据包括学生数据、企业数据、高校数据、留学机构数据和政府机构数据;所述学生数据包括课堂表现、成绩、技能、性格、社交和求职意向;所述企业数据包括职位需求、企业状况和薪资;所述高校数据包括专业需求、分数要求、毕业去向和毕业薪资;所述留学机构数据包括留学需求、学费和留学生分布;所述政府机构数据包括职位需求和薪资。进一步地,所述对多源异构数据进行词法、语法和/或语义分析包括对多源异构数据的原始文本数据基于词法、语法和/或语义分析进行结构化处理和分词处理。进一步地,所述知识图谱构建单元包括信息抽取单元、信息表示单元和构建单元;所述信息抽取单元用于从标准化文本数据中抽取事实信息,事实信息包括实体、属性、实体之间的关系以及实体与属性之间的关系;所述信息表示单元采用预设表现形式对事实信息进行结构化表示,得到事实信息的结构化数据对;所述构建单元将结构化数据对作为知识条目构建知识图谱。进一步地,所述预设表现形式采用N元组的表现形式对事实信息进行结构化表示。一种多源异构数据融合方法包括以下步骤:获取多源异构数据;对获取的多源异构数据进行缓存;对多源异构数据进行标准化处理,得到标准化文本数据;从标准化文本数据中提取出学生的动态信息数据和静态信息数据,构建学生的用户画像;根据学生的用户画像构建学生的知识图谱,根据老师的用户画像构建老师的知识图谱,根据课程内容构建课程的知识图谱;将课程的知识图谱、学生的知识图谱和老师的知识图谱进行关联,得到以学生为中心的课程联系、社交关系和师生关系;将以学生为中心的课程联系、社交关系和师生关系进行可视化呈现。更进一步地,所述学生课堂表现数据采用智能手表、LeapMotion体感控制器或摄像头进行获取。更进一步地,所述企业数据、高校数据、留学机构数据和政府机构数据采用网页抓取方法从资源网站中获取。进一步地,所述构建学生的用户画像的具体过程为:从标准化文本数据中提取出学生的动态信息数据和静态信息数据;动态数据包括学习行为、生活行为和行为习惯数据,静态信息数据包括年龄、身高和性格数据;根据提取的数据量化得到学生标签;学生标签包括技能标签、生活标签和学习标签;将学生标签集合在一起构建出学生的用户画像。由于采用以上技术方案,本专利技术的有益效果为:本专利技术使用知识图谱、大数据分析及智能搜索等相关技术设计并开发多源异构数据融合平台,并通过平台的数据服务为高校和学生提供决策支持能力。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。显而易见,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术一实施例提供的一种多源异构数据融合平台的结构示意图;图2是本专利技术一实施例提供的一种多源异构数据融合方法的流程图。图中:1-数据采集单元;2-数据存储单元;3-数据标准化单元;4-用户画像构建单元;5-知识图谱构建单元;6-可视化单元。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚,下面将对本专利技术的技术方案进行详细的描述。显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施方式,都属于本专利技术所保护的范围。知识图谱旨在描述真实世界中存在的各种实体或概念,每个实体或概念用一个全局唯一确定的ID(Identity,身份标识号)来标识。每个属性-值对用来刻画实体的内在特性,而关系用来连接两个实体,刻画它们之间的关联。知识图谱亦可被看作是一张巨大的网状图,网状图中的节点表示实体或概念,而网状图中的边则由属性或关系构成。知识图谱主要就是构建和维护上述的实体和关系,为搜索中的推荐系统、语义理解、问题回答等提供支持。此外,知识图谱并不是一张静态的网状图,它会根据外界的变化而进行自我调整与更新。如图1所示,本专利技术提供了一种多源异构数据融合平台,其包括数据采集单元1、数据存储单元2、数据标准化单元3、用户画像构建单元4、知识图谱构建单元5和可视化单元6。数据采集单元1用于采集学生数据、企业数据、高校数据、留学机构数据、政府机构数据等多源异构数据。学生数据包括课堂表现、成绩、技能、性格、社交和求职意向等数据。企业数据包括职位需求、企业状况、薪资等数据。高校数据包括专业需求、分数要求、毕业去向、毕业薪资等数据。留学机构数据包括留学需求、学费和留学生分布等数据。政府机构数据包括职位需求和薪资等数据。数据采集单元1采集到的多源异构数据传输至数据存储单元2进行缓存。数据存储单元2将采集到的多源异构数据进行缓存,运行在服务器的内存中,在服务器运行相对空闲或占用内存量过大时,把数据存入数据库中,以确保数据的高速存储与持久化存储的协同运转。数据标准化单元3从数据存储单元2中读取多源异构数据,并对多源异构数据进行词法、语法和/或语义分析,得到标准化文本数据。对多源异构数据进行词法、语法和/或语义分析包括对多源异构数据的原始文本数据基于词法、语法和/或语义分析进行结构化处理和分词处理等操作。用户画像构建单元4从标准化文本数据中提取出学生的动态信息数据和静态信息数据。其中,动态信息数据包括学习行为、生活行为和行为习惯等数据。静态信息数据包括年龄、身高和性格等数据。用户画像构建单元4根据提取的数据量化出学生标签,学生标签包括技能标签、生活标签和学习标签等。利用量化出的学生标签构建学生本文档来自技高网...
一种多源异构数据融合平台及融合方法

【技术保护点】
一种多源异构数据融合平台,其特征在于,它包括数据采集单元、数据存储单元、数据标准化单元、用户画像构建单元、知识图谱构建单元和可视化单元;所述数据采集单元用于采集多源异构数据;所述数据存储单元将采集到的多源异构数据进行缓存;所述数据标准化单元从所述数据存储单元中读取多源异构数据,并对多源异构数据进行词法、语法和/或语义分析,得到标准化文本数据;所述用户画像构建单元从标准化文本数据中提取出学生的动态信息数据和静态信息数据,并根据提取的数据量化出学生标签,利用量化出的学生标签构建学生的用户画像;所述知识图谱构建单元根据课程内容构建课程的知识图谱,根据学生的用户画像构建学生的知识图谱,根据老师的教学数据构建老师的知识图谱;并将课程的知识图谱、学生的知识图谱和老师的知识图谱进行关联,得到以学生为中心的课程联系、社交关系和师生关系;所述可视化单元对得到的以学生为中心的课程联系、社交关系和师生关系进行显示。

【技术特征摘要】
1.一种多源异构数据融合平台,其特征在于,它包括数据采集单元、数据存储单元、数据标准化单元、用户画像构建单元、知识图谱构建单元和可视化单元;所述数据采集单元用于采集多源异构数据;所述数据存储单元将采集到的多源异构数据进行缓存;所述数据标准化单元从所述数据存储单元中读取多源异构数据,并对多源异构数据进行词法、语法和/或语义分析,得到标准化文本数据;所述用户画像构建单元从标准化文本数据中提取出学生的动态信息数据和静态信息数据,并根据提取的数据量化出学生标签,利用量化出的学生标签构建学生的用户画像;所述知识图谱构建单元根据课程内容构建课程的知识图谱,根据学生的用户画像构建学生的知识图谱,根据老师的教学数据构建老师的知识图谱;并将课程的知识图谱、学生的知识图谱和老师的知识图谱进行关联,得到以学生为中心的课程联系、社交关系和师生关系;所述可视化单元对得到的以学生为中心的课程联系、社交关系和师生关系进行显示。2.如权利要求1所述的一种多源异构数据融合平台,其特征在于,所述多源异构数据包括学生数据、企业数据、高校数据、留学机构数据和政府机构数据;所述学生数据包括课堂表现、成绩、技能、性格、社交和求职意向;所述企业数据包括职位需求、企业状况和薪资;所述高校数据包括专业需求、分数要求、毕业去向和毕业薪资;所述留学机构数据包括留学需求、学费和留学生分布;所述政府机构数据包括职位需求和薪资。3.如权利要求1所述的一种多源异构数据融合平台,其特征在于,所述对多源异构数据进行词法、语法和/或语义分析包括对多源异构数据的原始文本数据基于词法、语法和/或语义分析进行结构化处理和分词处理。4.如权利要求1或2或3所述的一种多源异构数据融合平台,其特征在于,所述知识图谱构建单元包括信息抽取单元、信息表示单元和构建单元;所述信息抽取单元用于从标准化文本数据中抽取事实信息,事实信息包括实体、属性、实体之间的关系以及实体与属性之间的关系;所述信息表示单元采用预设表现形式对事实信息进行结构化表示,得到事实信息的结构化数据对...

【专利技术属性】
技术研发人员:徐昊
申请(专利权)人:吉林大学
类型:发明
国别省市:吉林,22

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1