【技术实现步骤摘要】
一种分析数据的方法和系统
本专利技术涉及大数据分析技术,特别地涉及一种分析数据的方法和系统。
技术介绍
大数据是一种大规模的数据集合,其具有数据规模海量、数据流转快速、数据类型繁多和价值密度低四大特征。目前,大数据在互联网新兴行业中的价值日益凸显,其不仅能够帮助企业优化管理,还能够更精准地定位目标客户并使企业从中获益。然而,大数据的上述四大特征使得传统数据库操作工具难以在获取、存储、管理、分析方面处理大数据。例如,本领域的传统数据分析技术依赖数据分析师对数据库操作工具发布指令或完全由人工进行,工作量繁重且数据分析效率低,而且得到的分析结果可视化程度低,不利于直接应用。
技术实现思路
本专利技术的一个方面公开了一种用于分析数据集合中的数据内容的方法,包括识别所述数据集合中的字段的数据类型;获取所述数据集合的应用场景;基于输入特征确定分析模型,其中所述输入特征包括所述数据类型和所述应用场景;和根据所述分析模型对所述数据集合的数据内容进行分析。在本专利技术的实施例中,所述方法还包括准备所述数据集 ...
【技术保护点】
1.一种用于分析数据集合中的数据内容的方法,包括:/n识别所述数据集合中的字段的数据类型;/n获取所述数据集合的应用场景;/n基于输入特征确定分析模型,其中所述输入特征包括所述数据类型和所述应用场景;和/n根据所述分析模型对所述数据集合的数据内容进行分析。/n
【技术特征摘要】
1.一种用于分析数据集合中的数据内容的方法,包括:
识别所述数据集合中的字段的数据类型;
获取所述数据集合的应用场景;
基于输入特征确定分析模型,其中所述输入特征包括所述数据类型和所述应用场景;和
根据所述分析模型对所述数据集合的数据内容进行分析。
2.根据权利要求1所述的方法,还包括:
准备所述数据集合。
3.根据权利要求2所述的方法,其中,所述准备操作包括:
在源数据库中选择所述数据集合的范围;
基于所述源数据库的类型定义数据库适配器;和
通过所述数据库适配器处理所述数据集合中的元数据与数据内容。
4.根据权利要求1所述的方法,其中,所述识别操作包括:
当所述字段存在显式声明时,所述字段的所述数据类型是所述字段的所述显式声明中的数据类型,并且当所述字段不存在显式声明时,所述字段的所述数据类型是所述字段的数据内容按照数据类型转换矩阵转换出的数据类型。
5.根据权利要求1所述的方法,还包括:
对在所述识别步骤中识别的所述数据类型进行归一化。
6.根据权利要求5所述的方法,其中,所述归一化操作包括:
将所述数据类型归一化为数值、日期、布尔和字符串四种类型。
7.根据权利要求1所述的方法,其中,所述获取操作包括:
对所述字段的数据内容和描述信息中的至少一种进行NLP文本分析以得到实体或实体三元组;
运用知识图谱对所述实体或实体三元组进行知识推理以得到描述所述字段的关键词;和
将所述关键词与场景库进行匹配以获取所述应用场景。
8.根据权利要求7所述的方法,其中,所述匹配操作过滤掉无用的字段的关键词。
9.根据权利要求7所述的方法,其中,所述输入特征还包括所述字段的描述信息、实体、数据内容的度量单位中的一种或多种。
10.根据权利要求1所述的方法,其中,所述分析模型包括一种或多种统计方法、一种或多种分析函数、或其组合。
11.根据权利要求10所述的方法,其中,所述统计方法包括TopN统计、聚类统计、分段统计和相关性统计,所述分析函数包括最大值、最小值、...
【专利技术属性】
技术研发人员:黄飞,纪大猛,江敏,
申请(专利权)人:杭州数澜科技有限公司,
类型:发明
国别省市:浙江;33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。