一、背景
大量原来线下的业务电子化之后,产生了很多的数据,这些数据除了能够支撑业务正常运转,也能够使分析人员针对整个企业的运转情况进行分析。比如,本周与上周相比销量增加还是减少了?原因是什么? 产品的库存周期长了还是短了?哪些产品需要及时补充库存?哪些供应商提供的商品,成本低、质量好、及时供货、客户比较喜欢?哪些地方的支出变多了?用户对我的产品满意吗?客户发生了哪些变化?需要招人吗?招什么样的人? 上面这些问题分别涉及 销售、库存、采购、会计、客户、HR等各个层面。
二、业务型系统与分析型系统的区别 OLTP VS OLAP
OLTP:代表具体的操作,是对原来线下操作的模拟。
OLAP:关注整体的分析和决策。BI之前叫作决策支撑系统。
三、数据仓库是什么
OLAP关注分析,需要更宏观的数据视野(大量的细节会使人看不清楚),需要做跨系统的数据整合。业务型的数据专注于具体的操作,不适合做分析。数据仓库的核心是把所有系统的数据进行集成,保证数据的一致性,并且要能反映出业务系统的变化(支持敏捷开发,增量开发)。这是一个艰巨的任务,比如同一个东西一个表叫id,一个表叫seq,业务里存1行,仓库里可能需要2行。
四、数据模型是什么?(数据结构)
数据仓库里的数据怎么存储?(关系模型还是数据立方体?文件还是图片?)彼此间的关系怎么定义?怎么样反应业务系统里的变化?怎么样使存储上省空间?怎么样使查询更快?怎么样方便的出报表?怎么样实现增量开发和敏捷开发(避免返工)?怎么样定义跨多个业务系统的数据?……
五、ETL 是什么
把数据模型定义的结构,具体实现的过程。在大数据出现之前,业务系统和仓库都是结构化的数据,对应的ETL的接口主要是sql。大数据时代,ETL的具体实现技术是类似于 map reduce的任务,hivesql等。
六、数据部门需要做的事情
1、搭建好能够支撑离线分析和实时分析的整体技术架构平台。具体的会涉及到 数据埋点、数据同步、分布式作业调度和计算、消息队列、流式计算、对外提供服务的方式等
2、具体数据模型的设计和实现(ETL和数据仓库)
3、针对具体应用的报表
4、使用机器学习等技术实现的模型
七、大数据部门的人员角色划分
1、计算机技术人员 熟悉数据埋点、抓取、消息队列、hdfs spark storm hbase hive 等分布式技术的人员
2、数据建模人员 分析业务,设计数据仓库的模型,通过第一类人的技术实现仓库的构建
3、数据挖掘/分析人员 具体的设计模型、报表等
八、业界事实标准
1、数据模型--kimball的维度模型。简单概括:1》 使用企业数据仓库总线做数据仓库总体架构设计。2》 将世界描述为相对静态的实体(维度表)和实体之间的交互(事实表)3》 事实表代表维度的关联关系 4》用一致性维度实现数据的集成和敏捷开发 5》 用持久性代理键标记实体
2、大数据仓库相关的技术体系
hdfs HBase hive ElasticSearch Flume Kafka storm Spark
总结:大数据仓库是数据仓库的延伸。数据仓库的目标是数据集成和反应数据变化的过程,大数据相关的技术是为了数据仓库服务的。具体的分析和应用基于数据仓库展开。即 大数据技术->仓库--》分析应用
相关推荐
大数据技术 数据仓库设计与开发技术 数据仓库建模与ETL实践技巧 共8页.pdf
大数据技术 数据仓库设计与开发技术 ETL构建数据仓库五步法 共9页.pdf
数据仓库建模与ETL的实践技巧 数据仓库建设规范模板 数据仓库设计-221页 数据仓库生命周期工具箱 数据仓库体系架构、主要过程与技术介绍 数据仓库之数据质量建设方案 数据仓库ETL工具箱 数据人进化宝典-813页(数据...
4. 简述数据仓库中的表的基本类型,以及为了保证引用完整性该以什么样的顺序对它们进行加载。 5. 在 ETL过程中四个基本的过程分别是什么? 6. 从 ERP源系统中抽取数据最好的方法是什么? 7. 简述直接连接数据库和...
⼤数据什么是 ⼤数据什么是ETL ETL 概念 概念 ETL 这个术语来源于数据仓库,ETL 指的是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程。ETL 的⽬的是将企业中的 分散、零乱、标准不统⼀的数据整合到⼀...
大数据-算法-支持数据仓库国际化的ETL技术中若干关键问题研究和实践.pdf
大数据-算法-教学质量分析与评估系统的数据仓库模型与ETL设计.pdf
大数据集市建设及数据管理方法 目录 数据集市 数据集市 数据集市: – 数据仓库的子集 – 经过ETL流程的一定粒度汇总数据 – 面向部门级业务 – 针对特定主题的数据集 – 星型模式(不遵循3NF结构) – 缓解仓库访问...
第02章 数据仓库、商业智能、OLAP和数据挖掘 共64页.ppt 第03章 定义数据仓库概念和术语 共46页.ppt 第04章 业务、逻辑、维度和物理建模 共66页.ppt 第05章 数据库大小、存储、性能和安全注意事项 共52页.ppt 第06章...
第02章 数据仓库、商业智能、OLAP和数据挖掘 共64页.ppt 第03章 定义数据仓库概念和术语 共46页.ppt 第04章 业务、逻辑、维度和物理建模 共66页.ppt 第05章 数据库大小、存储、性能和安全注意事项 共52页.ppt 第06章...
第02章 数据仓库、商业智能、OLAP和数据挖掘 共64页.ppt 第03章 定义数据仓库概念和术语 共46页.ppt 第04章 业务、逻辑、维度和物理建模 共66页.ppt 第05章 数据库大小、存储、性能和安全注意事项 共52页.ppt 第06章...
利用ETL工具将分布的、异构数据源中的数据,抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中 D.利用日志采集工具把实时采集的数据作为流计算系统的输入,进行实时处理分析 正确答案:A 2、...
数据仓库etl工具箱 数据仓库分析系统整体设计方案模板 数据仓库工具箱 维度建模权威指南(第3版) 数据仓库和数据挖掘的OLAP 数据仓库和数据挖掘课件 数据仓库和数据挖掘综述 数据仓库及应用-数据仓库 数据仓库技术...
【目录】 概述 功能架构 数据架构 ETL架构 集成架构 安全架构 平台架构 实施方法论
随着数据仓库技术应用的不断深入,越来越多的企业开始使用数据仓库技术建设自己的数据仓库系统,希望能对历史数据进行具体而又有针对性的分析与挖掘,以期从中发现新客户和客户新的需求。 目前主要的数据仓库产品...
第二章 智慧学成-数据仓库与ETL │ 01-ETL-学习目标.mp4 │ 03-ETL-课程访问量需求分析-.mp4 │ 05-ETL-采集系统搭建.mp4 │ 07-ETL-NiFi介绍.mp4 │ 09-ETL-维度数据采集-维度介绍-.mp4 │ 14-ETL-维度数据...
第1章 大数据概论数据清洗概述、数据标准化、数据仓库.ppt 第2章 数据格式与编码.pptx 第3章 数据清洗ETL基本技术方法.pptx 第4章 常用数据清洗工具及基本操作.pptx 第5章 文本、web、数据库、增量数据抽取.pptx 第6...
大数据时代的双十一和淘宝时光机 阿里通过大数据分析,提前在商家端做订单分配,提 前将爆款商品下沉到末端仓库,摆脱了最初"双十一" 时爆仓、损耗,累垮快递员的局面,而开始收获订单 激增与口碑变好的双重福利。...
第02章 数据仓库、商业智能、OLAP和数据挖掘 共64页.ppt 第03章 定义数据仓库概念和术语 共46页.ppt 第04章 业务、逻辑、维度和物理建模 共66页.ppt 第05章 数据库大小、存储、性能和安全注意事项 共52页.ppt 第06章...
第02章 数据仓库、商业智能、OLAP和数据挖掘 共64页.ppt 第03章 定义数据仓库概念和术语 共46页.ppt 第04章 业务、逻辑、维度和物理建模 共66页.ppt 第05章 数据库大小、存储、性能和安全注意事项 共52页.ppt 第06章...