您的位置:www.85058.com > 互联网资讯 > 开展大数据审计前需要了解的8组概念

开展大数据审计前需要了解的8组概念

发布时间:2019-12-01 09:21编辑:互联网资讯浏览(123)

    图片 1

    //
    我所经历的大数据平台发展史(二):非互//
    我所经历的大数据平台发展史(二):非互联网时代 • 下篇
    http://www.infoq.com/cn/articles/the-development-history-of-big-//
    我所经历的大数据平台发展史(二):非互联网时代 • 下篇
    http://www.infoq.com/cn/articles/the-development-history-of-big-data-platfor2-part01

    在我们开拓新的审计领域时,对一些概念的理解是非常重要的,对概念正确的理解会影响到今后工作的方向,反之,错误的理解会导致错误的方向。方向错了,即使做再多的技术性工作,离目标越来越远的可能性就会越大。

    编者按:本文是松子(李博源)的大数据平台发展史系列文章的第二篇(共四篇),本系列以独特的视角,比较了非互联网和互联网两个时代以及传统与非传统两个行业。是对数据平台发展的一个回忆,对非互联网、互联网,从数据平台的用户角度、数据架构演进、模型等进行了阐述。
    前言,”数据模型“ 这个词只要是跟数据沾边就会出现的一个词,在数据库设计、数据仓库、数据挖掘上、业务里都存在,聚焦一下,这里提到的是数据平台中的”数据模型“。 这是一个非常的抽象词,个人也很难用简单语言把他描述出来,这一章也是整个系列中较为抽象的一章节,同时这个章节将会回答非互联网数据平台数据模型是什么?如何需要数据模型?如何简单的建设?
    在“我所经历的大数据平台发展史 上篇 非互联网时代”曾经提到Bill inmon与 Ralph kilmball两位大师的设计理念,对业务的数据按照某种规则进行有效组织并满足业务需求。

    尽管已经来到大数据时代,大数据审计已经提出好几年,但真正开展大数据审计的审计组织并不多,甚至很多审计人员对与大数据审计相关的基础概念也不了解。下面介绍8组概念,供大家参考,也欢迎大家留言进行补充和指正。

    相关厂商内容
    关于红包、SSD云盘等核心技术集锦!
    Cloudant DBaaS技术概述
    下一代 DB2更加突出 BLU Acceleration
    小邪:阿里8届双11容量规划这样设计

    一、数字、数据、信息

    Apache Beam 大规模流处理

    数字:狭义的数字是数学上的,但在信息技术中,数据、信息、图像、视屏等都可以数字形式储存在计算机、储存器中。

    相关赞助商

    数据:数据的范畴比数字大得多,数据不仅包括数字,在互联网时代,还包括文字、图像乃至视频。数据可以被计算机收集、储存、分析,可以通过互联网进行传递。数据可以承载信息,但数据承载的信息并不一定都是有意义的信息。

    图片 2

    信息:信息是对物质世界和精神世界的一种可以传递的描述。信息可以是反映物质世界的,例如人们所了解到的地球绕太阳一周的时间、万有引力定理等。信息也可以是反映人们精神世界的,例如某位思想家的思想理论等。信息往往是人类可以识别和理解的。信息可以是真的信息,也可以是假的信息;信息可以是有用的信息,也可以是无用的信息。信息往往通过数字、数据、文字、图像、视屏等形式传递和储存。

    大数据:大数据,并不仅仅指海量的数据,其还有四大特点,4V,分别是Volume、Variety、Velocity、Value。

    QCon北京2017,4月16-18日,北京·国家会议中心,精彩内容抢先看

    二、数据源、数据元、元数据

    在构建过程中,有一个角色理解业务并探索分散在各系统间的数据,并通过某条业务主线把这些分散在各角落的数据串联并存储同时让业务使用,在设计时苦逼的地方除了考虑业务数据结构要素外,还得考虑可操作性、约束性(备注 约束性是完成数据质量提升的一个关键要素,未来新话题主题会讨论这些),这个既要顾业务、数据源、合理的整合的角色是数据模型设计师,又叫数据模型师。
    非互联网时代的数据模型是一个高度智慧业务抽象结晶,数据模型是整个系统建设过程的导航图。
    (点击放大图像)

    数据源:指的是数据的来源,数据源的主语在“源”上,也就是产生数据的地方。而源数据的主语是“数据”,也就是从源头产生的数据。

    [图片上传中。。。(2)]
    平台中模型设计所关注的是企业分散在各角落数据、未知的商业模式与未知的分析报表,通过模型的步骤,理解业务并结合数据整合分析,建立数据模型为Data cleaning 指定清洗规则、为源数据与目标提供ETL mapping (备注:ETL 代指数据从不同源到数据平台的整个过程,ETL Mapping 可理解为 数据加工算法,给数码看的,互联网与非互联网此处差异性也较为明显,非互联网数据平台对ETL定义与架构较为复杂)支持、 理清数据与数据之间的关系。(备注:Data cleaning 是指的数据清洗 数据质量相关不管是在哪个行业,是最令人头痛的问题,分业务域、技术域的数据质量问题,需要通过事前盘点、事中监控、事后调养,有机会在阐述)。
    大家来看一张较为严谨的数据模型关系图:
    (点击放大图像)
    [图片上传中。。。(3)]
    数据模型是整个数据平台的数据建设过程的导航图。
    有利于数据的整合。数据模型是整合各种数据源指导图,对现有业务与数据从逻辑层角度进行了全面描述,通过数据模型,可以建立业务系统与数据之间的映射与转换关系。排除数据描述的不一致性。如:同名异义、同物异名..。
    减少多余冗余数据,因为了解数据之间的关系,以及数据的作用。在数据平台中根据需求采集那些用于分析的数据,而不需要那些纯粹用于操作的数据。

    数据元:就是数据元素,也可以理解为抽象化的数据项,目的是把一项项数据进行抽象、定义、规范,形成基础元素,以便在报表中组合使用。

    在面对企业复杂业务与成千上万的数据项进行设计时,没有哪个牛逼的人都记得住的,所以出现了按照某种层次规则去有组织并抽象与管理易用,由此诞生了概念模型、逻辑模型、物理模型 (备注 数据平台数据模型,而非数据挖掘的模型)。
    数据模型在数据平台的数据仓库中是一个统称,严格上来讲分为概念模型、逻辑模型、物理模型。(备注:四类模型如何去详细构建文本不深讲,关于非互联网企业的数据模型网上非常多)
    (点击放大图像)
    [图片上传中。。。(4)]
    在“我所经历的大数据平台发展史 上篇 非互联网时代“提到两位大师的架构与争论,进一步聚焦来说,争论点我的认为其实是在数据模型的支持上,Bill Inmon的EDW的原则是准三范式的设计、Ralph kilmbal是星型结构。
    Bill Inmon对EDW 的定义是面向事物处理、面向数据管理,从数据的特征上需要坚持维护最细粒度的数据、维护最微观层次的数据关系、保存数据历史。所以在构建完毕的数据平台中可以从中映射并检查业务信息的完整性(同时也是养数据过程中的重要反馈点),这种方式还可以找出多个系统相关和重合的信息,减少多个系统之间数据的重复定义和不一致性,减小了应用集成的难度。
    (点击放大图像)
    [图片上传中。。。(5)]
    (点击放大图像)

    元数据:就是最原始、最基础的数据,也就是数据的数据。

    图片 3

    三、基础数据、衍生数据、主数据

    基础数据:是企业生产经营中直接产生的,未经加工过的基础性数据,如客户基础数据。

    该建设方式的要点是首先建立各个数据源业务的实体关系、然后再根据保存的主子实体关系、存储性能做优化。
    Ralph kilmball 对DM(备注:数据集市,非挖掘模型)的定义是面向分析过程的(Analytical Process oriented),因为这个模型对业务用户非常容易理解,同时为了查询也是做了专门的性能优化。所以星型、雪花模型很直观比较高性能为用户提供查询分析。
    (点击放大图像)
    [图片上传中。。。(7)]
    该方式的建模首先确定用户需求问题与业务需求数据粒度,构建分析所需要的维度、与度量值形成星型模型;(备注 涉及的复杂维度、退化维度等不在这个讨论范围)。
    数据模型的业务建模阶段、领域概念模型阶段、逻辑模型阶段、物理模型阶段是超级学术与复杂的话题,而且在模型领域根据特点又分主数据(MDM)、CIF(企业级统一视图) 、通用模型(IBM 的金融、保险行业通用模型、 Teradata的 金融通用模型、 电信移动通用模型等),锁涉及到术语”扩展“、”扁平化“、”裁剪“等眼花缭乱的建模手法,数据模型不同层次ODS、DWDDWD、DW、ST的分层目的不同导致模型设计方法又不同。相信业界有很多大牛能讲的清楚的,以后有机会再交流。
    (点击放大图像)
    [图片上传中。。。(8)]
    (点击放大图像)
    [图片上传中。。。(9)]
    (点击放大图像)
    [图片上传中。。。(10)]
    (点击放大图像)
    [图片上传中。。。(11)]
    本文带大家回忆了历史非互联网的数据平台发展与核心模型特点,当然数据平台的发展不是一步到位的,是经过无数人的智慧、努力反复迭代而逐渐演进的。
    非互联网企业的数据平台发展,每一代的平台架构中的结构都是及其复杂的,比如ETL架构、数据模型架构、BD的架构、前端展现、元数据、数据质量等各方面,每一部分展开都是一个很深的话题,有机会再分享给大家。
    下篇章将分享给大家互联网时代的数据平台,互联网的数据平台也就是在07年-08年左右开始迅猛发展的,在发展的初期也是从传统数据平台的第三代架构开始演进的,互联网产品发展特点是“糙、快、猛”,同时数据量的超快速膨胀所带来的技术变革,从数据仓库->海量数据->大数据膨胀必然原有的技术无法支撑高IO吞吐、密集型计算,从而发展了合适互联网大数据平台。
    关于作者
    松子(李博源),自由撰稿人,数据产品&数据分析总监。2000年开始数据领域,从业传统制造业、银行、保险、第三方支付&互联网金融、在线旅行、移动互联网行业 ; 个人沉淀在大数据产品、大数据分析、数据模型领域;欢迎关注个人微信订阅号:songzi2016。//
    我所经历的大数据平台发展史(二):非互联网时代 • 下篇
    http://www.infoq.com/cn/articles/the-development-history-of-big-data-platfor2-part01

    衍生数据:与基础数据相对应,是按照一定规则对基础数据进行加工、计算后产生的数据,不是通过业务前台直接采集的。

    编者按:本文是松子(李博源)的大数据平台发展史系列文章的第二篇(共四篇),本系列以独特的视角,比较了非互联网和互联网两个时代以及传统与非传统两个行业。是对数据平台发展的一个回忆,对非互联网、互联网,从数据平台的用户角度、数据架构演进、模型等进行了阐述。
    前言,”数据模型“ 这个词只要是跟数据沾边就会出现的一个词,在数据库设计、数据仓库、数据挖掘上、业务里都存在,聚焦一下,这里提到的是数据平台中的”数据模型“。 这是一个非常的抽象词,个人也很难用简单语言把他描述出来,这一章也是整个系列中较为抽象的一章节,同时这个章节将会回答非互联网数据平台数据模型是什么?如何需要数据模型?如何简单的建设?
    在“我所经历的大数据平台发展史 上篇 非互联网时代”曾经提到Bill inmon与 Ralph kilmball两位大师的设计理念,对业务的数据按照某种规则进行有效组织并满足业务需求。

    主数据:企业有不同的业务、财务等信息系统,只有那些可以交互、共享的关键数据才称为主数据。

    相关厂商内容
    关于红包、SSD云盘等核心技术集锦!
    Cloudant DBaaS技术概述
    下一代 DB2更加突出 BLU Acceleration
    小邪:阿里8届双11容量规划这样设计

    四、数据管理、数据管控、数据治理

    Apache Beam 大规模流处理

    数据管理:主要侧重于对不同数据流的具体管理,涵盖数据的安全、质量、标准、需求分析等内容。

    相关赞助商

    数据管控:侧重于对数据的控制,例如数据安全控制、质量控制等等。

    图片 4

    数据治理:是站在企业更高的角度,从全局出发,以组织架构、体系入手,对数据进行顶层的设计。

    五、数据标准、数据规范、数据字典

    QCon北京2017,4月16-18日,北京·国家会议中心,精彩内容抢先看

    数据标准:是基于业务、管理、技术等需要而对数据属性制订的标准,是为了规范数据语言,使同一数据语言可以在不同系统中运用或使用,也可以在不同部门间进行沟通。

    在构建过程中,有一个角色理解业务并探索分散在各系统间的数据,并通过某条业务主线把这些分散在各角落的数据串联并存储同时让业务使用,在设计时苦逼的地方除了考虑业务数据结构要素外,还得考虑可操作性、约束性(备注 约束性是完成数据质量提升的一个关键要素,未来新话题主题会讨论这些),这个既要顾业务、数据源、合理的整合的角色是数据模型设计师,又叫数据模型师。
    非互联网时代的数据模型是一个高度智慧业务抽象结晶,数据模型是整个系统建设过程的导航图。
    (点击放大图像)

    数据规范:是一个范围更宽泛的概念,例如制订数据标准也是数据规范的一种,如何规范数据使其可以在报表分析中使用也是一种规范。

    [图片上传中。。。(2)]
    平台中模型设计所关注的是企业分散在各角落数据、未知的商业模式与未知的分析报表,通过模型的步骤,理解业务并结合数据整合分析,建立数据模型为Data cleaning 指定清洗规则、为源数据与目标提供ETL mapping (备注:ETL 代指数据从不同源到数据平台的整个过程,ETL Mapping 可理解为 数据加工算法,给数码看的,互联网与非互联网此处差异性也较为明显,非互联网数据平台对ETL定义与架构较为复杂)支持、 理清数据与数据之间的关系。(备注:Data cleaning 是指的数据清洗 数据质量相关不管是在哪个行业,是最令人头痛的问题,分业务域、技术域的数据质量问题,需要通过事前盘点、事中监控、事后调养,有机会在阐述)。
    大家来看一张较为严谨的数据模型关系图:
    (点击放大图像)
    [图片上传中。。。(3)]
    数据模型是整个数据平台的数据建设过程的导航图。
    有利于数据的整合。数据模型是整合各种数据源指导图,对现有业务与数据从逻辑层角度进行了全面描述,通过数据模型,可以建立业务系统与数据之间的映射与转换关系。排除数据描述的不一致性。如:同名异义、同物异名..。
    减少多余冗余数据,因为了解数据之间的关系,以及数据的作用。在数据平台中根据需求采集那些用于分析的数据,而不需要那些纯粹用于操作的数据。

    数据字典:是更侧重于某一系统的技术属性的标准,如SAP系统有其自身的数据字典。

    在面对企业复杂业务与成千上万的数据项进行设计时,没有哪个牛逼的人都记得住的,所以出现了按照某种层次规则去有组织并抽象与管理易用,由此诞生了概念模型、逻辑模型、物理模型 (备注 数据平台数据模型,而非数据挖掘的模型)。
    数据模型在数据平台的数据仓库中是一个统称,严格上来讲分为概念模型、逻辑模型、物理模型。(备注:四类模型如何去详细构建文本不深讲,关于非互联网企业的数据模型网上非常多)
    (点击放大图像)

    六、数据集市、数据仓库、数据工厂

    图片 5

    数据集市:数据集市中的数据可以被多个部门的人员直接使用,数据集市中的数据来源于不同的信息系统。

    数据仓库:数据仓库里的数据虽然有一定的规则进行存放,但往往要通过专门的人员来进行存放或取数。一般情况下,数据仓库里的数据要拿到数据集市才能被大家使用。

    在“我所经历的大数据平台发展史 上篇 非互联网时代“提到两位大师的架构与争论,进一步聚焦来说,争论点我的认为其实是在数据模型的支持上,Bill Inmon的EDW的原则是准三范式的设计、Ralph kilmbal是星型结构。
    Bill Inmon对EDW 的定义是面向事物处理、面向数据管理,从数据的特征上需要坚持维护最细粒度的数据、维护最微观层次的数据关系、保存数据历史。所以在构建完毕的数据平台中可以从中映射并检查业务信息的完整性(同时也是养数据过程中的重要反馈点),这种方式还可以找出多个系统相关和重合的信息,减少多个系统之间数据的重复定义和不一致性,减小了应用集成的难度。
    (点击放大图像)
    [图片上传中。。。(5)]
    (点击放大图像)
    [图片上传中。。。(6)]
    该建设方式的要点是首先建立各个数据源业务的实体关系、然后再根据保存的主子实体关系、存储性能做优化。
    Ralph kilmball 对DM(备注:数据集市,非挖掘模型)的定义是面向分析过程的(Analytical Process oriented),因为这个模型对业务用户非常容易理解,同时为了查询也是做了专门的性能优化。所以星型、雪花模型很直观比较高性能为用户提供查询分析。
    (点击放大图像)
    [图片上传中。。。(7)]
    该方式的建模首先确定用户需求问题与业务需求数据粒度,构建分析所需要的维度、与度量值形成星型模型;(备注 涉及的复杂维度、退化维度等不在这个讨论范围)。
    数据模型的业务建模阶段、领域概念模型阶段、逻辑模型阶段、物理模型阶段是超级学术与复杂的话题,而且在模型领域根据特点又分主数据(MDM)、CIF(企业级统一视图) 、通用模型(IBM 的金融、保险行业通用模型、 Teradata的 金融通用模型、 电信移动通用模型等),锁涉及到术语”扩展“、”扁平化“、”裁剪“等眼花缭乱的建模手法,数据模型不同层次ODS、DWDDWD、DW、ST的分层目的不同导致模型设计方法又不同。相信业界有很多大牛能讲的清楚的,以后有机会再交流。
    (点击放大图像)
    [图片上传中。。。(8)]
    (点击放大图像)
    [图片上传中。。。(9)]
    (点击放大图像)
    [图片上传中。。。(10)]
    (点击放大图像)
    [图片上传中。。。(11)]
    本文带大家回忆了历史非互联网的数据平台发展与核心模型特点,当然数据平台的发展不是一步到位的,是经过无数人的智慧、努力反复迭代而逐渐演进的。
    非互联网企业的数据平台发展,每一代的平台架构中的结构都是及其复杂的,比如ETL架构、数据模型架构、BD的架构、前端展现、元数据、数据质量等各方面,每一部分展开都是一个很深的话题,有机会再分享给大家。
    下篇章将分享给大家互联网时代的数据平台,互联网的数据平台也就是在07年-08年左右开始迅猛发展的,在发展的初期也是从传统数据平台的第三代架构开始演进的,互联网产品发展特点是“糙、快、猛”,同时数据量的超快速膨胀所带来的技术变革,从数据仓库->海量数据->大数据膨胀必然原有的技术无法支撑高IO吞吐、密集型计算,从而发展了合适互联网大数据平台。
    关于作者
    松子(李博源),自由撰稿人,数据产品&数据分析总监。2000年开始数据领域,从业传统制造业、银行、保险、第三方支付&互联网金融、在线旅行、移动互联网行业 ; 个人沉淀在大数据产品、大数据分析、数据模型领域;欢迎关注个人微信订阅号:songzi2016。//
    我所经历的大数据平台发展史(二):非互联网时代 • 下篇
    http://www.infoq.com/cn/articles/the-development-history-of-big-data-platfor2-part01

    数据工厂:数据工厂可以对数据加工,可以根据客户的的需求来定制不同的数据产品。

    编者按:本文是松子(李博源)的大数据平台发展史系列文章的第二篇(共四篇),本系列以独特的视角,比较了非互联网和互联网两个时代以及传统与非传统两个行业。是对数据平台发展的一个回忆,对非互联网、互联网,从数据平台的用户角度、数据架构演进、模型等进行了阐述。
    前言,”数据模型“ 这个词只要是跟数据沾边就会出现的一个词,在数据库设计、数据仓库、数据挖掘上、业务里都存在,聚焦一下,这里提到的是数据平台中的”数据模型“。 这是一个非常的抽象词,个人也很难用简单语言把他描述出来,这一章也是整个系列中较为抽象的一章节,同时这个章节将会回答非互联网数据平台数据模型是什么?如何需要数据模型?如何简单的建设?
    在“我所经历的大数据平台发展史 上篇 非互联网时代”曾经提到Bill inmon与 Ralph kilmball两位大师的设计理念,对业务的数据按照某种规则进行有效组织并满足业务需求。

    七、数据平台、大数据平台、数据服务平台

    相关厂商内容
    关于红包、SSD云盘等核心技术集锦!
    Cloudant DBaaS技术概述
    下一代 DB2更加突出 BLU Acceleration
    小邪:阿里8届双11容量规划这样设计

    数据平台:是信息系统相对应的,信息系统侧重于信息和系统,而数据平台侧重于为企业人员提供某种服务。例如钻井平台,是石油工人在这个平台进行工作,而钻井平台本身也是一种物理和信息系统。

    Apache Beam 大规模流处理

    大数据平台:根据大数据特征打造的平台,不是所有的数据平台都能叫做大数据平台。

    相关赞助商

    数据服务平台:为业务部门提供数据服务的平台,更侧重于数据的应用。

    图片 6

    八、数据模型、数据分析模型、统计模型

    数据模型:是指数据的结构和关系,分逻辑模型和物理模型,逻辑模型指的是数据的逻辑关系,物理模型可以理解为数据库的表结构。数据模型侧重于系统设计和实施。

    QCon北京2017,4月16-18日,北京·国家会议中心,精彩内容抢先看

    数据分析模型:侧重于业务应用和决策支持,是基于某些应有场景的算法。数据分析模型通过输入大量的历史数据,通过既定算法和参数获得对决策有参考意义的分析结果。

    在构建过程中,有一个角色理解业务并探索分散在各系统间的数据,并通过某条业务主线把这些分散在各角落的数据串联并存储同时让业务使用,在设计时苦逼的地方除了考虑业务数据结构要素外,还得考虑可操作性、约束性(备注 约束性是完成数据质量提升的一个关键要素,未来新话题主题会讨论这些),这个既要顾业务、数据源、合理的整合的角色是数据模型设计师,又叫数据模型师。
    非互联网时代的数据模型是一个高度智慧业务抽象结晶,数据模型是整个系统建设过程的导航图。
    (点击放大图像)

    统计模型:大部分实际工作中使用的数据分析模型都要使用统计学,也可以叫做统计模型。

    [图片上传中。。。(2)]
    平台中模型设计所关注的是企业分散在各角落数据、未知的商业模式与未知的分析报表,通过模型的步骤,理解业务并结合数据整合分析,建立数据模型为Data cleaning 指定清洗规则、为源数据与目标提供ETL mapping (备注:ETL 代指数据从不同源到数据平台的整个过程,ETL Mapping 可理解为 数据加工算法,给数码看的,互联网与非互联网此处差异性也较为明显,非互联网数据平台对ETL定义与架构较为复杂)支持、 理清数据与数据之间的关系。(备注:Data cleaning 是指的数据清洗 数据质量相关不管是在哪个行业,是最令人头痛的问题,分业务域、技术域的数据质量问题,需要通过事前盘点、事中监控、事后调养,有机会在阐述)。
    大家来看一张较为严谨的数据模型关系图:
    (点击放大图像)
    [图片上传中。。。(3)]
    数据模型是整个数据平台的数据建设过程的导航图。
    有利于数据的整合。数据模型是整合各种数据源指导图,对现有业务与数据从逻辑层角度进行了全面描述,通过数据模型,可以建立业务系统与数据之间的映射与转换关系。排除数据描述的不一致性。如:同名异义、同物异名..。
    减少多余冗余数据,因为了解数据之间的关系,以及数据的作用。在数据平台中根据需求采集那些用于分析的数据,而不需要那些纯粹用于操作的数据。

    在面对企业复杂业务与成千上万的数据项进行设计时,没有哪个牛逼的人都记得住的,所以出现了按照某种层次规则去有组织并抽象与管理易用,由此诞生了概念模型、逻辑模型、物理模型 (备注 数据平台数据模型,而非数据挖掘的模型)。
    数据模型在数据平台的数据仓库中是一个统称,严格上来讲分为概念模型、逻辑模型、物理模型。(备注:四类模型如何去详细构建文本不深讲,关于非互联网企业的数据模型网上非常多)
    (点击放大图像)
    [图片上传中。。。(4)]
    在“我所经历的大数据平台发展史 上篇 非互联网时代“提到两位大师的架构与争论,进一步聚焦来说,争论点我的认为其实是在数据模型的支持上,Bill Inmon的EDW的原则是准三范式的设计、Ralph kilmbal是星型结构。
    Bill Inmon对EDW 的定义是面向事物处理、面向数据管理,从数据的特征上需要坚持维护最细粒度的数据、维护最微观层次的数据关系、保存数据历史。所以在构建完毕的数据平台中可以从中映射并检查业务信息的完整性(同时也是养数据过程中的重要反馈点),这种方式还可以找出多个系统相关和重合的信息,减少多个系统之间数据的重复定义和不一致性,减小了应用集成的难度。
    (点击放大图像)
    [图片上传中。。。(5)]
    (点击放大图像)
    [图片上传中。。。(6)]
    该建设方式的要点是首先建立各个数据源业务的实体关系、然后再根据保存的主子实体关系、存储性能做优化。
    Ralph kilmball 对DM(备注:数据集市,非挖掘模型)的定义是面向分析过程的(Analytical Process oriented),因为这个模型对业务用户非常容易理解,同时为了查询也是做了专门的性能优化。所以星型、雪花模型很直观比较高性能为用户提供查询分析。
    (点击放大图像)
    [图片上传中。。。(7)]
    该方式的建模首先确定用户需求问题与业务需求数据粒度,构建分析所需要的维度、与度量值形成星型模型;(备注 涉及的复杂维度、退化维度等不在这个讨论范围)。
    数据模型的业务建模阶段、领域概念模型阶段、逻辑模型阶段、物理模型阶段是超级学术与复杂的话题,而且在模型领域根据特点又分主数据(MDM)、CIF(企业级统一视图) 、通用模型(IBM 的金融、保险行业通用模型、 Teradata的 金融通用模型、 电信移动通用模型等),锁涉及到术语”扩展“、”扁平化“、”裁剪“等眼花缭乱的建模手法,数据模型不同层次ODS、DWDDWD、DW、ST的分层目的不同导致模型设计方法又不同。相信业界有很多大牛能讲的清楚的,以后有机会再交流。
    (点击放大图像)

    图片 7

    (点击放大图像)
    [图片上传中。。。(9)]
    (点击放大图像)
    [图片上传中。。。(10)]
    (点击放大图像)
    [图片上传中。。。(11)]
    本文带大家回忆了历史非互联网的数据平台发展与核心模型特点,当然数据平台的发展不是一步到位的,是经过无数人的智慧、努力反复迭代而逐渐演进的。
    非互联网企业的数据平台发展,每一代的平台架构中的结构都是及其复杂的,比如ETL架构、数据模型架构、BD的架构、前端展现、元数据、数据质量等各方面,每一部分展开都是一个很深的话题,有机会再分享给大家。
    下篇章将分享给大家互联网时代的数据平台,互联网的数据平台也就是在07年-08年左右开始迅猛发展的,在发展的初期也是从传统数据平台的第三代架构开始演进的,互联网产品发展特点是“糙、快、猛”,同时数据量的超快速膨胀所带来的技术变革,从数据仓库->海量数据->大数据膨胀必然原有的技术无法支撑高IO吞吐、密集型计算,从而发展了合适互联网大数据平台。
    关于作者
    松子(李博源),自由撰稿人,数据产品&数据分析总监。2000年开始数据领域,从业传统制造业、银行、保险、第三方支付&互联网金融、在线旅行、移动互联网行业 ; 个人沉淀在大数据产品、大数据分析、数据模型领域;欢迎关注个人微信订阅号:songzi2016。//
    我所经历的大数据平台发展史(二):非互联网时代 • 下篇
    http://www.infoq.com/cn/articles/the-development-history-of-big-data-platfor2-part01

    编者按:本文是松子(李博源)的大数据平台发展史系列文章的第二篇(共四篇),本系列以独特的视角,比较了非互联网和互联网两个时代以及传统与非传统两个行业。是对数据平台发展的一个回忆,对非互联网、互联网,从数据平台的用户角度、数据架构演进、模型等进行了阐述。
    前言,”数据模型“ 这个词只要是跟数据沾边就会出现的一个词,在数据库设计、数据仓库、数据挖掘上、业务里都存在,聚焦一下,这里提到的是数据平台中的”数据模型“。 这是一个非常的抽象词,个人也很难用简单语言把他描述出来,这一章也是整个系列中较为抽象的一章节,同时这个章节将会回答非互联网数据平台数据模型是什么?如何需要数据模型?如何简单的建设?
    在“我所经历的大数据平台发展史 上篇 非互联网时代”曾经提到Bill inmon与 Ralph kilmball两位大师的设计理念,对业务的数据按照某种规则进行有效组织并满足业务需求。

    相关厂商内容
    关于红包、SSD云盘等核心技术集锦!
    Cloudant DBaaS技术概述
    下一代 DB2更加突出 BLU Acceleration
    小邪:阿里8届双11容量规划这样设计

    Apache Beam 大规模流处理

    相关赞助商

    图片 8

    QCon北京2017,4月16-18日,北京·国家会议中心,精彩内容抢先看

    在构建过程中,有一个角色理解业务并探索分散在各系统间的数据,并通过某条业务主线把这些分散在各角落的数据串联并存储同时让业务使用,在设计时苦逼的地方除了考虑业务数据结构要素外,还得考虑可操作性、约束性(备注 约束性是完成数据质量提升的一个关键要素,未来新话题主题会讨论这些),这个既要顾业务、数据源、合理的整合的角色是数据模型设计师,又叫数据模型师。
    非互联网时代的数据模型是一个高度智慧业务抽象结晶,数据模型是整个系统建设过程的导航图。
    (点击放大图像)

    [图片上传中。。。(2)]
    平台中模型设计所关注的是企业分散在各角落数据、未知的商业模式与未知的分析报表,通过模型的步骤,理解业务并结合数据整合分析,建立数据模型为Data cleaning 指定清洗规则、为源数据与目标提供ETL mapping (备注:ETL 代指数据从不同源到数据平台的整个过程,ETL Mapping 可理解为 数据加工算法,给数码看的,互联网与非互联网此处差异性也较为明显,非互联网数据平台对ETL定义与架构较为复杂)支持、 理清数据与数据之间的关系。(备注:Data cleaning 是指的数据清洗 数据质量相关不管是在哪个行业,是最令人头痛的问题,分业务域、技术域的数据质量问题,需要通过事前盘点、事中监控、事后调养,有机会在阐述)。
    大家来看一张较为严谨的数据模型关系图:
    (点击放大图像)
    [图片上传中。。。(3)]
    数据模型是整个数据平台的数据建设过程的导航图。
    有利于数据的整合。数据模型是整合各种数据源指导图,对现有业务与数据从逻辑层角度进行了全面描述,通过数据模型,可以建立业务系统与数据之间的映射与转换关系。排除数据描述的不一致性。如:同名异义、同物异名..。
    减少多余冗余数据,因为了解数据之间的关系,以及数据的作用。在数据平台中根据需求采集那些用于分析的数据,而不需要那些纯粹用于操作的数据。

    在面对企业复杂业务与成千上万的数据项进行设计时,没有哪个牛逼的人都记得住的,所以出现了按照某种层次规则去有组织并抽象与管理易用,由此诞生了概念模型、逻辑模型、物理模型 (备注 数据平台数据模型,而非数据挖掘的模型)。
    数据模型在数据平台的数据仓库中是一个统称,严格上来讲分为概念模型、逻辑模型、物理模型。(备注:四类模型如何去详细构建文本不深讲,关于非互联网企业的数据模型网上非常多)
    (点击放大图像)
    [图片上传中。。。(4)]
    在“我所经历的大数据平台发展史 上篇 非互联网时代“提到两位大师的架构与争论,进一步聚焦来说,争论点我的认为其实是在数据模型的支持上,Bill Inmon的EDW的原则是准三范式的设计、Ralph kilmbal是星型结构。
    Bill Inmon对EDW 的定义是面向事物处理、面向数据管理,从数据的特征上需要坚持维护最细粒度的数据、维护最微观层次的数据关系、保存数据历史。所以在构建完毕的数据平台中可以从中映射并检查业务信息的完整性(同时也是养数据过程中的重要反馈点),这种方式还可以找出多个系统相关和重合的信息,减少多个系统之间数据的重复定义和不一致性,减小了应用集成的难度。
    (点击放大图像)
    [图片上传中。。。(5)]
    (点击放大图像)
    [图片上传中。。。(6)]
    该建设方式的要点是首先建立各个数据源业务的实体关系、然后再根据保存的主子实体关系、存储性能做优化。
    Ralph kilmball 对DM(备注:数据集市,非挖掘模型)的定义是面向分析过程的(Analytical Process oriented),因为这个模型对业务用户非常容易理解,同时为了查询也是做了专门的性能优化。所以星型、雪花模型很直观比较高性能为用户提供查询分析。
    (点击放大图像)
    [图片上传中。。。(7)]
    该方式的建模首先确定用户需求问题与业务需求数据粒度,构建分析所需要的维度、与度量值形成星型模型;(备注 涉及的复杂维度、退化维度等不在这个讨论范围)。
    数据模型的业务建模阶段、领域概念模型阶段、逻辑模型阶段、物理模型阶段是超级学术与复杂的话题,而且在模型领域根据特点又分主数据(MDM)、CIF(企业级统一视图) 、通用模型(IBM 的金融、保险行业通用模型、 Teradata的 金融通用模型、 电信移动通用模型等),锁涉及到术语”扩展“、”扁平化“、”裁剪“等眼花缭乱的建模手法,数据模型不同层次ODS、DWDDWD、DW、ST的分层目的不同导致模型设计方法又不同。相信业界有很多大牛能讲的清楚的,以后有机会再交流。
    (点击放大图像)
    [图片上传中。。。(8)]
    (点击放大图像)

    图片 9

    (点击放大图像)
    [图片上传中。。。(10)]
    (点击放大图像)
    [图片上传中。。。(11)]
    本文带大家回忆了历史非互联网的数据平台发展与核心模型特点,当然数据平台的发展不是一步到位的,是经过无数人的智慧、努力反复迭代而逐渐演进的。
    非互联网企业的数据平台发展,每一代的平台架构中的结构都是及其复杂的,比如ETL架构、数据模型架构、BD的架构、前端展现、元数据、数据质量等各方面,每一部分展开都是一个很深的话题,有机会再分享给大家。
    下篇章将分享给大家互联网时代的数据平台,互联网的数据平台也就是在07年-08年左右开始迅猛发展的,在发展的初期也是从传统数据平台的第三代架构开始演进的,互联网产品发展特点是“糙、快、猛”,同时数据量的超快速膨胀所带来的技术变革,从数据仓库->海量数据->大数据膨胀必然原有的技术无法支撑高IO吞吐、密集型计算,从而发展了合适互联网大数据平台。
    关于作者
    松子(李博源),自由撰稿人,数据产品&数据分析总监。2000年开始数据领域,从业传统制造业、银行、保险、第三方支付&互联网金融、在线旅行、移动互联网行业 ; 个人沉淀在大数据产品、大数据分析、数据模型领域;欢迎关注个人微信订阅号:songzi2016。//
    我所经历的大数据平台发展史(二):非互联网时代 • 下篇
    http://www.infoq.com/cn/articles/the-development-history-of-big-data-platfor2-part01

    编者按:本文是松子(李博源)的大数据平台发展史系列文章的第二篇(共四篇),本系列以独特的视角,比较了非互联网和互联网两个时代以及传统与非传统两个行业。是对数据平台发展的一个回忆,对非互联网、互联网,从数据平台的用户角度、数据架构演进、模型等进行了阐述。
    前言,”数据模型“ 这个词只要是跟数据沾边就会出现的一个词,在数据库设计、数据仓库、数据挖掘上、业务里都存在,聚焦一下,这里提到的是数据平台中的”数据模型“。 这是一个非常的抽象词,个人也很难用简单语言把他描述出来,这一章也是整个系列中较为抽象的一章节,同时这个章节将会回答非互联网数据平台数据模型是什么?如何需要数据模型?如何简单的建设?
    在“我所经历的大数据平台发展史 上篇 非互联网时代”曾经提到Bill inmon与 Ralph kilmball两位大师的设计理念,对业务的数据按照某种规则进行有效组织并满足业务需求。

    相关厂商内容
    关于红包、SSD云盘等核心技术集锦!
    Cloudant DBaaS技术概述
    下一代 DB2更加突出 BLU Acceleration
    小邪:阿里8届双11容量规划这样设计

    Apache Beam 大规模流处理

    相关赞助商

    图片 10

    QCon北京2017,4月16-18日,北京·国家会议中心,精彩内容抢先看

    在构建过程中,有一个角色理解业务并探索分散在各系统间的数据,并通过某条业务主线把这些分散在各角落的数据串联并存储同时让业务使用,在设计时苦逼的地方除了考虑业务数据结构要素外,还得考虑可操作性、约束性(备注 约束性是完成数据质量提升的一个关键要素,未来新话题主题会讨论这些),这个既要顾业务、数据源、合理的整合的角色是数据模型设计师,又叫数据模型师。
    非互联网时代的数据模型是一个高度智慧业务抽象结晶,数据模型是整个系统建设过程的导航图。
    (点击放大图像)

    [图片上传中。。。(2)]
    平台中模型设计所关注的是企业分散在各角落数据、未知的商业模式与未知的分析报表,通过模型的步骤,理解业务并结合数据整合分析,建立数据模型为Data cleaning 指定清洗规则、为源数据与目标提供ETL mapping (备注:ETL 代指数据从不同源到数据平台的整个过程,ETL Mapping 可理解为 数据加工算法,给数码看的,互联网与非互联网此处差异性也较为明显,非互联网数据平台对ETL定义与架构较为复杂)支持、 理清数据与数据之间的关系。(备注:Data cleaning 是指的数据清洗 数据质量相关不管是在哪个行业,是最令人头痛的问题,分业务域、技术域的数据质量问题,需要通过事前盘点、事中监控、事后调养,有机会在阐述)。
    大家来看一张较为严谨的数据模型关系图:
    (点击放大图像)
    [图片上传中。。。(3)]
    数据模型是整个数据平台的数据建设过程的导航图。
    有利于数据的整合。数据模型是整合各种数据源指导图,对现有业务与数据从逻辑层角度进行了全面描述,通过数据模型,可以建立业务系统与数据之间的映射与转换关系。排除数据描述的不一致性。如:同名异义、同物异名..。
    减少多余冗余数据,因为了解数据之间的关系,以及数据的作用。在数据平台中根据需求采集那些用于分析的数据,而不需要那些纯粹用于操作的数据。

    在面对企业复杂业务与成千上万的数据项进行设计时,没有哪个牛逼的人都记得住的,所以出现了按照某种层次规则去有组织并抽象与管理易用,由此诞生了概念模型、逻辑模型、物理模型 (备注 数据平台数据模型,而非数据挖掘的模型)。
    数据模型在数据平台的数据仓库中是一个统称,严格上来讲分为概念模型、逻辑模型、物理模型。(备注:四类模型如何去详细构建文本不深讲,关于非互联网企业的数据模型网上非常多)
    (点击放大图像)
    [图片上传中。。。(4)]
    在“我所经历的大数据平台发展史 上篇 非互联网时代“提到两位大师的架构与争论,进一步聚焦来说,争论点我的认为其实是在数据模型的支持上,Bill Inmon的EDW的原则是准三范式的设计、Ralph kilmbal是星型结构。
    Bill Inmon对EDW 的定义是面向事物处理、面向数据管理,从数据的特征上需要坚持维护最细粒度的数据、维护最微观层次的数据关系、保存数据历史。所以在构建完毕的数据平台中可以从中映射并检查业务信息的完整性(同时也是养数据过程中的重要反馈点),这种方式还可以找出多个系统相关和重合的信息,减少多个系统之间数据的重复定义和不一致性,减小了应用集成的难度。
    (点击放大图像)
    [图片上传中。。。(5)]
    (点击放大图像)
    [图片上传中。。。(6)]
    该建设方式的要点是首先建立各个数据源业务的实体关系、然后再根据保存的主子实体关系、存储性能做优化。
    Ralph kilmball 对DM(备注:数据集市,非挖掘模型)的定义是面向分析过程的(Analytical Process oriented),因为这个模型对业务用户非常容易理解,同时为了查询也是做了专门的性能优化。所以星型、雪花模型很直观比较高性能为用户提供查询分析。
    (点击放大图像)
    [图片上传中。。。(7)]
    该方式的建模首先确定用户需求问题与业务需求数据粒度,构建分析所需要的维度、与度量值形成星型模型;(备注 涉及的复杂维度、退化维度等不在这个讨论范围)。
    数据模型的业务建模阶段、领域概念模型阶段、逻辑模型阶段、物理模型阶段是超级学术与复杂的话题,而且在模型领域根据特点又分主数据(MDM)、CIF(企业级统一视图) 、通用模型(IBM 的金融、保险行业通用模型、 Teradata的 金融通用模型、 电信移动通用模型等),锁涉及到术语”扩展“、”扁平化“、”裁剪“等眼花缭乱的建模手法,数据模型不同层次ODS、DWDDWD、DW、ST的分层目的不同导致模型设计方法又不同。相信业界有很多大牛能讲的清楚的,以后有机会再交流。
    (点击放大图像)
    [图片上传中。。。(8)]
    (点击放大图像)
    [图片上传中。。。(9)]
    (点击放大图像)

    图片 11

    (点击放大图像)
    [图片上传中。。。(11)]
    本文带大家回忆了历史非互联网的数据平台发展与核心模型特点,当然数据平台的发展不是一步到位的,是经过无数人的智慧、努力反复迭代而逐渐演进的。
    非互联网企业的数据平台发展,每一代的平台架构中的结构都是及其复杂的,比如ETL架构、数据模型架构、BD的架构、前端展现、元数据、数据质量等各方面,每一部分展开都是一个很深的话题,有机会再分享给大家。
    下篇章将分享给大家互联网时代的数据平台,互联网的数据平台也就是在07年-08年左右开始迅猛发展的,在发展的初期也是从传统数据平台的第三代架构开始演进的,互联网产品发展特点是“糙、快、猛”,同时数据量的超快速膨胀所带来的技术变革,从数据仓库->海量数据->大数据膨胀必然原有的技术无法支撑高IO吞吐、密集型计算,从而发展了合适互联网大数据平台。
    关于作者
    松子(李博源),自由撰稿人,数据产品&数据分析总监。2000年开始数据领域,从业传统制造业、银行、保险、第三方支付&互联网金融、在线旅行、移动互联网行业 ; 个人沉淀在大数据产品、大数据分析、数据模型领域;欢迎关注个人微信订阅号:songzi2016。//
    我所经历的大数据平台发展史(一):非互联网时代 • 上篇
    http://www.infoq.com/cn/articles/the-development-history-of-big-data-platform
    从”数据仓库“ 词开始到现在的“大数据”,中间经历了太多的知识、架构模式的演进与变革,比如说“数据仓库、海量数据、大数据”等。(备注:数据仓库一般指的是:在相当长的时间内堆积数据,仅仅需要处理大量数据请求中的少部分的系统。数据仓库不等同于“海量数据” 。恰恰相反,而是其子集。海量数据也包含:通过大量的连接提供每秒百万次服务请求的系统。大数据是海量数据+复杂类型数据基础上的大分析、高宽带、大内容)。

    数据仓库在国外的发展史多年,大约在98-99年左右进入中国,到现在历了大约十多年发展。到了今天尤其是在非互联网、互联网企业两个领域数据平台有显著的区别。 本文将以非互联网时代、互联网时代数据平台发展角度来讲述。

    在第一阶段数据仓库中的数据再次通过阶梯型高度聚合进入到数据集市DM(非挖掘集市)中,完成对业务的支撑。

    各业务数据集市(DM) 面向详细业务,采用雪花/星型模型去做设计的支撑OLAP、Report、仪表盘等数据展现方式。


    编者按:本文是松子(李博源)的大数据平台发展史系列文章的第一篇(共四篇),本系列以独特的视角,比较了非互联网和互联网两个时代以及传统与非传统两个行业。是对数据平台发展的一个回忆,对非互联网、互联网,从数据平台的用户角度、数据架构演进、模型等进行了阐述。
    前言,这个数据平台发展史仅是自己经历过由传统数据平台到互联网数据平台发展一些简单回忆,文章引用了历史项目&平台规划架构,在这里不做更深入描述。
    我是从2000年开始接触数据仓库,大约08年开始进入互联网行业,那时在互联网接触到数据平台与传统第三代数据架构还是有很大的类似之处,随着互联网的突飞猛进,每一次的技术变革都带来一场从技术、架构、业务的渐进式变革,到今天互联网、非互联网的数据平台架构已经差异非常大。

    相关厂商内容
    关于红包、SSD云盘等核心技术集锦!
    Cloudant DBaaS技术概述
    下一代 DB2更加突出 BLU Acceleration
    如何通过使用 AWS对IT资源实现高级别管控,并大规模实现更高级别的安全性?

    Apache Beam 大规模流处理

    相关赞助商

    图片 12

    QCon北京2017,4月16-18日,北京·国家会议中心,精彩内容抢先看

    回顾早期的企业环境,企业的生产与服务是一个很长周期,导致业务数据呈现一种粗粒度模式。随着互联网的快速渗透从早期的PC终端到“裆下“的 移动终端,对用户的需求与服务周期将逐渐的缩短,业务量级、数据类型多样化与存储的暴增,对应着技术、架构、业务呈现出迅猛发展,相应的数据沉淀与积累也成指数暴涨。
    从”数据仓库“ 词开始到现在的“大数据”,中间经历了太多的知识、架构模式的演进与变革,比如说“数据仓库、海量数据、大数据”等。(备注:数据仓库一般指的是:在相当长的时间内堆积数据,仅仅需要处理大量数据请求中的少部分的系统。数据仓库不等同于“海量数据” 。恰恰相反,而是其子集。海量数据也包含:通过大量的连接提供每秒百万次服务请求的系统。大数据是海量数据+复杂类型数据基础上的大分析、高宽带、大内容)。
    数据仓库在国外的发展史多年,大约在98-99年左右进入中国,到现在历了大约十多年发展。到了今天尤其是在非互联网、互联网企业两个领域数据平台有显著的区别。 本文将以非互联网时代、互联网时代数据平台发展角度来讲述。

    很多从传统企业数据平台转到互联网同学是否有感觉,非互联网企业、互联网企业的数据平台所面向用户群体是不同的?这两类的数据平台的建设、使用用户又有变化?数据模型设计又有什么不同呢?
    我们先来看用户群体的区别,下边整理了2个图来讲述用户群体相关区别。
    一、用户群体
    非互联网数据平台用户:
    (点击放大图像)

    图片 13

    企业的boss、运营的需求主要是依赖于报表、商业智能团队的数据分析师去各种分析与挖掘探索;
    支撑这些人是ETL开发工程师、数据模型建模、数据架构师、报表设计人员 ,同时这些角色又是数据平台数据建设与使用方。
    数据平台的技术框架与工具实现主要有技术架构师、JAVA 开发等。
    用户面对是结构化生产系统数据源。

    互联网数据平台用户:
    (点击放大图像)

    图片 14

    互联网企业中员工年龄比非互联网企业的要年轻、受教育程度、对计算机的焦虑程度明显比传统企业要低、还偶遇其它各方面的缘故,导致了数据平台所面对用户群体与非互联网数据平台有所差异化;
    互联网数据平台的使用与建设方是来自各方面的人,数据平台又是技术、数据产品推进建设的。
    分析师参与数据平台直接建设比重增加。
    原有的数据仓库开发与模型架构师的职能也从建设平台转为服务与咨询.
    用户面对是数据源多样化,比如日志、生产数据库的数据、视频、音频等非结构化数据 。

    从这用户群体角度来说这非互联网、互联网的数据平台用户差异性是非常明显,互联网数据平台中很多理论与名词都是从传统数据平台传递过来的,本文将会分别阐述非互联网、互联网数据平台区别。
    (点击放大图像)

    图片 15

    非互联网时代
    自从数据仓库发展起来到现在,基本上可以分为五个时代、四种架构(大家可以详细翻一下数据仓库的发展历史,在这里仅作科普性介绍)
    约在1991年前的全企业集成
    1991年后的企业数据集成EDW时代
    1994年-1996年的数据集市
    1996-1997年左右的两个架构吵架
    1998年-2001年左右的合并年代

    五个时代划分是以重要事件或代表人物为标志,比如说在企业数据集成EDW时代其重要代表人物是Bill Inmon 代表作数据仓库一书,更重要是他提出了如何建设数据仓库的指导性意见与原则。他遵循的是自上而下的建设原则,这个导致后来数据仓库在千禧年传到中国后的几年内,几个大实施厂商都是遵守该原则的实施方法,后来的数据仓库之路等各种专业论坛上针对数据仓库ODS-EDW的结构讨论(备注:坛子里有个叫吴君,他发表了不少这方面的文章)。
    在国内项目实施中IBM、Terdata、埃森哲、菲奈特(被东南收购,东南后来某些原因而倒闭)等很多专业厂商在实施中对ODS层、EDW层都赋予了各种不同的功能与含义(备注:在后边的架构案例解)。
    在数据集市年代其代表人物是Ralph kilmball,他的代表作是”The Data Warehouse Toolkit“,在数据仓库的建设上Ralph kilmball 提出的是自下而上的建设方法,刚好与Bill Innmon的建设方法相反,这两种架构方式各有千秋,所以就进入了争吵时代。
    我整理了一个表格是这两位大师优缺点:
    (点击放大图像)

    图片 16

    随着数据仓库的不断实践与迭代发展,从争吵期进入到了合并的时代,其实争吵的结果要麽一方妥协,要麽新的结论出现,果然Bill inmon与 Ralph kilmball的争吵没有结论,干脆提出一种新的架构包含对方,也就是后来Bill Inmon 提出的CIF(corporation information factory) 架构模式、这也算是数据仓库的第三代架构,其架构特点是把整个架构划分为不同层次,把每一层次的定义与功能都详细的描述下来,从04年后国内的很多数据仓库架构、甚至互联网刚开始搞数据平台数据仓库架构模式也是这一种。
    (点击放大图像)
    [图片上传中。。。(6)]
    数据仓库第一代架构
    (开发时间2001-2002年)
    海尔集团的一个BI项目,架构的ETL 使用的是 微软的数据抽取加工工具 DTS,老人使用过微软的DTS 知道有哪些弊端,后便给出了几个DTS的截图。
    功能:进销存分析、闭环控制分析、工贸分析等
    硬件环境:
    业务系统数据库:DB2 for Windows,SQL SERVER2000,ORACLE8I
    中央数据库服务器:4EXON,2G,480GSCSI
    OLAP 服务器:2PIV1GHZ,2G,240GSCSI
    开发环境:VISUAL BASIC,ASP,SQL SERVER 2000

    (点击放大图像)

    图片 17

    (点击放大图像)
    [图片上传中。。。(8)]
    (点击放大图像)

    图片 18

    (点击放大图像)
    [图片上传中。。。(10)]
    数据仓库第二代架构
    (点击放大图像)

    图片 19

    这是上海通用汽车的一个数据平台,别看复杂,严格意义上来讲这是一套EDW的架构、在EDS数据仓库中采用的是准三范式的建模方式去构建的、大约涉及到十几种数据源,建模中按照某一条主线把数据都集成起来
    这个数据仓库平台计划三年的时间构建完毕,第一阶段计划构建统统一生性周期视图、客户统一视图的数据,完成对数据质量的摸底与部分实施为业务分析与信息共享提供基础平台。第二阶段是完成主要业务数据集成与视图统一,初步实现企业绩效管理。第三阶段全面完善企业级数据仓库,实现核心业务的数据统一。
    在第一阶段数据仓库中的数据再次通过阶梯型高度聚合进入到数据集市DM(非挖掘集市)中,完成对业务的支撑。
    数据的ETL 采用datastage 工具开发(备注 大约06年我写了国内最早的版本datastage 指南 大约190页叫“datastage 学习版文档”。后来没再坚持下来)。
    数据集市架构
    (点击放大图像)

    本文由www.85058.com发布于互联网资讯,转载请注明出处:开展大数据审计前需要了解的8组概念

    关键词: