BOB(中国)官方入口-BOB平台在线入口

栏目分类
热点资讯
BOB体育首页
你的位置:BOB(中国)官方入口-BOB平台在线入口 > BOB体育首页 > BOB体育首页 手把手教你数据仓库建设
BOB体育首页 手把手教你数据仓库建设

发布日期:2021-11-20 07:59    点击次数:54

本文转载自微信公多号「数仓宝贝库」,作者范钢孙玄。转载本文请有关数仓宝贝库公多号。

前线片面是对数据的采集,然后经过ETL过程,最后存入数据仓库。这片面是议决总共办法搜集数据BOB体育首页,然而它的建设与数据行使需求无关。由于数据仓库存储的是以前数年的数据,而数据行使需求总是在变。倘若数据行使需求一转折,就必要修改数据仓库的外组织,那么这数年的数据都必须要重新计算,体系就会起终处于一栽相等担心详的状态,维护成本极高。因而,只有数据仓库的建设与数据行使需求无关,才能保证需求变更对数据仓库异国影响,才能让体系安详运走。

后面片面是根据差别的数据分析需求,从数据仓库中获取数据,完善各自的数据分析,将最后的分析效果写入数据集市。数据集市的建设是与各自的数据分析的需求痛痒有关的,每次需求变更时,变更的是各自的数据集市,而不是数据仓库。

01多维数据建模

经过前线一系列的ETL过程,吾们最后将数据装载到数据仓库中。数据仓库是遵命多维数据模型的思路进走建设的。在多维数据模型中,动态数据就转化为了原形外,静态数据就转化为了维度外。进项发票原形外、销项发票原形外都是原形外,但从其中有关出了日期维度外、纳税人维度外、税务组织维度外、地域维度外与走业维度外。

多维数据模型的设计有两栽思路:雪花模型与星形模型,如下图所示。

雪花模型与星形模型

左图是雪花模型的设计,它最大的特点是在维度外上还要有关维度外,如在纳税人维度外的基础上还要有关走业维度外。云云设计比较容易理解,但会造成屡次的join操作,在海量数据中降矮查询性能。譬如,要对进项发票进走地域的统计,就必要将进项发票原形外与纳税人维度外相有关,再有关税务组织维度外、地域维度外,才能完善,这极大影响了体系性能。因此,为了升迁查询性能,基于空间换时间的思维,吾们又挑出了星形模型。

右图是星形模型的设计BOB体育首页,它最大的特点是不会再有维度与维度的有关,而是所有维度外都只与原形外有关。譬如对进项发票进走地域分析,只必要进项发票原形外有关地域维度外就能够了,在海量数据中的性能将得到极大的升迁。

接着,在以上原形外的基础上,还能够从差别的维度与粒度对数据进走汇总,BOB体育首页形成聚相符外。譬如对进项发票原形外遵命走业进走汇总或者遵命地域进走汇总形成“进项发票走业聚相符外”与“进项发票地域聚相符外”等等。

以上的分析都是在“开票主题域”中进走的但是遵命营业流程还有“申报主题域”“征收主题域”“稽查主题域”等如下图所示。云云数据中台就遵命营业模块划分为了多个主题域然后在各个主题域进走多维建模形成数据仓库。但各个主题域能够拥有共同的维度外如纳税人维度外、税务组织维度外等。

主题域模型

02数据中台的分层

数据中台的建设除了遵命主题域进走纵向划分还要通太甚层进走横向划分。数据中台通太甚层划分为原起数据层如下图所示。每一层的数据都存储在Hive数据库中然后议决Schema划分出差别的层次。

数据中台的体系分层

最底层是原起数据层。所有的原起数据都在这边议决Schema进走划分自哪个数据就存储在哪个Schema中并且外名与原起库的外名相反。

接着是细节数据层它是经过ETL过程以后导入数据仓库的原形外与维度外。ETL过程的中心一时外存入名为etl的Schema数据仓库的原形外与维度外存入名为dw的Schema。同时制定命名规范原形外以dw_fact_xxx命名如订单原形外dw_fact_order维度外以dw_dim_xxx命名如日期维度外dw_dim_date。

紧接着是轻度综相符层它是在原形外的基础上遵命差别维度与粒度形成的聚相符外。聚相符外以dw_agg_xxx命名如进项发票按纳税人聚相符外dw_agg_jxfp_nsr、进项发票按税务组织聚相符外dw_agg_jxfp_swjg等。

末了是在数据仓库之上的数据集市层它议决抽取前两层中的原形外与聚相符外的数据遵命差别的用户需求进走数据分析末了形成数据效果。数据集市既包括最后效果外也包括中心效果外。数据集市以dw_dm_xxx命名如“购车人未缴纳车辆购置税预警”属于“机动车消耗税”分析模块它必要计算出答免税数据dw_dm_jdcxfs_ms然后计算出未缴税数据dw_dm_jdcxfs_wjs。大无数通例数据分析就是云云议决SparkSQL进走的。

本书摘自《架构真意:企业级行使架构设计形式论与实践》经出版方授权发布。

双喜临门!神州数码又揽走业新闻化领军企业数据坦然能力获业界一定 一图胜千言腾讯位置服务数据可视化JSAPI重磅升级 如何为你的数据选择正当的流处理器? 阿里云再发力云原生数据库打造一站式在线数据处理平台 大数据时代下的数据治理

BOB电竞平台 BOB体育首页 BOB综合体育在线