数据治理包括哪些方面

数据治理包括哪些方面

2023年7月19日发(作者:)

数据治理包括哪些⽅⾯从技术实施⾓度看,数据治理包含“理”“采”“存”“管”“⽤”这五个步骤,即业务和数据资源梳理、数据采集清洗、数据库设计和存储、数据管理、数据使⽤。数据资源梳理:数据治理的第⼀个步骤是从业务的视⾓厘清组织的数据资源环境和数据资源清单,包含组织机构、业务事项、信息系统,以及以数据库、⽹页、⽂件和 API 接⼝形式存在的数据项资源,本步骤的输出物为分门别类的数据资源清单。数据采集清洗:通过可视化的 ETL ⼯具(例如阿⾥的 DataX,Pentaho Data Integration)将数据从来源端经过抽取 (extract)、转换(transform)、加载 (load) ⾄⽬的端的过程,⽬的是将散落和零乱的数据集中存储起来。基础库主题库建设:⼀般情况下,可以将数据分为基础数据、业务主题数据和分析数据。基础数据⼀般指的是核⼼实体数据,或称主数据,例如智慧城市中的⼈⼝、法⼈、地理信息、信⽤、电⼦证照等数据。主题数据⼀般指的是某个业务主题数据,例如市场监督管理局的⾷品监管、质量监督检查、企业综合监管等数据。⽽分析数据指的是基于业务主题数据综合分析⽽得的分析结果数据,例如市场监督管理局的企业综合评价、产业区域分布、⾼危企业分布等。那么基础库和主题库的建设就是在对业务理解的基础上,基于易存储、易管理、易使⽤的原则抽像数据存储结构,说⽩了,就是基于⼀定的原则设计数据库表结构,然后再根据数据资源清单设计数据采集清洗流程,将整洁⼲净的数据存储到数据库或数据仓库中。元数据管理:元数据管理是对基础库和主题库中的数据项属性的管理,同时,将数据项的业务含义与数据项进⾏了关联,便于业务⼈员也能够理解数据库中的数据字段含义,并且,元数据是后⾯提到的⾃动化数据共享、数据交换和商业智能(BI)的基础。需要注意的是,元数据管理⼀般是对基础库和主题库中(即核⼼数据资产)的数据项属性的管理,⽽数据资源清单是对各类数据来源的数据项的管理。⾎缘追踪:数据被业务场景使⽤时,发现数据错误,数据治理团队需要快速定位数据来源,修复数据错误。那么数据治理团队需要知道业务团队的数据来⾃于哪个核⼼库,核⼼库的数据⼜来⾃于哪个数据源头。我们的实践是在元数据和数据资源清单之间建⽴关联关系,且业务团队使⽤的数据项由元数据组合配置⽽来,这样,就建⽴了数据使⽤场景与数据源头之间的⾎缘关系。 数据资源⽬录:数据资源⽬录⼀般应⽤于数据共享的场景,例如政府部门之间的数据共享,数据资源⽬录是基于业务场景和⾏业规范⽽创建,同时依托于元数据和基础库主题⽽实现⾃动化的数据申请和使⽤。质量管理:数据价值的成功发掘必须依托于⾼质量的数据,唯有准确、完整、⼀致的数据才有使⽤价值。因此,需要从多维度来分析数据的质量,例如:偏移量、⾮空检查、值域检查、规范性检查、重复性检查、关联关系检查、离群值检查、波动检查等等。需要注意的是,优秀的数据质量模型的设计必须依赖于对业务的深刻理解,在技术上也推荐使⽤⼤数据相关技术来保障检测性能和降低对业务系统的性能影响,例如 Hadoop,MapReduce,HBase 等。商业智能(BI):数据治理的⽬的是使⽤,对于⼀个⼤型的数据仓库来说,数据使⽤的场景和需求是多变的,那么可以使⽤ BI 类的产品快速获取需要的数据,并分析形成报表,像派可数据就属于专业的BI⼚商。数据共享交换:数据共享包括组织内部和组织之间的数据共享,共享⽅式也分为库表、⽂件和 API 接⼝三种共享⽅式,库表共享⽐较直接粗暴,⽂件共享⽅式通过 ETL ⼯具做⼀个反向的数据交换也就可以实现。我们⽐较推荐的是 API 接⼝共享⽅式,在这种⽅式下,能够让中⼼数据仓库保留数据所有权,把数据使⽤权通过 API 接⼝的形式进⾏了转移。API 接⼝共享可以使⽤ API ⽹关实现,常见的功能是⾃动化的接⼝⽣成、申请审核、限流、限并发、多⽤户隔离、调⽤统计、调⽤审计、⿊⽩名单、调⽤监控、质量监控等等。

发布者:admin,转转请注明出处:http://www.yc00.com/web/1689763223a284192.html

相关推荐

发表回复

评论列表(0条)

  • 暂无评论

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信