数据资产管理之数据资产盘点与目录搭建

发布日期:
2024-03-20

浏览次数:

数据资产盘点

对于银行业金融机构而言,数据是通过驱动业务发展和提升经营质效服务,从而实现其价值的,“数据即资产”“数据有价”的观念已逐渐成为行业共识。

怎样识别数据资产、有效管理和运营数据资产,利用现有的数据资产创造价值,也是数据治理中的一项重要工作和目标。接下来我们聊聊怎么盘点数据资产、编制和应用数据资产目录。

数据资产的分类

把数据想象成实物资产,如大型超市的库存商品,如果没有进行商品盘点,形成分类索引,记录每件商品的价格、生产日期、供应商、产地、物流、仓储、销售等信息,对于商品管理将一团混乱。数据资产的管理同样如此。我们对数据资产进行识别与盘点,了解数据的存储分布和加工链路;按业务视角建立数据资产主题分类和目录,形成数据层面业务与技术的链接,是数据认责、数据标准建立、数据质量管理、数据安全定级及权限管理等一系列数据管理工作的基础。

和实物资产一样,数据资产也需要通过盘点,对必要的信息进行记录。这时,就要介绍元数据的概念了。类比超市商品,我们会对其分类、用途、产地、生产日期、保管员等方面的信息进行描述与记录。对于数据,我们同样也会对其分类、来源、分布、采集日期、管理责任人等信息进行记录。这些用于“描述数据的数据”,我们就称之为“元数据”。按照描述的不同视角,我们又将元数据分为业务元数据、技术元数据、管理元数据。

1. 业务元数据:从业务视角描述数据,如数据的主题分类、概念模型、业务含义、业务规则等,形成统一的数据语言。

2. 技术元数据:从技术的视角描述数据,如数据所在的存储位置(库、表、字段)、字段长度、字段类型、SQL脚本、血缘关系(ETL过程、接口映射)等。

3. 管理元数据:从管理的视角描述数据,如数据的管理部门、管理责任人等。

数据资产盘点方法

对数据进行盘点,一方面通过业务视角的自上而下演绎,确保数据可以按照业务的视角进行组织(需要用到业务元数据,对数据进行主题分类、属性分类、含义描述);另一方面结合技术视角自下而上归纳(需要用到技术元数据,对数据的存储分布、血缘关系等进行描述),并通过建立目录中数据项与系统信息项的映射关系,保证每个数据资产项对应可以在真实的信息系统中查找到。

不过也如超市库管员会用传送带、扫码枪这些辅助工具进行盘点一样,高度复杂的银行业务以及庞杂的信息系统,单纯依靠手工方式对各个库表结构、ETL关系等技术元数据进行采集十分耗费时间和人力,需要采用一些技术工具实现自动化采集、版本管理,这类工具平台也通常包含数据地图、血缘分析、影响分析等元数据的应用功能。

数据资产盘点内容

基于不同的数据来源,根据不同的划分策略,盘点的内容侧重会有所不同:

1. 基础数据:需要盘点数据分布在哪些IT系统,区分其中哪些是需要跨系统流转、共享使用且变化缓慢的主数据信息,哪些是与IT系统定位相匹配的业务流程交易信息。

2. 衍生数据:需要盘点数据的不同应用场景,比如监管、统计、内部管理等等。一方面根据衍生数据基于不同使用场景进行分类,另一方面通过盘点,梳理对基础数据的使用热度。

3. 外部数据:需要盘点外部数据需求、数据类型、数据来源、采集频率、获取成本、数据质量以及数据价值评估方式等。

以一个“客户中文姓名”的基础数据项为例,通过数据资产盘点,我们可以得到关于数据资产的以下方面信息:

数据资产管理之数据资产盘点与目录搭建


数据资产目录的编制与应用

根据Gartner给出的定义,数据资产目录是通过发现来创建和维护数据资产清单,描述和组织数据资产的分布的一种工具。

数据资产目录特点

区别于技术人员使用的数据字典,数据资产目录的定位是面向业务的,鼓励业务人员参与建设和使用十分关键,数据资产目录必须是业务人员所熟悉的场景和流程,是客观反映银行目前数据现状的,是可扩展的支持未来取数用数的。

一个使用友好的数据资产目录,能够打通查数/取数环节、打通基础类数据和指标类数据的联系,并通过人工智能和机器学习等先进技术,更好地支持数据的探查和关联推荐。

数据资产目录体系框架

我们在进行数据资产目录构建时,需要结合数据资产类型,定义数据资产的属性,不同资产类型对应不同业务属性,管理属性,应用模式、资产目录视角等,达到千数千面的效果,最终形成数据资产权威、可信、可用的企业级数据资产目录。

以业务领域构建资产目录为例,可以通过资产盘点,梳理银行数据主题分类/核心业务板块,再根据业务要素逐步向下划分二级目录、三级目录,最后到叶子结点的信息项上。信息项的定义也是从业务出发,梳理业务板块都有哪些数据内容,例如客户信息包括:客户名称、联系方式、地址、证件类型、证件号码等。

数据资产管理之数据资产盘点与目录搭建

数据资产分布与映射关系建立

在技术元数据采集的基础上,探索信息项所属系统来源,确认其系统分布情况,将数据资产信息项与物理表/字段间构建映射关系,并确定权威数据来源。对于单个业务系统而言,只需要将主表中经过分析最准的内容映射过来,而不是所有表,避免数据使用者因为多表冗余存储造成混淆。

我们以“客户中文姓名”这一信息项为例,梳理数据来源与系统表映射关系如下:

数据资产管理之数据资产盘点与目录搭建


数据资产目录的应用价值

通过数据资产目录,可以解决数据在哪里、数据谁负责,数据如何用等一系列问题。数据资产目录的准确性,也决定了应用时的效果。

数据在哪里:业务部门能够通过数据目录查询到现有数据资产情况以及索引对应的系统表字段,定位权威系统数据来源。

数据谁负责:在数据质量检核规则发现问题时,根据字段所属的数据资产来确定数据质量问题的牵头整改责任归属。

数据如何用:精准定位数据所在系统/表/字段,提升数据提取需求的准确性和效率;打通系统间形成的数据孤岛,实现编码规则等标准的统一规范、使数据互联互通。