现代数据架构的五个原则

发布日期:
2024-05-13

浏览次数:

数据架构(DA)原则是一组策略,通过收集、集成、使用和管理数据资产的操作规则来管理企业数据架构。数据架构原则的基本目的是保持支持性数据架构的清洁、一致和可审计。整个企业数据架构的战略是围绕这些原则构建的。

近年来,数据架构(DA)原则进行了重大改革,以适应现代数据管理系统、流程和程序。现代数据架构(DA)原则有助于为支持高度优化的业务流程并为设计现代的数据架构奠定基础——数据管理趋势。

以下是迫使全球组织根据现有的数据管理趋势对重新审视现有数据架构的原因列表:

  • 从内部部署转移到基于云部署的数据平台

  • 必须降低的数据流处理成本,数据流的实时处理需求增长,而不是仅仅支持数据的批处理操作

  • 传统的商业数据平台被支持可扩展和可定制的模块化商业数据平台解决方案所取代

  • 数据访问过程中的数据重用需求和 API数据接入需求

  • 数据从数据湖的存储转向基于数据域方式的数据存储

  • 从传统的数据模型设计模式转变为敏捷的数据模型设计模式

在企业内部,每个用户都想希望可以定期得到最新的干净、易于访问的数据。有效的数据架构可以标准化所有数据管理流程,以便将数据快速交付给需要的人。现有的数据架构设计需要持续改进以跟上不断发展的数据管理要求。

”麦肯锡“观察到,近年来在全球企业中“已经部署了许多新技术和先进的技术平台”,这些新技术解决方案,如数据湖、客户分析平台或流处理,给企业底层数据架构可提供的性能能力带来了巨大压力。我们发现现有的数据架构未能提供强有力的支持,甚至未能有效支撑维护现有的数据基础设施。

此外,随着 AI 和 ML 平台越来越多地用于业务分析和 BI 活动,所以是时候彻底改革企业数据架构了。与任何技术转型一样,数据架构原则为当今“开发、尝试和测试”等方面的数据架构与传统数据架构会有明显区别。

现代数据架构的五项基本原则

随着企业数据继续呈指数级增长,全球企业正在通过数据治理计划实施大量数据素养能力来应对这种惊人的数据增长。 然而,为了从数据中获得最大的商业价值,组织还需要数据战略思维以及先进的技术。

为了利用数据作为竞争资产,不少组织现在已经转向从基本的数据架构(DA )原则来寻求答案。下面部分将重点关注支持企业数据活动成功的五个基本数据架构原则:

数据质量 (DQ) 是强大数据架构的核心要素。数据质量对于构建有效的数据架构至关重要。管理良好的高质量数据有助于构建准确的模型和强大的模式。高质量的数据还有助于提取有价值的见解。经常被忽视的是,DQ 是良好数据架构的核心原则。数据质量对数据架构的支持是最容易被遗忘的方面之一。

数据治理(DG) 是构建数据架构的关键因素。与上述原则密切相关的是,DG 政策管理企业数据,无论其来源、类型或数量如何。在数据生命周期的任何时候,用户都必须知道位置、格式、所有权和使用关系,以及与数据相关的所有其他相关信息。因此,数据治理策略对数据架构的成功至关重要,因为它们在可扩展性、DQ 和合规性问题上执行“看门狗”的工作。

数据来源对于定期审核是必要的。数据来源是一组关于数据的信息,它从原始来源跟踪数据,直到数据被处理为止。如果用户不知道如何收集、清理和准备数据,那么他们就不会知道底层数据架构的可靠性。

上下文中的数据是必需的元素。区分属性将一个数据实体与另一个数据实体区分开来。用户首先需要了解数据中存在的实体以及哪些属性将它们彼此区分开来。除非完成此步骤,否则用户将无法理解数据的上下文或其提取见解的角色。区分属性可帮助数据架构师理解上下文中的数据,这是数据建模的必要步骤。

需要了解每个属性的详细信息粒度。数据架构师必须确定每个属性所需的详细信息级别。数据架构需要在正确的详细级别存储和检索每个属性;因此,这是构建高性能数据架构的关键步骤。

现代大数据架构原则

任何关于数据架构的讨论,如果不提及大数据,肯定会把一个关键方面排除在讨论之外。大数据表示 PB 级的多结构化、多类型数据,必须对其进行管理才能进行有意义的分析。以下是构建现代大数据架构的一些原则:

集中式数据管理:在此系统中,所有数据孤岛都被替换为跨职能的业务数据的集中视图。这种类型的集中式系统还支持客户数据的360度视图,并能够关联来自不同业务功能的数据。

自定义用户界面:由于数据是集中共享的,因此系统提供了多个用户友好的界面。接口类型与用途一致,例如用于 BI 的 OLAP 接口、用于分析的 SQL 接口或用于数据科学工作的 R 编程语言。

数据使用的常用词汇:企业数据中心确保通过通用词汇表轻松理解和分析共享数据。此常用词汇可能包括产品目录、日历维度或 KPI 定义,而不考虑消费类型或使用数据的类型。共同的词汇消除了不必要的争端和和解努力。

受限制的数据移动:频繁的数据移动对成本、准确性和时间有很大的影响。云或Hadoop平台为此提供了解决方案;它们都支持用于并行处理数据集的多工作负载环境。这种类型的体系结构消除了对数据移动的需求,从而优化了成本和时间投资。

数据管理: 数据管理是减少用户对存储在集群中的数据访问的挫败感的绝对必要条件。数据管理步骤(如清理原始数据、关系建模、设置维度和度量)可以增强整体用户体验,并帮助从共享数据中实现最大价值。

系统安全功能:像Google BigQuery或Amazon Redshift这样的集中式数据管理平台需要对原始数据实施严格的安全和访问控制策略。如今,许多技术解决方案都有助于数据架构具有内置的安全性和自助服务功能,而不会影响访问控制。