在《大规模数据管理》这本书的第二版中,作者Piethein Strengholt回应了在某个时间点表达和整理自己想法的特权及其带来的问题。
在第二版的序言中,斯特伦霍尔特解释说,《大规模数据管理》的第一版几乎与扎马克·德赫甘妮关于数据网状结构的博客文章在同一时间发布。这些文章,加上德赫甘妮随后撰写的《数据网状结构》一书,成功地引入了一种语言,这种语言描述了德赫甘妮和斯特伦霍尔特所倡导的思维方式——尽管存在一些细微差异。
Strengholt 面临的特权和问题是,他精准地描述了一种强大的关于大规模数据管理的思维模式,但是没有一个语言框架来描述它,现在看到这种语言正在出现,其中的词汇对他来说与 Dehghani 的理解方式不同。
所以需要再版了。
斯特伦霍尔特简洁地指出了集中式数据团队管理集中式数据管道并执行集中式数据转换的问题。这是公司在当今时代保持竞争力所面临的核心问题。一个团队无法为整个公司处理越来越多的任务。这种集中式的架构最终成了瓶颈。而解释如何构建这种分散式架构设计则是斯特伦霍尔特的研究重点。
借助数据网格的语言,Strengholt 在他书的第二版中,不再局限于对只读数据仓库/批处理作业(RDS)、应用程序编程接口(API)以及流媒体的抽象但详尽的描绘,这些工具用于在去中心化的架构中传输数据,并通过一个元数据层来确保数据可以被发现,进而保障数据治理和其他相关需求。相反,Strengholt 平滑地过渡到数据网格的语言,详细地扩展了各种模式和策略,以实现数据在不同域之间的传输。然而,对于 Strengholt 来说,现有的架构无法自动转变为 Dehghani 的理想网格,它必须在考虑到 RDS、API 和流媒体,并且受到遗留系统和日常操作中不透明数据流影响的 IT 环境中,实际且理想化地去中心化。
斯滕霍尔特有说服力地主张对数据产品进行重新解释;他们的数据和元数据是分离的。斯滕霍尔特用熟悉的阿勒斯梅尔鲜花拍卖作为例子,清晰地论证了与实物产品不同,数据产品与其元数据没有天然绑定:如今,元数据存放在独立的存储库中,如数据目录。因此,这只是斯滕霍尔特扩展并详细说明数据网格语言的一个例子。
在新版之后,公司可以开始大规模的数据管理。
[1] P. 斯特伦霍尔特 (Strengholt),(2023),《大规模数据管理》(https://www.amazon.com/Data-Management-Scale-Modern-Architecture-dp-1098138864/ref=dp_ob_image_bk),O'Reilly
共同学习,写下你的评论
评论加载中...
作者其他优质文章