供应商和工具中立的数据架构
什么是通用数据湖?
一种通用数据湖仓平台是一个新的数据平台,允许组织在单一位置存储和处理各种来源的数据,无论数据的来源、格式或用途。根据OneHouse的定义,通用数据湖仓基于开放数据格式,实现通用数据互操作性,并提供真正的存储与计算分离,这意味着组织可以摄取并转换来自任何来源的数据,在数据湖仓中集中管理,并使用他们选择的引擎进行查询或访问这些数据。
数据湖 vs 数据湖仓
传统上,数据湖被用作存储组织所有数据的中央存储库。然而,数据湖通常缺乏有效查询和分析数据所需的结构和治理机制。相比之下,数据湖仓结合了数据湖的存储能力和数据仓库的结构与治理优势。这使得组织不仅可以将所有数据存储在一个地方,还能够轻松地查询和分析这些数据。
数据湖和数据湖仓之间的一个关键区别在于ACID特性。ACID特性,即原子性、一致性、隔离性和持久性,这些特性保证数据交易的可靠性和完整性,防止数据损坏。由于数据湖仓具备ACID特性,你可以在数据湖仓中运行查询,而不仅仅把数据湖当作存档工具。
通用数据湖的价值
使用通用数据湖仓有许多好处,例如。如OneHouse所定义,其中包括一些关键的好处:
- 提升数据管理: 统一的数据湖仓可以为组织提供一个单一的存储和管理所有数据的场所,从而提升其数据管理能力。
- 简化分析: 统一的数据湖仓让组织的数据分析变得更加简单,通过一个统一的平台来支持数据查询和访问。它们支持包括Apache Hudi、Apache Iceberg和Delta Lake在内的多种数据访问格式,从而支持市场上99%的查询引擎、分析框架及其他工具。
- 降低成本: 通过消除对独立数据湖和数据仓库的需求,统一的数据湖仓可以帮助组织降低数据存储成本。现在,您不需要特定格式的数据存储孤岛(例如,Iceberg支持读取密集型工作负载,Hudi支持插入/更新密集型工作负载,Delta支持AI/ML/Spark工作负载)。
- 提高敏捷性: 统一的数据湖仓可以通过让数据访问和分析更加简单来帮助组织变得更加敏捷。现在您可以根据任务需求灵活选择最合适的查询引擎和分析框架,而不会“锁定”在某个特定系统中。
谁在建造通用数据湖仓?
几个供应商提供了通用的数据湖仓解决方案。比如,一些最受欢迎的供应商包括:
- Databricks
- Snowflake
- 亚马逊 Web 服务 (AWS)
- 谷歌云平台 (GCP)
- 微软 Azure
- OneHouse
这些供应商提供了多种功能和特性,所以在选择之前,一定要仔细评估您的需求。
点击查看更多内容
为 TA 点赞
评论
共同学习,写下你的评论
评论加载中...
作者其他优质文章
正在加载中
感谢您的支持,我会继续努力的~
扫码打赏,你说多少就多少
赞赏金额会直接到老师账户
支付方式
打开微信扫一扫,即可进行扫码打赏哦