自助分析的目的在于让公司内部的数据更民主化,通过提供更直接的数据访问,让更多角色接触数据。这样做自然会带来新的数据完整性挑战。这是否一定会导致混乱呢?
四幕式数据混乱
文化向左偏移对于那些来自更传统数据文化的团队而言,其中数据工程师是确保数据完整性的关键,左移 概念可能是一个很大的挑战。因为它需要我们改变工作方式,通过在数据生命周期的早期阶段引入测试和审查环节。
这里是我最近在Reddit上看到的一个帖子,概括了许多团队可能正在经历的困境(为了便于阅读,我对原文做了一些改动)。
数据乱战四幕- 总监告诉数据团队要专注于提供自助数据和分析服务。
- 数据团队警告总监注意数据完整性的风险。
- 总监表示,业务部门有需要的数据比数据完整性更重要。
- 一片混乱。
在那条帖子中,很多人的最初反应是建议原贴作者接受混乱。只有这样,高层才会意识到这根本无法实现罢了。
确实,没有适当的支持,情况可能会一团糟,特别是那些从遗留数据项目迁移过来的团队,他们由于根深蒂固的流程,无法享受推倒重来并一开始就采用最佳做法的机会。
Cal-ITP 数据基础设施项目中的 dbt 最佳实践 Cal-ITP 使用标准化的 PR 模板和自动化报告来进行全面的 PR 审核。看看他们的实际操作流程……, medium.com与其接受混乱,不如拥抱提升数据团队作用的机会。
数据成为焦点整个转型过程应提升公司对数据的重视,并提高数据工程师的地位,以支持自服务文化。
早点复习,经常复习最重要的是要有审查流程。审查至关重要——要早审,要常审。
- 了解代码更改对数据管道的影响情况。
- 能够自信地说数据是正确的。
- 有历史依据确保数据的正确性。
有了恰当的审查流程,就可以在采用自助数据分析工具的过程中保持数据完整性。数据变更的变更审批流程应在两个领域落实。
- 用于同行评审的团队结构。
- 用于有效评审的工具和资源。
详细的团队结构分析超出了这个简单的博客的范围,但从宏观角度来看,你应该包括:
- 一名主要的数据和分析工程师,负责实施变更并进行初步数据检查
- 一名次要角色,通常是由于他们在该领域的专业知识而被选中,负责审核工作并在签字批准之前进行任何必要的额外数据检查
你也可以让非工程背景的人看看这些数据,比如更接近数据的人,如市场或财务人员。这时,恰当的工具就能帮上大忙。
复习用的工具正确的工具将帮助你在工作中更有效率,在进行公关数据检查时,你将在公关数据检查的每个阶段进行检查工作。
- 在开发中、持续集成(CI,持续集成)、在审查中
在开发过程中做的数据检查的结果最好跟评审人员分享一下。
这些检查也应记录,以便在PR(拉取请求)过程中如果数据转换或模型代码发生变化时可以再次运行。
数据检查的结果也应该以一种易于理解的形式展示,让非工程或技术背景的人员也能查看数据,而不必检出代码和构建项目。
一个用Recce来做dbt数据检查的例子Recce 是一个数据验证工具,专为 dbt 数据项目中的代码审查设计。使用 Recce,你可以轻松进行数据验证:
- 确保数据准确一致
- 确保 PR 请求符合项目要求
- 自动化测试数据转换和建模过程
-
提高数据项目的可靠性和易维护性
- 创建并保存数据检查至检查清单
- 分享和导出数据检查清单
- 在持续集成中运行,并根据检查结果发出数据变更警报
- 自动同步检查,以便在Recce Cloud中进行协作审查
自助分析可能会让人觉得混乱,但它不必如此。通过建立一套结构化的审查流程,你可以确保数据的完整性,同时赋予公司内部更多角色更多的权限。关键是尽早并频繁地进行审查,借助正确的工具和团队的支持。
共同学习,写下你的评论
评论加载中...
作者其他优质文章