作者供图
许多在 2024 年开始影响数据工程的趋势仍在 2025 年影响数据团队。人工智能仍在加速发展,数据湖和开放表格式比以往任何时候都更受欢迎。以下是我们对当前影响数据工程和人工智能趋势的看法,以及这些趋势对数据专业人员的影响。
1. 生成AI作为效率提升工具去年我对人工智能会将数据团队从成本中心转变为盈利中心的预测并未像我预期的那样实现。虽然生成式AI确实带来了可衡量的生产效率提升,但其对收入增长的影响在超大规模的云服务商和特定应用领域之外仍然有限。
代码助手(例如 Cursor、GitHub Copilot)加快了开发进程,AI 聊天机器人和搜索助手简化了工作流程——使团队能够用更少的人力完成更多的任务。
科技巨头(如Nvidia、AWS、Azure、Google)和LLM供应商在这场淘金热中通过销售相关工具获利,但大多数行业使用生成式人工智能来降低成本,而不是创造新的收入来源。例如,许多公司部署聊天机器人来削减支持成本,而不是通过机器人本身来获利。
2. AI 代理程序和推理方法2025年的许多数据团队正在试验代理型人工智能——能够自主规划任务并做出决策的系统。这些AI代理可以将任务拆分成更小的步骤,执行这些步骤,并与其他工具互动。
话说,当前的智能代理在处理复杂任务时仍然面临挑战。面对模糊性或多层次的问题时,他们可能会误解上下文,出错,或者陷入死循环,不知道何时跳出。
下一个改进浪潮可能会集中在两个领域:更加稳健的框架来平衡智能代理的自主性和控制,以及内置了推理时计算的新模型,使AI可以根据问题复杂度动态调整处理深度。像链式思维推理这样的技术(其中模型明确展示其逻辑)展现出特别的潜力。我们已经在2025年初从开源模型如DeepSeek-R1中看到了这一领域的令人兴奋的发展。
3. 大规模和小型的LLMs(^注:LLMs指大型语言模型)(Note: LLMs指大型语言模型,即Large Language Models。)
模型的规模继续分化。一方面,像 OpenAI 这样的大语言模型提供商建立了自己的数据中心,以支持极其庞大的模型,这些模型很快可能会拥有数万亿的参数。这些大型语言模型可以解决各种复杂的问题。另一方面,小型的模型(许多是开源的)可以在笔记本电脑或手机上运行,并且非常适合特定的用途。这两种方法扩展了数据团队部署生成式人工智能的范围和位置。
现代模型现在还可以将整个对话或文档保存在内存中。例如,最新的Gemini模型可以处理多达1百万个token。虽然这减少了基本任务对RAG(检索增强生成)的依赖,但大多数团队仍然会出于两个原因继续使用RAG:
- 成本控制:处理大量上下文会耗费大量资金
- 准确度:RAG利用专有数据(如公司内部文件)来增强模型的准确性
这些大型语言模型的发展,结合自主代理,带来了新的应用场景,比如:
- 客服机器人全程处理多问题工单
- 网络安全系统能够在遭受攻击时实时更新防火墙规则
但是风险也会随之放大。更大的上下文窗口可能会不小心存储敏感的用户数据,而较小模型的易用性则降低了垃圾信息活动和定向虚假信息传播的门槛。
4. 欧盟《人工智能法》让数据治理不可协商欧盟的人工智能法案于2024年8月生效,对高风险人工智能系统(如招聘工具、信用评分等工具)的严格规定将于2026年8月全面生效。这将会迫使团队在2025年需要在数据实践的两个关键领域进行重新思考。
1. 从根儿上防止偏见 — AI系统现在必须记录训练数据的来源并采取措施防止偏见。团队需要追踪数据从原始来源到模型输入的整个过程,确保数据从来源到模型输入的每一步都能被追踪到。
2. 精细化控制 —第10条 要求追踪访问敏感数据的谁以及访问的原因。Apache Iceberg的合并和删除功能可以帮助满足GDPR的“被遗忘权”,而与AWS Lake Formation的集成则可以实现列级别的权限控制。借助自定义RBAC、单点登录、SCIM、审计日志、输出和指标跟踪等功能,以及手动审批等特性,你可以将合规性融入数据工作流程中。
5. 云成本细究随着越来越多的AI和数据工作负载进入实际运行,云成本在上升。数据领导者开始更加关注他们运行作业的频率以及他们消耗的存储量。如果不对这些潜在成本进行密切监控,例如数据出口费用、闲置服务或频繁的数据转换,这些成本会快速累积。采用开放表格格式和更智能的数据编排,结合按需计算(如Kestra的任务执行器),有助于节省成本。
6. 对数据湖和开放表格式的需求成本优化继续推动数据湖的兴趣,团队通过结合如 Apache Iceberg 这样的 开放表格式 与对象存储来平衡治理和灵活性。该架构通常利用 Parquet 文件进行列式存储,而 Iceberg 的 元数据层 则提供了关键功能:
- 符合GDPR要求的行级数据删除
- 通过模式演进来适应变化中的数据模型
- 通过诸如AWS Lake Formation等目录集成RBAC功能
这种设置允许团队直接在对象存储中使用像DuckDB(临时分析)、chDB(轻量级聚合)或Polars(复杂转换)这样的引擎查询数据。虽然数据仓库仍然普遍用于管理关键任务的经过整理的关键数据集市,但趋势更倾向于使用以Iceberg为核心的开放混合湖仓结构。值得注意的是,像Databricks和Snowflake这样的主要平台现在也支持Iceberg,这减少了供应商锁定的风险,团队在优先考虑互操作性的同时,也在控制成本。
7. PostgreSQL 继续其上升为通用数据库的地位数据库界的“瑞士军刀”变得越来越全能。到了2025年,PostgreSQL 不仅在与专用数据库竞争,还通过一个充满活力的扩展和集成生态系统来增强自己的功能。三种趋势定义了这种演变的过程:
- AI/ML/OLAP扩展:向量搜索 (
pgvector
) 和直接查询数据湖(如ParadeDB的pg_analytics
)使团队可以在不离开PostgreSQL的情况下构建RAG并分析Iceberg表和S3数据。 - 混合工作负载:DuckDB集成使操作表和外部Parquet数据集之间的JOIN变得简单,而无服务器Postgres选项(如Neon)使扩展变得简单。
- 协议标准化:许多数据库(如Timescale)和分布式系统(如CockroachDB,YugabyteDB)优先考虑PostgreSQL兼容性以利用其开发者生态系统。
2024年 Stack Overflow 调查(https://survey.stackoverflow.co/2024/)显示,现在有49%的开发者使用 PostgreSQL——这是 PostgreSQL 首次超越 MySQL。这种增长得益于其 生态系统优先 的策略:PostgreSQL 并没有强迫用户采用新的工具,而是将它们整合进来,因此,许多人称它为 数据库界的 Linux——既稳定可靠,又具有高度适应性。
尽管许多开发者喜欢 PostgreSQL,但由于对专有系统的现有依赖,迁移数据库或在本地和云端之间移动工作负载仍然需要很多努力。数据引力是一个强大的因素,旧的应用程序往往不能像现代数据栈中的模块化组件那样被轻松替换。因此,许多数据工程团队多年来仍然停留在旧平台上,尽管现代技术很有吸引力。
不过有一个好消息。人工智能已经开始让一些迁移变得更加简单。AWS Database Migration Service (DMS)现在使用生成式人工智能来自动化将商业数据库(如Oracle)迁移到PostgreSQL时所需的时间消耗较大的转换任务。虽然它不能处理每一个边缘情况——专有函数和特殊数据类型仍然可能带来麻烦——但它可以显著减少数据库迁移的麻烦。这对于经常需要手动转换和迁移数据,经历漫长繁琐过程的数据工程师来说,无疑是个好消息。
原文::AWS 博客文章
9 工程效率的矛盾一些大型科技公司,比如 Salesforce,已经宣布在 2025 年不再招聘新的软件工程师。Meta 的 CEO 更是提出,AI 可能很快会取代整个中层软件工程师的层级。基于 AI 的工具可以用来编写代码、构建原型、生成测试以及自动化文档,这样就能用更小的团队更快地推进项目。
然而这并不意味着工程行业的衰落——这是一种重新校准。杰文斯的悖论在这里得到了体现:随着人工智能使得基本编码的成本降低,对这类工程师的需求也随之增加。
10. 用更少的工具做更多的事公司正面临着各种专门化的数据工具。为了应对这种复杂情况,团队正在将工作流程整合到统一的平台中——这种趋势通常被称为“平台化”。现代数据编排已经涵盖了实时流、动态机器学习管道和IT自动化,远远超出了传统的批量ETL处理方式。开源平台如Kestra通过统一这些方面,体现了这一转变。
- 工作流编排(代码优先或UI驱动)
- 基础设施管理(扩展和部署)
- API和流程自动化(审批流程、AI流程)
第十一. 人工智能在BI中:生成式BI与分析
生成式人工智能现在驱动了许多BI仪表板。分析师不再需要手动创建每个报告或从零开始编写SQL查询,他们可以用简单的语言描述他们的需求。工具如Databricks Assistants,Snowflake Cortex,Microsoft Fabric,或Amazon Q in AWS QuickSight能够通过集成的AI助手自动生成漂亮的图表和视觉效果。
不过,人的监管至关重要。AI 可以帮我们启动图表或发起查询,但还需要专业人员来确认这些数据是否正确,或者调整那些被误解的指标。
12. 数据角色的演变与发展生成人工智能继续帮助数据团队更高效地工作。许多常规任务——比如写转换代码、写单元测试或ETL数据管道——可以通过AI辅助的编码工具加速。这样就可以使数据专业人士有更多时间专注于更有战略意义的项目,例如设计成本效益的数据架构,并构建数据平台让不太懂技术的人也能以自助服务的方式搭建数据管道。
最后的感想随着数据领域的不断演变,保持灵活性,拥抱自动化工具,并依赖经过验证的模式和实践可以帮助团队茁壮成长并蓬勃发展。专注于领域专业知识并在利益相关者之间进行良好合作的数据专业人士将在2025年及以后表现出色。
[OOP]:面向对象编程(OOP)
[CRUD]:创建、读取、更新、删除(CRUD)
[JVM]:Java虚拟机(JVM)
[SUT]:系统被测(SUT)
共同学习,写下你的评论
评论加载中...
作者其他优质文章