2026 年数据与人工智能的 7 项预测

026

 

支撑人工智能的基础设施正在被彻底重建。以下是哪些部分会改变,哪些部分不会改变 。

每年我们都会看到关于 SQL 消亡、Lakehouse 架构崛起,或者某种将颠覆一切的新范式的预测。但大多数预测最终都落空了。

但2026年的感觉截然不同。这并非因为炒作,而是因为融合。多年来积蓄的力量终于达到了临界点:开放表格格式已经成熟,人工智能功能已可投入生产,而集成50种工具的数据堆栈的成本已变得难以承受。

以下是我根据与数百位数据领导者的对话、我们在 Sifflet 的工作模式以及整个行业正在发生的巨大变革所看到的趋势。

预测0:基本功依然重要

在进入激动人心的部分之前,让我们先脚踏实地一些。

架构变更仍然会破坏管道。NULL 值仍然会导致报告损坏。周末无人监控时,仍然会出现流量异常。

据 Gartner 估计,数据质量差每年平均给企业造成 1290 万美元的损失。许多研究报告发现,数据团队高达 40% 的时间都耗费在数据质量问题上,而这些时间本可以用于战略性工作。

“可能实现的”和“实际部署的”之间存在巨大差距。大多数团队仍在努力解决基本的容量和新鲜度检查问题。

到2026年,问题的关键不在于这些问题是否存在,它们肯定存在。关键在于你是能在 几分钟内还是几天内发现它们,以及你是手动修复还是自动修复。

这是贯穿接下来所有内容的共同主线。

预测一:开放式数据可观测胜出,但元数据成为战场

存储层之争已经结束。Iceberg、Delta Lake 和 Hudi 胜出。Parquet 已成为通用语言。“我的数据存储在哪里?”这个问题有了明确的答案。

但现在的情况是:战争正在向上游转移。谁掌握了元数据层,谁就掌握了情报层。

026

元数据层将是下一场战斗的战场。

看看发生了什么:

Snowflake推出了Polaris,作为Iceberg的开放目录。Databricks正在推广Unity Catalog,将其作为通用治理层。ApacheGravitino(孵化中)则将自身定位为厂商中立的替代方案。

这为什么重要?因为目录不再仅仅是一个技术组件,它正在成为数据的操作系统。数据沿袭、质量规则、访问策略、业务上下文等等,所有这些都存在于元数据层中。

如果你的可观测性工具不能原生理解 Iceberg 表演变、时间旅行和分区元数据,那么它就已经过时了。

这意味着:基于开放格式构建的数据可观测性将胜过那些将 Iceberg 视为事后补救措施的工具。原生集成并非一项功能,而是基本要求。

预测二:50种工具的数据堆栈将简化为5个平台

我们已经达到了工具疲劳的顶峰。

平均而言,企业数据团队管理着 15 到 30 种不同的工具。这些工具涵盖数据采集、转换、编排、质量控制、编目、治理、可视化等各个方面,每种工具都有自己的供应商、自己的用户界面以及自己的一套思维方式。

026

数据堆栈的整合正在加速进行。

集成成本正在扼杀生产力。Fivetran 的研究表明,数据工程师 40% 的时间都花在了集成工作上,而不是创造价值。这种情况不可持续。

2026年,整合进程将加速:

Snowflake整合了更多功能——笔记本、流媒体和机器学习服务。Databricks在治理和商业智能领域深耕。dbtLabs从一款工具发展成为一个平台,拥有语义层和 dbt Cloud。而那些原本各自独立的解决方案要么被收购,要么难以保持市场地位。

如果你在 2026 年还在构建一个单一的解决方案,那么你构建的将是一个收购目标,而不是一家公司。

最终的赢家将是那些能够通过单一元数据图谱,实现从数据摄取到转换、再到服务、最后到可观测性的完整流程的平台。这并非因为捆绑式方案更好,而是因为集成过程实在太痛苦了。

预测3:数据质量将成为一项业务职能,而非一项工程任务

我问每位数据负责人一个问题:“当你的数据管道出现故障时,会对收入造成什么影响?”

大多数人答不上来。他们能告诉我哪个表有空值,哪个作业失败了,服务水平协议 (SLA) 违约持续了多久。但他们无法将这些信息与首席财务官的仪表盘出错或机器学习模型给出错误建议联系起来。

这种情况将在2026年发生改变。

数据质量指标从工程指标转向业务成果。服务水平协议 (SLA) 也以业务术语来定义:收入风险、受影响的客户、决策延迟。

Gartner预测,到2026年,80%的组织将部署利用人工智能/机器学习功能的数据质量解决方案。但更大的转变在于组织架构:首席数据官(CDO)不仅要负责数据工程团队,还要负责与业务成果相关的可靠性。

数据合同;生产者和消费者之间关于数据模式、新鲜度和质量的正式协议正成为标准做法。这并非因为它们时髦,而是因为没有它们,就没有问责机制。

如果你的质量工具无法回答“这次失败对收入的影响是什么?”,那么它就无法解决实际问题。

在 Sifflet,这是我们思考可观测性的核心。将技术异常与业务背景联系起来并非锦上添花,而是关键所在。

预测 4:人工智能代理将取代仪表盘进行数据操作

这是我最确信的预测。

二十年来,数据可观测性一直意味着仪表盘。一旦出现故障,你会收到警报,打开用户界面,然后手动调查。也许一个小时就能找到根本原因,也许要花上一整夜。

这种模式已经失效了。

026

从被动式仪表盘向自主代理的转变。

2026年,人工智能代理将承担运营重任:

能够理解业务上下文而非仅仅关注技术指标的检测;能够自动追溯溯源、关联跨系统信号的调查;能够应用修复方案、验证结果并从每次事件中吸取经验教训的解决机制。

凌晨两点的作战室变成了一条 Slack 通知:“收入渠道中检测到问题。根本原因:CRM 同步中的上游架构更改。已应用修复。验证通过。”

检测功能已经商品化。任何工具都能告诉你哪里出了问题。推理和行动才是新的护城河。

这并非是在现有工具中添加聊天机器人,而是要从根本上重新思考,当人工智能能够承担调查工作时,可观测性究竟意味着什么。

预测五:人工智能重塑数据基础设施格局

对于业内一些人来说,这是一个令人不舒服的事实:数据栈最初是为了服务于仪表盘而构建的,而不是为了服务于人工智能。

但如今,人工智能已成为许多组织的主要数据使用者。特征存储、嵌入管道、RAG架构、数据集微调,这些都与我们之前优化的商业智能工作负载有着不同的需求。

人工智能模型对错误数据的容忍度比人类解读数据面板时要低得多。人类可以识别异常值并忽略它,但模型却会利用这些异常值进行训练。

到 2026 年,我们预计会出现两种类型的公司:

AI原生架构:从零开始重建的基础设施,专为服务AI工作负载而设计。写入时而非读取时进行质量验证。元数据内置丰富的语义信息。血缘关系不仅跟踪表,还跟踪特征和嵌入。

AI附加式:传统数据堆栈,AI功能只是事后添加的。仪表盘上的聊天机器人。能够生成SQL语句但无法理解业务上下文的辅助驾驶系统。

到2026年,所有数据工具都将具备人工智能层。但大多数工具将只是封装层,而非原生层。这其中的区别至关重要。

最终胜出的公司并非在现有产品中添加人工智能,而是从零开始重新构建产品以适应人工智能。

预测六:语义层终于迎来了它的时刻

多年来,语义层一直被视为锦上添花的功能。一些技术精湛的团队会实施它,但大多数团队却会忽略它。

人工智能改变了计算方式。

问题在于:当你要求LLM生成“按地区划分的收入”查询时,它需要知道“收入”在你组织中的具体含义。是总额还是净额?是否包含退款?哪些表包含规范定义?

如果没有语义层,文本到 SQL 的转换就只是猜测。

dbt 的语义层、Cube 和 AtScale 等解决方案解决了困扰分析团队数十年的“不同仪表盘显示不同数据”的问题。但对于人工智能应用场景而言,这些解决方案已成为必不可少的工具,而非可有可无的选择。

语义层是业务逻辑以代码形式存在的地方,而非经验知识的载体。人工智能代理需要这种上下文才能发挥作用。数据质量工具也需要它来验证哪些内容真正重要,而不仅仅是哪些内容存在。

语义层成为技术数据和业务意义之间的桥梁。没有它,人工智能就无法跨越这座桥梁。

共同点

如果说这七项预测有一个共同的主题,那就是:

数据基础设施正在从被动式向主动式转变。

被动:存储、转换、可视化,等待人类发现问题。

主动:理解、推理、行动,从每一次互动中学习。

最终胜出的平台将是那些将智能技术融入到每一层架构中的平台,而不是事后才添加智能技术的平台。这意味着:

• 能够理解业务上下文的元数据,而不仅仅是技术模式

• 质量要与收入影响挂钩,而不仅仅是行数

• 可观测性能够调查并解决问题,而不仅仅是发出警报

• 基础设施是为人工智能工作负载而构建的,而非改造而来

基本原理依然重要。架构变更仍然会导致问题。但如何检测、调查和解决这些问题,才是制胜的关键。

作者:晓晓

来源:数据驱动智能

扫一扫 微信咨询

联系我们 青瓜传媒 服务项目

商务合作 联系我们

本文经授权 由青瓜传媒发布,转载联系作者并注明出处:https://www.opp2.com/378818.html

《免责声明》如对文章、图片、字体等版权有疑问,请联系我们广告投放 找客户 找服务 蘑菇跨境
企业微信
运营大叔公众号
运营宝库
运营宝库H5