AI 与数据狂飙，底层设施成最大阻力，谁来破局？

互联网阅读 30 2025-07-10 20:50:07

为什么数据成为最有价值的资源，而谁能真正解锁它，将定义下一个十年

技术发展的历史总会出现这样的节点：创新的速度远远超过了基础设施的承载能力。我们经历过拨号上网不堪重负的 Web1 时代，也看过视频流媒体如何迅速取代传统有线电视，更亲眼见证云计算彻底颠覆软件部署和开发方式。

今天，这种基础设施滞后的现象再次发生。而这次，主角是数据。

从 AI 到 IP，再到各类 Web3 应用，数据正逐渐成为推动全球经济的核心资源。它是一种资产类别，一种生产资料，也是一种新的经济组织形式。摩根士丹利预测，到 2032 年，高质量 AI 训练数据市场将超过 170 亿美元；而整体数据市场的规模已经突破 3 万亿美元。

但令人讽刺的是，这种巨额价值的资源，今天大多数依然处于沉睡状态：

这就像 20 世纪初的石油资源一样，明明遍地是金，却没有炼油厂、加油站和物流网络把它真正变成可以流通的经济价值。

今天，AI 模型对高质量结构化数据的需求越来越大。但最有价值的数据资源都掌握在少数几家科技巨头手中。全球约 95% 的训练数据由五家公司控制，而开放的数据往往是网页爬取的结果，噪声大、重复多，法律风险也越来越高。

这不仅使得 AI 模型效果受限，也让整个行业陷入“劣币驱逐良币”的困境：

开源模型不得不依赖低质量的训练数据；低质量数据的问题在于其数据的准确性难以验证，而且在大多数情况下存在偏差。用低质量数据集来扩展 AI 几乎是不可能的。
数据生产者得不到激励，数据稀缺进一步加剧；
法律纠纷频发，AI 公司面临版权不清晰的巨大风险。之所以会出现这些诉讼，是因为一些大型 AI 所使用的训练数据是在未经许可的情况下获取的。大多数人甚至都不知道自己的数据被用来训练 AI。这其中蕴含着巨大的价值，但却被大型科技公司提取并垄断。

面对这些问题，已有不少解决方案尝试弥补数据基础设施的缺陷。但多数仍然是“拼凑式”的短期应对，缺乏系统性、集成性和可持续性。例如：

它们分别解决了某些环节的问题，却无法提供一个结构化、原生可组合、可执行的数据基础设施。

但Irys在这里给出了不同的答案：

为数据与执行协同而生的网络

Irys 正是为解决上述根本问题而设计的下一代链上数据网络。

首个在区块链层面原生构建“从存储层到执行层”的低成本路径的项目。执行层既不是部署在 Irys 之上的二层（L2），也不是运行在 Irys 上的某个应用程序，而是直接内建于主网协议中的核心功能。目前还没有其他网络做到这一点。

为 AI 和 IP 而优化：可编程数据可以携带授权、交易、自动化指令，AI 模型可以原生调用训练集，创作者可以嵌入版权和收益分配逻辑；当然这里还有更多可能，这一切的上限只取决于开发者的创造力。
生态协同：数据库协议可以结构化数据、搜索协议可以提供索引、变现协议可以支持数据许可与付费访问——所有工具都基于同一个基础网络运行，实现应用间的组合与复用。

具体例子，本质上，Irys 上的协议可以相互共享和发现数据，从而孕育出一个生态系统，在这里，数据成为推动数据创作者实现更复杂变现方式的燃料。这种机制为应用之间互相利用彼此数据创造价值提供了基础，而这些价值最终又会反哺整个主网络，形成正向循环。