Alpha Arena 揭示 AI 交易缺陷:西方模型在一周内损失 80% 资本
撰文:Juan Galt
编译:AididiaoJP,Foresight News
AI 能交易加密货币吗?来自纽约计算机工程师兼金融从业者 Jay Azhang 正在通过 Alpha Arena 对这个问题进行测试。该项目让最强大的大型语言模型相互对抗,每个模型拥有价值 1 万美元的资本,看哪个能在加密货币交易中赚更多钱。这些模型包括 Grok 4、Claude Sonnet 4.5、Gemini 2.5 pro、ChatGPT 5、Deepseek v3.1 和 Qwen3 Max。
现在你可能在想「哇,这真是个绝妙的主意!」 并且会感到惊讶,在撰写本文时,五个 AI 中有三个处于亏损状态,而 Qwen3 和 Deepseek 这两个中国开源模型领先。

没错,西方世界最强大、闭源、由谷歌和 OpenAI 等巨头运营的专有人工智能,在短短一周多的时间里已经损失了超过 8000 美元,占其加密货币交易资本的 80%,而东方的开源同行则处于盈利状态。
迄今为止最成功的交易?Qwen3 保持利润且持续盈利,仅通过简单的 20 倍比特币多头头寸。Grok 4 毫不意外地在比赛的大部分时间里一直以 10 倍杠杆做多狗狗币,曾一度与 Deepseek 一起位居榜首,现在却接近亏损 20%。也许埃隆·马斯克应该发个狗狗币表情包什么的,让 Grok 摆脱困境。

与此同时,谷歌的 Gemini 则无情地看跌,对所有可交易的加密资产做空,这一立场呼应了它们过去 15 年来的总体加密货币政策。
最后它连续一周做出了所有可能出现的错误交易,能做到那么差也是需要技巧的,尤其是当 Qwen3 只是做多比特币的情况下。如果这就是闭源 AI 所能提供的最好水平,那么也许 OpenAI 应该继续保持闭源,免得让我们遭受损失。
AI 的新基准
让 AI 模型在加密货币交易竞技场中相互对抗的想法具有一些非常深刻的见解。首先 AI 无法在预训练中获得加密货币交易知识测试的答案,因为它是不可预测的,这是其他基准测试所面临的问题。换句话说,许多 AI 模型在训练中就被提供了其中一些测试的答案,因此它们在测试时自然表现良好。但一些研究表明,对这些测试稍作改动会导致 AI 基准测试结果发生巨大变化。
这一争议引出了一个疑问:什么是智能的终极测试?根据 Grok 4 的创造者、钢铁侠爱好者埃隆·马斯克的说法,预测未来是智能的终极衡量标准。

而且我们得承认,没有比加密货币的短期价格更不确定的未来了。用 Azhang 的话说,「我们 Alpha Arena 的目标是让基准测试更接近现实世界,而市场对此来说是完美的。它们是动态的、对抗性的、开放式的且永远不可预测的。它们以静态基准测试无法做到的方式挑战 AI。市场是 AI 的终极测试。」
这种关于市场的见解深深植根于比特币诞生的自由主义原则之中。像穆雷·罗斯巴德和米尔顿·弗里德曼这样的经济学家在一百多年前就指出,市场从根本上说是中央政府无法预测的,只有那些需要承担损失的个体做出真实的经济决策时,才能进行理性的经济计算。
换句话说,市场是最难预测的事物,因为它取决于全世界智能个体的个人观点和决策,因此它是对智能的最佳测试。
Azhang 在其项目描述中提到,指示 AI 进行交易不仅是为了收益,还要考虑风险调整后的回报。这个风险维度至关重要,因为一笔糟糕的交易就可能抹去之前所有的回报,例如在 Grok 4 的投资组合崩盘中看到的那样。
还存在另一个问题,那就是这些模型是否从它们交易加密货币的经验中学习,这在技术上并不容易实现,因为 AI 模型首先进行预训练的成本非常高昂。它们可以用自己的交易历史或他人的历史进行微调,它们甚至可能将最近的交易保留在短期记忆或上下文窗口中,但这只能让它们走到这一步。最终正确的 AI 交易模型可能必须真正从自身的经验中学习,这项技术最近已在学术界宣布,但在成为产品之前还有很长的路要走。MIT 称它们为自我适应的 AI 模型。
我们如何知道这不仅仅是运气?
对该项目及其迄今为止结果的另一项分析是,它可能与「随机游走」无法区分。随机游走类似于为每个决策掷骰子。这在图表上会是什么样子?实际上有一个模拟器你可以用来回答这个问题;实际上看起来不会有太大不同。

市场中的运气问题也已被像纳西姆·塔勒布这样的知识分子在其著作《反脆弱》中相当仔细地描述过。他在书中论证,从统计学的角度来看,一个交易者,比如说 Qwen3,连续整整一周都很幸运,这是完全正常且可能的!从而导致其看起来具有卓越的推理能力。塔勒布的观点远不止于此,他认为华尔街有足够多的交易者,以至于其中一个人很容易连续走运 20 年,建立起神一样的声誉,周围所有人都认为这个交易者就是个天才,直到运气耗尽。
因此,为了让 Alpha Arena 产生有价值的数据,它实际上必须运行很长时间,并且其模式和结果也需要独立地进行复制,同时涉及真实资本的风险,然后才能被认定为与随机游走不同。
最终到目前为止,看到像 DeepSeek 这样开源、成本效益高的模型表现优于闭源的同行。Alpha Arena 迄今为止一直是一个很好的娱乐来源,因为它在上周已经在 X.com 上病毒式传播。它的未来走向谁也猜不透;我们将不得不看看其创造者所采取的赌博:给五个聊天机器人 5 万美元用于加密货币赌博,最终是否会得到回报。
欢迎加入深潮TechFlow官方社群
Twitter官方账号:https://x.com/TechFlowPost
Twitter英文账号:https://x.com/BlockFlow_News
1.资讯内容不构成投资建议,投资者应独立决策并自行承担风险
2.本文版权归属原作所有,仅代表作者本人观点,不代表本站的观点或立场
您可能感兴趣
-
Pharos 采用 Chainlink CCIP 作为跨链基础设施,并使用 Data Streams 赋能代币化 RWA 市场
可编程开放金融Layer-1区块链Pharos Network宣布采用Chainlink CCIP作为跨链基础设施,并利用Chainlink Data Streams提供亚秒级低延迟市场数据,共同打造
-
RWB:将现实世界业务代币化,开启 RWA 的新范式自从 2022 年“现实世界资产(RWA)”这一概念被广泛关注以来,主要的探索方向集中在将传统金融资产上链:例如代币化的股票、债券、房地产或信贷产品。 然而,这些尝试只是在把旧的金融工具换上新的链上外
-
BitMart 市场行情周报 10.20-10.26本周加密市场动态比特币现货 ETF 持续录得资金净流出,累计流出约 3.66 亿美元BTC 于 10 月初触顶后持续在 106,000–112,000 美元区间震荡,短期上方受限于 MA20 压力位。
-
盛宴与隐忧:政策利好能否支撑市场穿越波动?Hotcoin Research | 2025 年 10 月 20 日-24 日当前,加密货币总市值为 3.75 万亿美元,BTC占比 59.1%,为 2.21万亿美元。稳定币市值为3083亿美元,最近7日增幅0.39%,稳定币数量持续增长,其中USDT占比59.27%。 Coi
-
为何亚洲加密 VC 跑不赢欧美?作者:谷昱,ChainCatcher一个不容辩驳、显而易见的事实是,加密 VC 这个市场周期中走向式微,几乎所有 VC 机构的回报率、话语权、影响力都在不同程度上降低。 可以归纳的原因有很多,例如由于
-
大圣归来:孙宇晨的“孙悟空”,如何上演后发先至的合约传奇?
孙悟空的崛起,既是孙宇晨对去中心化合约赛道的又一次精准卡位,也象征着中文DEX叙事的重新崛起。受“1011黑天鹅事件”的冲击,近两周加密市场情绪明显转冷,整体交易量持续走低。比特币震荡回调,合约市场资
-
从去信任的 BTC,到代币化的黄金,谁才是真正的“数字黄金”?
比特币依赖算法共识实现“去信任”,而代币化黄金依赖机构信用,属于“再信任”模式。最近你身边讨论「黄金」的人,是不是越来越多了?对,我说的就是物理意义上的黄金。伴随着地缘政治风险和全球宏观经济不确定性的
-
x402 基金会的故事:从推动 x402 协议,到 AI 支付的金钥匙
x402 基金会如何将一行代码变成 AI 支付的金钥匙?撰文:链上启示录一个被遗忘的状态码如何撬动万亿市场。想象一下,你的 AI 小助手想帮你查个今日股价,但它被卡在了付费墙前——没有信用卡,没有账户
- 成交量排行
- 币种热搜榜
OFFICIAL TRUMP
Pepe
UXLINK
泰达币
以太坊
比特币
USD Coin
Solana
瑞波币
币安币
First Digital USD
狗狗币
大零币
莱特币
Avalanche
FIL
ZEN
OKB
EOS
CFX
UNI
LUNC
CAKE
LINK
FTT