从清算风暴到云宕机:加密基础设施的危机时刻
亚马逊网络服务再次遭遇重大中断,严重影响了加密基础设施。美国东一区域(北弗吉尼亚数据中心)的 AWS 问题导致 Coinbase 以及包括 Robinhood、Infura、Base 和 Solana 在内的数十个其他主要加密平台瘫痪。
AWS 已承认影响 Amazon DynamoDB 和 EC2 的「错误率增加」,这是数千家公司所依赖的核心数据库和计算服务。这次中断为本文的中心论点提供了即时、鲜明的验证:加密基础设施对中心化云服务提供商的依赖造成了系统性漏洞,这些漏洞在压力下反复显现。
这个时机具有严峻的启发性。就在 193 亿美元的清算连锁事件暴露了交易平台层面的基础设施故障十天后,今天的 AWS 中断表明问题已超出单个平台,延伸至基础性的云基础设施层。当 AWS 出现故障时,级联影响会同时波及中心化交易平台、具有中心化依赖的「去中心化」平台以及无数其他服务。
这不是孤立事件,而是一种模式。以下分析记录了 2025 年 4 月、2021 年 12 月和 2017 年 3 月发生的类似 AWS 中断事件,每次都导致主要加密服务瘫痪。问题不在于下一次基础设施故障是否会发生,而在于何时发生以及触发因素是什么。
2025 年 10 月 10-11 日的清算连锁事件为基础设施故障模式提供了一个具有启发性的案例研究。在 UTC 时间 20:00,一项重大的地缘政治公告引发了市场范围的抛售。一小时内,发生了 60 亿美元的清算。到亚洲市场开盘时,160 万交易者账户中已有 193 亿美元的杠杆头寸蒸发。
这个交互式时间线图显示了每小时清算量的戏剧性进展。仅第一小时就有 60 亿美元蒸发,随后在连锁加速的第二小时更为剧烈。可视化显示:
· 20:00-21:00:初始冲击 - 60 亿美元被清算(红色区域)
· 21:00-22:00:连锁高峰期 - 42 亿美元,此时 API 开始限流
· 22:00-04:00:持续恶化期 - 在流动性稀薄的市场中 91 亿美元被清算
· 关键转折点:API 速率限制、做市商撤退、订单簿变薄
其规模至少比以往任何加密市场事件大一个数量级,历史比较显示了此事件的阶跃函数性质:
条形图比较戏剧性地说明了 2025 年 10 月事件的突出程度:
· 2020 年 3 月(COVID):12 亿美元
· 2021 年 5 月(暴跌):16 亿美元
· 2022 年 11 月(FTX):16 亿美元
· 2025 年 10 月:193 亿美元比先前记录大 16 倍
但清算数字只讲述了故事的一部分。更有趣的问题关乎机制:外部市场事件是如何触发这种特定故障模式的?答案揭示了中心化交易平台基础设施和区块链协议设计中的系统性弱点。
交易平台 API 实施速率限制以防止滥用和管理服务器负载。在正常操作期间,这些限制允许合法交易同时阻止潜在攻击。在极端波动期间,当成千上万的交易者同时尝试调整头寸时,这些相同的速率限制就成了瓶颈。
CEX 将清算通知限制为每秒一个订单,即使在每秒处理数千个订单时也是如此。在 10 月的连锁事件期间,这造成了不透明。用户无法确定实时的连锁严重程度。第三方监控工具显示每分钟有数百次清算,而官方数据源显示的要少得多。
API 速率限制阻止了交易者在关键的第一小时内修改头寸,连接请求超时,订单提交失败。止损单未能执行,头寸查询返回过时数据,这种基础设施瓶颈将市场事件转变成了运营危机。
传统交易平台为正常负载加上安全余量来配置基础设施。但正常负载与压力负载截然不同,日均交易量无法很好地预测峰值压力需求。在连锁事件期间,交易量激增 100 倍或更多,对头寸数据的查询增加 1000 倍,因为每个用户同时检查其账户。
自动扩展的云基础设施有所帮助,但无法即时响应,启动额外的数据库读取副本需要数分钟。创建新的 API 网关实例需要数分钟。在那几分钟内,保证金系统继续基于来自过载订单簿的损坏价格数据来标记头寸价值。
在 10 月的连锁事件期间,保证金系统中的一个关键设计选择变得明显:一些交易平台基于内部现货市场价格而非外部预言机数据流来计算抵押品价值。在正常的市场条件下,套利者维持不同场所间的价格一致性。但当基础设施承受压力时,这种耦合就会崩溃。
这个交互式流程图可视化了五个阶段的攻击向量:
· 初始抛售:对 USDe 施加 6000 万美元的抛售压力
· 价格操纵:USDe 在单一交易所从 1.00 美元暴跌至 0.65 美元
· 预言机故障:保证金系统使用损坏的内部价格数据流
· 连锁触发:抵押品被调低估值,强制清算开始
· 放大:总计 193 亿美元的清算(放大 322 倍)
该攻击利用了 Binance 对包装合成抵押品使用现货市场价格的设定。当攻击者将 6000 万美元的 USDe 抛入相对稀薄的订单簿时,现货价格从 1.00 美元暴跌至 0.65 美元。配置为按现货价格标记抵押品的保证金系统,将所有 USDe 抵押的头寸向下重估了 35%。这触发了数千个账户的追加保证金通知和强制清算。
这些清算迫使更多卖单进入同一非流动性市场,进一步压低价格。保证金系统观察到这些更低的价格,并标记了更多头寸的价值,反馈回路将 6000 万美元的抛售压力放大成了 193 亿美元的强制清算。
这个循环反馈图说明了连锁的自我强化性质:
价格下跌 → 触发清算 → 强制卖出 → 价格进一步下跌 → [循环重复]
如果采用设计得当的预言机系统,这种机制就不会起作用。如果 Binance 使用了跨多个交易平台的时间加权平均价格(TWAP),瞬时的价格操纵就不会影响抵押品估值。如果他们使用了来自 Chainlink 或其他多源预言机的聚合价格数据流,攻击就会失败。
四天前的 wBETH 事件展示了类似的漏洞。wBETH 应保持与 ETH 的 1:1 兑换比率。在连锁事件期间,流动性枯竭,wBETH/ETH 现货市场显示出 20% 的折价。保证金系统相应地调低了 wBETH 抵押品的估值,触发了实际上由底层 ETH 完全抵押的头寸的清算。
当清算无法以当前市场价格执行时,交易平台会实施自动减仓(ADL),将损失分摊给盈利的交易者。ADL 以当前价格强制平仓盈利头寸,以弥补被清算头寸的缺口。
在 10 月的连锁事件期间,Binance 在多个交易对上执行了 ADL。持有盈利多头头寸的交易者发现他们的交易被强制平仓,并非由于他们自身的风险管理失败,而是因为其他交易者的头寸变得资不抵债。
ADL 反映了中心化衍生品交易中的一个基本架构选择。交易平台保证自己不会亏钱。这意味着损失必须由以下一方或多方承担:
· 保险基金(交易平台预留用于弥补清算缺口的资金)
· ADL(强制盈利交易者平仓)
· 社会化损失(将损失分摊给所有用户)
保险基金规模相对于未平仓合约的规模决定了 ADL 的频率。Binance 的保险基金在 2025 年 10 月总计约 20 亿美元。相对于 BTC、ETH 和 BNB 永续合约的 40 亿美元未平仓合约,这提供了 50% 的覆盖率。但在 10 月的连锁事件期间,所有交易对的未平仓合约总额超过了 200 亿美元。保险基金无法覆盖缺口。
10 月连锁事件后,Binance 宣布,当总未平仓合约保持在 40 亿美元以下时,他们保证 BTC、ETH 和 BNB USDⓈ-M 合约不会发生 ADL。这创造了一种激励结构:交易平台可以维持更大的保险基金以避免 ADL,但这会占用本可以盈利部署的资金。
条形图比较了不同事件中的停机时间:
· Solana(2024 年 2 月):5 小时 - 投票吞吐量瓶颈
· Polygon(2024 年 3 月):11 小时 - 验证器版本不匹配
· Optimism(2024 年 6 月):2.5 小时 - 定序器过载(空投)
· Solana(2024 年 9 月):4.5 小时 - 交易垃圾邮件攻击
· Arbitrum(2024 年 12 月):1.5 小时 - RPC 提供商故障
Solana 在 2024-2025 年期间经历了多次中断。2024 年 2 月的中断持续了约 5 小时,2024 年 9 月的中断持续了 4-5 小时。这些中断源于相似的根本原因:网络在垃圾邮件攻击或极端活动期间无法处理交易量。
图 5 详情:Solana 的中断(2 月 5 小时,9 月 4.5 小时)凸显了压力下网络弹性的反复出现的问题。
Solana 的架构为吞吐量进行了优化。在理想条件下,网络处理每秒 3,000-5,000 笔交易,并具有亚秒级最终性。这种性能比以太坊高出几个数量级。但在压力事件期间,这种优化创造了漏洞。
2024 年 9 月的中断源于一波垃圾交易洪流,压垮了验证器的投票机制。Solana 验证器必须对区块进行投票以达成共识。在正常操作期间,验证器优先处理投票交易以确保共识进展。但该协议此前在费用市场方面将投票交易视同常规交易。
当交易内存池充满数百万的垃圾交易时,验证器难以传播投票交易。没有足够的投票,区块就无法最终确定。没有最终确定的区块,链就停止了。有待处理交易的用户看到它们卡在内存池中。新交易无法提交。
StatusGator 记录了 2024-2025 年多次 Solana 服务中断,而 Solana 从未正式承认。这造成了信息不对称。用户无法区分本地连接问题与全网范围的问题。第三方监控服务提供了问责制,但平台应维护全面的状态页面。
以太坊在 2021 年 DeFi 繁荣期间经历了极端的 Gas 费飙升,简单转账的交易费超过 100 美元。复杂的智能合约交互花费 500-1000 美元。这些费用使得网络对于较小额的交易无法使用,同时启用了一种不同的攻击向量:MEV 提取。
这张折线图戏剧性地显示了压力事件期间各网络的 Gas 费升级:
· 以太坊:5 美元(正常)→ 450 美元(峰值拥堵)- 增加 90 倍
· Arbitrum:0.50 美元 → 15 美元 - 增加 30 倍
· Optimism:0.30 美元 → 12 美元 - 增加 40 倍
可视化表明,即使 Layer 2 解决方案也经历了显著的 Gas 费升级,尽管起点要低得多。
最大可提取价值(MEV)描述了验证器通过重新排序、包含或排除交易可以提取的利润。在高 Gas 费环境中,MEV 变得特别有利可图。套利者竞相抢跑大型 DEX 交易,清算机器人竞相首先清算抵押不足的头寸。这种竞争表现为 Gas 费竞价战。
想要在拥堵期间确保交易被包含的用户必须出价高于 MEV 机器人。这造成了交易费超过交易价值的情景。想领取你的 100 美元空投?支付 150 美元的 Gas 费。需要添加抵押品以避免清算?与支付 500 美元优先费的机器人竞争。
以太坊的 Gas 限制限制了每个区块的总计算量。在拥堵期间,用户竞标稀缺的区块空间。费用市场按设计工作:出价更高者获得优先权。但这种设计使得网络在高使用量期间越来越昂贵,而这恰恰发生在用户最需要访问的时候。
Layer 2 解决方案试图通过将计算移至链下来解决这个问题,同时通过定期结算继承以太坊的安全性。Optimism、Arbitrum 和其他 Rollup 在链下处理数千笔交易,然后将压缩证明提交给以太坊。这种架构在正常操作期间成功降低了每笔交易的成本。
但 Layer 2 解决方案引入了新的瓶颈。Optimism 在 2024 年 6 月当 25 万个地址同时申领空投时经历了一次中断。定序器在将交易提交给以太坊之前对交易进行排序的组件不堪重负,用户有几个小时无法提交交易。
这次中断表明,将计算移至链下并不能消除基础设施需求。定序器必须处理传入交易,对它们进行排序,执行它们,并为以太坊结算生成欺诈证明或 ZK 证明。在极端流量下,定序器面临着与独立区块链相同的扩展挑战。
必须保持多个 RPC 提供商的可用性。如果主提供商故障,用户应无缝故障转移到备选方案。在 Optimism 中断期间,一些 RPC 提供商保持功能,而其他则故障。钱包默认连接到故障提供商的用户无法与链交互,即使链本身仍然在线。
AWS 中断已反复证明加密生态系统中存在集中的基础设施风险:
· 2025 年 10 月 20 日(今日):美国东一区域中断影响 Coinbase,以及 Venmo、Robinhood 和 Chime。AWS 承认 DynamoDB 和 EC2 服务错误率增加。
· 2025 年 4 月:区域性中断同时影响币安、KuCoin 和 MEXC。当其 AWS 托管的组件故障时,多个主要交易所变得不可用。
· 2021 年 12 月:美国东一区域中断导致 Coinbase、Binance.US 以及「去中心化」交易平台 dYdX 瘫痪 8-9 小时,同时影响亚马逊自己的仓库和主要流媒体服务。
· 2017 年 3 月:S3 中断阻止用户登录 Coinbase 和 GDAX 达五小时,同时伴有广泛的互联网中断。
模式很清楚:这些交易平台在 AWS 基础设施上托管关键组件。当 AWS 经历区域性中断时,多个主要交易平台和服务同时变得不可用。用户在中断期间无法访问资金、执行交易或修改头寸,而这恰恰是市场波动可能要求立即采取行动的时候。
Polygon(前身为 Matic)在 2024 年 3 月经历了 11 小时的中断。根本原因涉及验证器版本不匹配,一些验证器运行旧软件版本,而其他验证器运行升级后的版本。这些版本以不同方式计算状态转换。
图 5 详情:Polygon 中断(11 小时)是所分析的主要事件中最长的,凸显了共识故障的严重性。
当验证器对正确状态得出不同结论时,共识失败,链无法产生新区块,因为验证器无法就区块有效性达成一致。这造成了僵局:运行旧软件的验证器拒绝运行新软件的验证器产生的区块,而运行新软件的验证器拒绝运行旧软件的验证器产生的区块。
解决需要协调验证器升级,但在中断期间协调验证器升级需要时间。每个验证器操作员必须被联系,必须部署正确的软件版本,并且必须重新启动其验证器。在一个拥有数百个独立验证器的去中心化网络中,这种协调需要数小时或数天。
硬分叉通常使用区块高度触发器。所有验证器在特定区块高度前升级,确保同时激活,但这需要事先协调。增量升级,即验证器逐步采用新版本,存在造成导致 Polygon 中断的确切版本不匹配的风险。
这个散点图可视化将不同系统映射到两个关键维度:
· 比特币:高去中心化,低性能
· 以太坊:高去中心化,中等性能
· Solana:中等去中心化,高性能
· Binance(CEX):最小去中心化,最大性能
· Arbitrum/Optimism:中高去中心化,中等性能
关键洞察:没有系统能同时实现最大去中心化和最大性能,每种设计都为不同的用例做出了深思熟虑的权衡。
中心化交易平台通过架构简单性实现低延迟,撮合引擎在微秒内处理订单,状态存在于中心化数据库中。没有共识协议引入开销,但这种简单性创造了单点故障,当基础设施承受压力时,级联故障通过紧密耦合的系统传播。
去中心化协议将状态分布在验证器之间,消除了单点故障。高吞吐量链在中断期间保持此属性(资金无损失,仅活性暂时受损)。但在分布式验证器之间达成共识引入了计算开销,验证器必须在状态转换最终确定之前达成一致。当验证器运行不兼容的版本或面临压倒性的流量时,共识过程可能会暂时停止。
添加副本提高了容错能力,但增加了协调成本。在拜占庭容错系统中,每个额外的验证器都会增加通信开销。高吞吐量架构通过优化的验证器通信来最小化这种开销,从而实现卓越性能,但容易受到某些攻击模式的影响。注重安全性的架构优先考虑验证器多样性和共识稳健性,限制基础层吞吐量,同时最大化弹性。
Layer 2 解决方案试图通过分层设计来提供这两种属性。它们通过 L1 结算继承以太坊的安全属性,同时通过链下计算提供高吞吐量。然而它们在定序器和 RPC 层引入了新的瓶颈,表明架构复杂性在解决一些问题的同时创造了新的故障模式。
这些事件揭示了一个一致的模式:系统为正常负载配置资源,然后在压力下灾难性地失败。Solana 有效处理了常规流量,但在交易量增加 10,000% 时崩溃。以太坊 Gas 费保持合理,直到 DeFi 采用引发拥堵。Optimism 的基础设施运行良好,直到 25 万个地址同时申领空投。币安的 API 在正常交易期间功能正常,但在清算连锁期间受到限制。
2025 年 10 月的事件在交易所层面展示了这种动态。在正常操作期间,币安的 API 速率限制和数据库连接足够,但在清算连锁期间,当每个交易者同时尝试调整头寸时,这些限制就成了瓶颈。旨在通过强制清算保护交易所的保证金系统,通过在最糟糕的时刻创造强制卖方,放大了危机。
自动扩展对阶跃函数式的负载增加提供的保护不足。启动额外的服务器需要数分钟,在那几分钟内,保证金系统基于来自稀薄订单簿的损坏价格数据来标记头寸价值,等到新容量上线时,连锁反应已经传播。
为罕见的压力事件过度配置资源在正常操作期间耗费资金。交易所运营商为典型负载进行优化,接受偶尔的故障作为经济上合理的选择。停机的成本外部化给用户,他们在关键市场变动期间经历清算、交易卡住或无法访问资金。
根本原因的饼图分解显示:
· 基础设施过载:35%(最常见)
· 网络拥堵:20%
· 共识失败:18%
· 预言机操纵:12%
· 验证器问题:10%
· 智能合约漏洞:5%
几种架构变更可以减少故障频率和严重性,尽管每种都涉及权衡:
定价系统与清算系统的分离
10 月的问题部分源于将保证金计算与现货市场价格耦合。对包装资产使用兑换比率而非现货价格本可以避免 wBETH 的错误定价。更普遍地说关键的风险管理系统不应依赖于可能被操纵的市场数据。具有多源聚合和 TWAP 计算的独立预言机系统提供更稳健的价格数据流。
过度配置和冗余基础设施
2025 年 4 月影响 Binance、KuCoin 和 MEXC 的 AWS 中断证明了集中基础设施依赖的风险。跨多个云提供商运行关键组件增加了运营复杂性和成本,但消除了关联故障。Layer 2 网络可以维护多个具有自动故障转移的 RPC 提供商。额外的费用在正常操作期间看似浪费,但在峰值需求期间防止了多小时的停机。
增强的压力测试和容量规划
系统在正常时运行良好直至失败的模式表明在压力下的测试不足。模拟 100 倍正常负载应是标准实践,在开发中识别瓶颈的成本低于在实际中断期间发现它们。然而现实的负载测试仍然具有挑战性。生产流量表现出合成测试无法完全捕捉的模式,用户在实际崩溃期间的行为与测试期间不同。
过度配置提供了最可靠的解决方案,但与经济激励相冲突。为罕见事件维持 10 倍的过剩容量每天都需要花钱,以防止每年发生一次的问题。在灾难性故障施加足够成本以证明过度配置合理之前,系统将在压力下继续失败。
监管压力可能迫使改变。如果法规强制要求 99.9% 的正常运行时间或限制可接受的停机时间,交易平台将需要过度配置。但法规通常跟随灾难而来,而不是预防它们。Mt. Gox 在 2014 年的崩溃导致日本制定了正式的加密货币交易平台法规。2025 年 10 月的连锁事件很可能引发类似的监管回应。这些回应是指定结果(最大可接受停机时间、清算期间最大滑点)还是实施方式(特定的预言机提供商、熔断阈值)尚不确定。
根本的挑战在于,这些系统在全球市场中持续运行,但依赖于为传统商业时间设计的基础设施。当压力在 02:00 发生时,团队争相部署修复,而用户面临不断增加的损失。传统市场在压力期间停止交易;加密市场只是崩溃。这代表的是特性还是缺陷,取决于视角和立场。
区块链系统在短时间内实现了显著的技术复杂性。在数千个节点之间维持分布式共识代表了真正的工程成就。但要在压力下实现可靠性,需要超越原型架构,转向生产级的基础设施。这种转变需要资金,并需要将稳健性置于功能开发速度之上。
挑战在于,在牛市期间,当每个人都在赚钱且停机似乎是别人的问题时,如何将稳健性置于增长之上。等到下一个周期压力测试系统时,新的弱点将会出现。行业是从 2025 年 10 月吸取教训,还是重复类似的模式,仍然是一个悬而未决的问题。历史表明,我们将通过另一次压力下的数十亿美元失败来发现下一个关键漏洞。
原文链接
XRP Supply Shock Ahead: ‘No Longer Speculation,’ Says Crypto Pundit
In a livestream on October 22, 2025, crypto commentator Zach Rector argued that an XRP supply squeez...
Kite partners with Brevis to Boost Verifiable Trust on AI Payments in Agentic Economy
Kite is creating a reliable trust system with Brevis to create AI payments that can be transacted in...
MegaETH Crypto Launch: Based Eggman and MegaETH Best Crypto to Buy Now, Instant 30% Crypto Rewards!
MegaETH and Based Eggman are the best cryptos to buy now! Secure your $GGs with a 30% instant bonus ...