EZKL:硬件加速ZKML的具体方案和策略
本文是与Ingonyama团队合作编写的。特别感谢@jeremyfelder让这一切成为可能。
硬件加速的 ZKML
我们最近整合了由Ingonyama团队构建的的开源Icicle GPU加速库。这使开发人员能够通过简单的环境配置来利用硬件加速。
该集成是对EZKL引擎的战略性增强,解决了当前ZK证明系统固有的计算瓶颈。它尤其适用于大型电路,比如为机器学习模型生成的电路。
我们观察到,与基线CPU运行相比,聚合电路的MSM时间减少了98%,总聚合证明时间与基线CPU证明时间相比减少了35%。
这是全面硬件集成的第一步。与Ingonyama团队一起,我们将继续致力于对GPU操作的全面支持。此外,我们正在努力与其他硬件供应商集成——理想情况下,为更广泛的领域展示切实的基准。
我们在下面提供上下文和技术规范。或者你也可以随时直接进入这里的库。
零知识瓶颈
引用硬件评论:GPU, FPGA和零知识证明,零知识应用程序有两个组成部分:
1. DSL和低级库:它们对于以ZK友好的方式表达计算是必不可少的。例子包括Circom、Halo2、Noir和像Arkworks这样的低级库。这些工具将程序转换为约束系统(或在这里阅读更多),其中像加法和乘法这样的操作被表示为单个约束。位操作更加棘手,需要更多的约束。
2. 证明系统:它们在生成和验证证明方面起着至关重要的作用。验证系统处理电路、证人和参数等输入。通用系统包括Groth16和PLONK,而像EZKL这样的专用系统则迎合机器学习模型等特定输入。
在最广泛部署的ZK系统中,主要的瓶颈是:
• 多标量乘法(MSM):对向量进行大规模乘法,即使在并行化时也会消耗大量时间和内存。
• 快速傅里叶变换(FFT):需要频繁变换数据的算法,使其难以加速,特别是在分布式基础设施上。
硬件的作用
硬件加速,如GPU和FPGA,通过增强并行性和优化内存访问,提供了比软件优化显著的优势:
• GPU:提供快速开发和大规模并行性,但耗电量很大。
• FPGA:提供更低的延迟,特别是对于大数据流,并且更节能,但具有复杂的开发周期。
有关最佳硬件设计和性能的更广泛讨论,请参阅此处。该领域正在迅速发展,许多方法仍然具有竞争力。
Halo2的GPU加速
在Halo2验证系统中,瓶颈可能会因所验证的具体电路而异。这些瓶颈主要分为两类:
1. 承诺瓶颈(MSM):这些主要是计算瓶颈,通常是可并行化的。在MSM是瓶颈的电路中,我们观察到一定程度的通用性。这意味着应用GPU加速的解决方案可以通过对现有代码库的最小修改来有效地解决这些瓶颈。
2. 约束评估瓶颈(尤其是在h poly中):这些瓶颈更为复杂,因为它们可能是计算密集型的,也可能是内存密集型的。它们在很大程度上取决于电路的细节。解决这些问题需要对评估算法进行量身定制的重新设计。这里的重点是优化内存使用和计算之间的权衡,以及决定是存储中间结果还是重新计算它们。
一个典型的例子是KZG聚合电路。在这种电路中,主要的挑战在于椭圆曲线群元素的积累。这些情况下的约束是相对统一且程度较低的(例如,根据Halo2文档,具有4级约束的不完全加法公式)。
因此,大部分复杂性来自于承诺(MSM),这是一个可以通过GPU加速有效解决的计算问题。
对于这个集成的范围,我们选择关注承诺瓶颈。这是唾手可得的成果,也是对引擎核心组件(KZG聚合)的优化。这只是第一步,还有很多工作要做。
Icicle:支持 CUDA 的 GPU
Ingonyama的团队开发了Icicle作为一个开源库,使用支持CUDA的GPU为ZK加速设计。CUDA,即计算统一设备架构,是由英伟达创建的并行计算平台和API模型。它允许软件利用英伟达GPU进行通用处理。Icicle的主要目标是将证明程序代码的重要部分卸载到GPU并利用并行处理能力。
Icicle在Rust和Golang中托管API,这简化了集成。该设计也可定制,具有以下特定:
• 高级API:用于提交、求值和插值多项式等常见任务。
• 低级API:针对特定运算,如多标量乘法(MSM)、数论变换(NTT)和逆数论变换(INTT)。
• GPU内核:用于GPU上特定任务的优化执行。
值得注意的是,Icicle支持基本功能,如:
• 矢量化字段/组算术:有效处理字段和组上的数学运算。
• 多项式算法:许多ZK算法的关键。
• 哈希函数:对加密应用程序至关重要。
• 复杂结构:如逆椭圆曲线数论变换(I/ECNTT)、批处理MSM和Merkle树。
与EZKL集成
Icicle库已经与EZKL引擎无缝集成,为直接访问NVIDIA GPU或简单地访问Colab的用户提供GPU加速。这种集成通过利用GPU的并行处理能力增强了EZKL引擎的性能。下面是如何启用和管理此功能:
• 启用GPU加速:要启用 GPU 加速,请使用该Icicle功能构建系统并设置环境变量,如下所示:
export ENABLE_ICICLE_GPU=true
• 恢复到CPU:要切换回CPU处理,只需取消ENABLE_ICICLE_GPU环境变量的设置,而不是将其设置为false:
unset ENABLE_ICICLE_GPU
• 定制小型电路的阈值:如果希望修改构成小型电路的阈值,可以将ICICLE_SMALL_K环境变量设置为所需值。这允许更好地控制何时使用GPU加速。
当前ICICLE整合概述。这种集成的目标是由于MSM导致的计算瓶颈,在KZG聚合电路中可以看到显著的影响。
关键功能
这种集成提供了几种技术支持。
最重要的是,该集成支持使用 Icicle 库在 GPU 中进行即插即用 MSM 操作。作为目标和测试环境,我们专注于替换EZKL聚合命令中基于CPU的KZG承诺。这是将多个证明合并为一个证明的地方。更具体地说,KZG承诺的commit和commit_lagrange(在CPU上完成)与BN254椭圆曲线的MSM操作(在GPU上)。
我们还启用了环境变量和crate功能,允许开发人员在相同二进制/构建EZKL的不同电路之间切换CPU和GPU。为了优化GPU切换,默认情况下仅对大 k 电路 (k > 8) 启用 GPU 加速。
基准测试结果
我们的基准测试结果表明,将Icicle库集成到EZKL引擎中,性能有了实质性的提高:
• MSM时间的显著减少:我们观察到,与聚合电路的基准CPU运行相比,多标量乘法(MSM)时间减少了大约98%。这表明计算任务的高效卸载到GPU。
• MSM操作的速度显著提高:与基准CPU配置相比,ICICLE执行的MSM操作平均快50倍。这种加速在aggregate命令中的大多数MSM中是一致的。
• 证明时间的总体减少:与基准CPU证明时间相比,生成聚合证明所需的总时间减少了约35%。这反映了证明生成过程中显著的整体性能增强。
这些结果突出了GPU加速在优化ZK证明系统方面的有效性,特别是在计算方面,如MSM操作。要进行验证,您可以在这里查看我们的持续集成测试。
未来的发展方向
展望未来,我们计划进一步优化和扩展EZKL与Icicle集成的能力:
• 扩展GPU操作:重点关注的一个领域是用GPU取代更多的CPU操作。这包括涉及数论变换(NTT)的操作,它目前是基于CPU的。通过将这些操作卸载到GPU,我们期望实现更高的效率和速度。
• 引入批量操作:另一个重要的发展是添加批量操作。此增强功能特别旨在即使在更小和更宽的电路中也能高效使用 GPU。通过这样做,我们的目标是将GPU加速的好处扩展到更广泛的电路类型和尺寸,确保在所有场景下的最佳性能。
更广泛地说,我们寻求看到与其他硬件系统的集成。这将为更广泛的领域提供功能基准测试和开发人员灵活性。
通过这些未来的发展,我们的目标是继续推动ZK证明系统的性能界限,使其更高效,并且适用于更广泛的应用。
附录
未来集成注意事项
对于贡献者和开发人员,我们在具有四个证明的自定义实例上使用聚合命令教程测试了这种集成。关于未来集成的一些注意事项
• 基准测试环境:使用AWS c6a.8xlarge实例与AMD Epyc 7R13的基准CPU运行c测试。
• 聚合命令教程:使用聚合命令教程验证了集成的性能,包括一个具有4个基线比较证明的测试实例。
• 在单个MSM实例上的初始测试:最初,测试集中在EZKL/halo2板条箱中的单个MSM实例上,以验证功能。
• 完整证明中GPU上下文的问题:在扩展到完整证明时,发现GPU上下文在单个操作后丢失。解决方案是通过创建静态引用来维护整个证明命令中的 GPU 上下文来实现的。
• 关注聚合电路/命令:该集成主要针对聚合电路/命令,其特点是K(约束数量)很大,而advice栏数少。
• 对Proof命令的影响:代码中的修改也会影响Proof命令。有必要确保单个证明的性能随着这些变化而保持或改进。
• 基于电路尺寸和宽度的性能变化:对于大型和狭窄的电路,GPU增强产生了积极的结果。然而,对于更小(K≤8)和更宽的电路,GPU 增强会导致性能下降。
• 通用优化的未来改进:计划将增强所有电路类型的GPU集成,特别是关注批处理操作,以实现各种电路尺寸的最佳性能。
1.资讯内容不构成投资建议,投资者应独立决策并自行承担风险
2.本文版权归属原作所有,仅代表作者本人观点,不代表本站的观点或立场
您可能感兴趣
-
BNB Chain 与币安 Alpha 联动效应爆发:四成为 BSC 原生项目,周交易量翻倍
深潮 TechFlow 消息,5 月 9 日,据 Dune 和 BscScan 5 月 9 日数据,BNB Chain 生态的币安 Alpha 项目表现突出:121 个 Alpha 项目中超 70%为
-
BitsLab 旗下 TonBit 再次发现 TON 虚拟机漏洞:RUNVM 指令或导致智能合约执行环境污染
攻击者可借助子虚拟机耗尽 gas 的瞬间,污染父虚拟机的库(libraries)并诱发后续调用失败,最终导致依赖库完整性的合约出现异常行为。作者:BitsLabBitsLab 旗下 TonBit 再次
-
聚币网怎么提现到微信?聚币网提现到微信教程详解
想在聚币网提现到微信?其实很简单,只需3步就能搞定!第一步:完成实名认证;第二步:将数字货币兑换为法币;第三步:提现到微信钱包。
-
刷票是怎么样的,场外刷票是怎么样的流程?
刷票,简单来说,就是通过技术手段或人工方式,绕过投票网站的限制,对特定候选人或选项进行多次投票,以达到提升其票数、点击率和人气的目的。这种行为在网络投票中尤为常见,通常被视为一种网络投票造假行为。
-
electrum钱包地址会泄露吗?electrum钱包地址安全性解读
electrum钱包地址本身不会直接泄露,但使用不当可能导致隐私风险。了解如何安全使用electrum钱包,才能更好地保护你的数字资产。
-
btcbox钱怎么盈利?btcbox盈利方式介绍
BTCBox通过多种方式实现盈利,主要包括交易手续费、增值服务和市场推广。这些方式不仅为平台带来稳定收入,也为用户提供了丰富的交易体验。
-
coinex的账户被锁定怎么解开?
如果你的Coinex账户被锁定了,别慌!这通常是因为安全原因,比如多次输入错误密码或系统检测到异常活动。你需要检查登录信息,确认邮箱和密码输入无误;若仍无法登录,尝试重置密码,通过“忘记密码”选项接收邮件并设置新密码;如以上方法无效,联系Coinex客服,提供身份验证信息以解锁账户。
-
蓝贝壳交易所为什么不能交易了?蓝贝壳交易所不能交易的原因
蓝贝壳交易所(LBank)出现无法交易的情况,主要原因包括技术与系统问题、合规与监管挑战、市场与运营风险、安全事件以及市场环境与用户反馈等多方面因素。
- 成交量排行
- 币种热搜榜


