Grass:有史以来第一个第 2 层数据汇总

互联网 阅读 821 2024-03-19 14:20:01


利用闲置网络流量挖矿的 Grass 币项目有点意思,利用你的网络 ip 提供流量转发中继,给 AI 之类的应用所需要的网络爬虫提供通道。点击此链接注册


在过去的几周里,我们一直在发布内容来解释 Grass 在人工智能堆栈中的作用。正如您现在所知,该协议执行许多功能,帮助构建者访问网络数据来训练他们的模型。这是人工智能管道的关键第一阶段,也是所有开发的起点。

在 Grass 的例子中,世界各地的住宅设备托管着一个节点网络,用于从网络上抓取和处理原始数据。它将这些数据清理并转换为结构化数据集,以用于人工智能训练。最重要的是,它以一种涉及并奖励全球近百万人参与的方式获取网络数据。它一手创建了人工智能数据供应类别,这也是世界上一些最大的人工智能公司选择与我们合作的原因。它是人工智能的数据层。

image.png

与此同时,过去几周我们也反思了人工智能的现状。我们问自己它面临的最紧迫的问题,以及作为人工智能基础设施的重要组成部分,我们可以采取哪些措施来解决这些问题。

我们的结论是,目前人工智能最大的问题是缺乏数据透明度。一看新闻就知道原因了。问问自己,为什么人工智能模型会将埃隆·马斯克与希特勒等同起来?或者从世界历史中抹去整个民族?是否使用不良数据进行训练?或者更糟糕的是,选择性地选择好的数据来给出错误的答案?

答案是,我们不知道。我们不知道,因为没有办法知道。我们不知道这些模型是根据什么数据进行训练的,因为不存在证明它的机制。用户无法验证数据来源,因为构建者无法自行验证。

这是 Grass 计划解决的问题,我们现在正在构建第 2 层数据汇总来解决它。你可能会问,怎么样?

第二层如何建立数据来源

世界需要一种方法来证明人工智能训练数据的来源,这就是 Grass 现在正在构建的方法。很快,每次 Grass 节点抓取数据时,都会记录元数据以验证抓取数据的网站。然后,该元数据将永久嵌入到每个数据集中,使构建者能够完全确定地了解其来源。然后,他们可以与用户分享这一血统,用户可以放心地知道与他们交互的人工智能模型没有经过刻意训练来给出误导性的答案。

这将是一个巨大的提升,并涉及我们协议的重大扩展,因为我们准备抓取操作以达到每分钟数千万个网络请求。其中每一个都需要进行验证,这将需要比任何 L1 所能提供的更多的吞吐量。这就是为什么我们宣布计划构建第 2 层解决方案来处理我们能力的重大升级。 L2 将是一个主权汇总,具有 ZK 处理器,以便可以对元数据进行批处理以进行验证,并用于为我们生成的每个数据集提供持久的沿袭。这是所有人工智能开发的基础层进入下一阶段所需要的。

这样做的好处很多:它将对抗数据中毒,增强开源人工智能的能力,并为用户了解我们每天交互的模型创建一条途径。

下面,我们将描述该系统的基本设计。

The Architecture of Grass

了解这些升级的最简单方法是查阅草地数据汇总图。在左侧,在客户端和 Web 服务器之间,您可以看到传统定义的 Grass 网络。客户端发出 Web 请求,这些请求通过验证器发送并最终通过 Grass 节点进行路由。无论客户端请求哪个网站,其服务器都会响应网络请求,允许抓取其数据并将其发送回线路。然后,它将被清理、处理并准备用于训练下一代人工智能模型。

回到 L2 图表,您会在右侧看到伴随 Grass 主权第二层发布的两个主要新增内容:Grass 数据账本和 ZK 处理器。

每一项都有其自己的功能,因此我们将逐一解释它们

The Grass Data Ledger 

草数据账本是所有数据最终存储的地方。它是 Grass 上抓取的每个数据集的永久分类账,现在嵌入了元数据,以记录其从起源时刻起的沿袭。每个数据集元数据的证明将存储在 Solana 的结算层上,并且结算数据本身也将通过分类账提供。重要的是要注意 Grass 有一个地方来存储它抓取的数据的重要性,尽管我们很快就会谈到这一点。

如上所述,ZK 处理器的目的是帮助记录在 Grass 网络上抓取的数据集的来源。想象一下这个过程。

当网络上的节点(换句话说,具有 Grass 扩展的用户)向给定网站发送 Web 请求时,它会返回一个加密响应,其中包括该节点请求的所有数据。出于所有意图和目的,这就是我们的数据集诞生的时刻,也是需要记录的起源时刻。

这正是记录我们的元数据时捕捉到的时刻。它包含许多字段——会话密钥、抓取的网站的 URL、目标网站的 IP 地址、交易的时间戳,当然还有数据本身。这是毫无疑问地知道给定数据集源自其声称的网站所必需的所有信息,因此给定的人工智能模型经过了正确且忠实的训练。

ZK 处理器参与其中,因为这些数据需要在链上结算,但我们不希望 Solana 验证器看到所有数据。此外,有一天在 Grass 上执行的大量 Web 请求将不可避免地压垮任何 L1 的吞吐量——即使是像 Solana 这样强大的 L1。 Grass 很快就会扩展到每分钟执行数千万个网络请求的程度,并且每个请求的元数据都需要在链上解决。如果没有 ZK 处理器首先进行证明和批处理,就不可能将这些交易提交到 L1。因此,L2 - 实现我们打算做的事情的唯一可能的方法。

Layer Two Benefits  第二层好处

数据账本非常重要,因为它将 Grass 的扩张升级为一种额外的、根本不同的商业模式。虽然该协议将继续审查发送自己的网络请求并在网络上抓取自己的数据的买家,但其越来越多的活动将涉及已经存储在分类账上的数据。借助此功能,Grass 现在可以抓取战略性整理的数据以用于 LLM 训练,并将其托管在不断扩大的数据存储库中。

该存储库是模块化人工智能堆栈的数据层,构建者可以从中挑选组成部分来训练无限差异化的模型。它是互联网本身的一个缩影,提供已经结构化并可供人工智能摄取的训练数据。

我们已经详细介绍了 ZK 处理器的重要性。通过使我们能够创建记录 Grass 数据集来源的元数据证明,它为构建者和用户创建了一种机制,以验证 AI 模型实际上是否经过正确训练。这本身就是一件大事。

然而,有一件我们之前没有提到的事情。

除了记录数据集源自的网站之外,元数据还指示数据集路由通过网络上的哪个节点。值得注意的是,这意味着每当节点抓取网络时,他们都可以获得其工作的荣誉,而无需透露任何有关自己的身份信息。

这很重要,因为一旦您可以证明哪些节点完成了哪些工作,您就可以开始按比例奖励它们。有些节点比其他节点更有价值。有些人比同行抓取更多的数据。这些正是我们需要激励的节点,以继续我们在过去几个月中看到的网络的惊人扩张。我们相信,这种机制将显着提高全球需求量最大的地区的奖励,最终鼓励这些地区的人们注册并成倍增加网络的容量。

不言而喻,网络越大,我们需要抓取的容量就越大,我们存储的网络数据存储库也就越大。飞轮将不可避免地产生,更多的数据意味着我们将有更多的数据为需要训练数据的人工智能实验室提供——从而为网络的持续发展提供动力。

Conclusion 结论

总而言之,当今人工智能的大多数引人注目的问题都源于缺乏对模型训练方式的了解,我们相信可以通过为开源人工智能提供验证数据来源的系统来解决这个问题。我们的解决方案是构建第一个第 2 层数据汇总,这将使得引入一种记录元数据的机制成为可能,该元数据记录了所有数据集的来源。

此更新应有助于传达我们即将开展的一些项目,并澄清推动我们决策的思维。我们很高兴能够在使人工智能更加透明方面发挥作用,并且很高兴看到我们的产品未来将出现许多用例。这些升级将为开发者带来广泛的机会,因此,如果您或您的团队有兴趣在 Grass 上进行开发,请联系 Discord。感谢您的支持,敬请关注。


免责声明:
1.资讯内容不构成投资建议,投资者应独立决策并自行承担风险
2.本文版权归属原作所有,仅代表作者本人观点,不代表本站的观点或立场
上一篇:Frencoin - $FREN钱包设置及挖矿教程 下一篇:返回列表

相关资讯

  • CZ获刑四个月,币安涅槃重生时
    CZ获刑四个月,币安涅槃重生时

    币安创始人CZ因违反反洗钱法被判监禁4个月,但币安顺利过渡,证明其用户资金安全和品牌稳固。CZ已辞去首席执行官职务并缴纳罚款,但被禁止返回阿联酋。法官最终判处CZ4个月监禁,称其收到了161封信件,了解其人品。信件描绘了CZ是一位冒着风险为币安成功的人,也是一位致力于家庭和慈善事业的领导者。币安仍然稳居全球第一大加密货币交易所,保持着用户的信心和资产安全。币安勇于面对监管挑战,积极与监管机构合作,巩固了其在全球加密市场的领导地位。.....

    每日资讯 2024-05-01 06:32 539
  • RootData:2024年Q1Web3行业投资研究报告
    RootData:2024年Q1Web3行业投资研究报告

    2024年Q1,Web3行业融资总额达25.45亿美元,同比增长4.7%,DeFi赛道融资额环比增长超过150%。比特币现货ETF资金流入超过121亿美元,推高比特币价格至历史新高。Q1早期融资项目数量同比增长10.5%,但仍有较多未被验证的技术与解决方案。AI、RWA、LSD、DePIN等板块轮动,用户对于寻找热门投资标的需求更高。Web3投资者注意力主要受知名机构投资、项目TGE事件、空投等因素影响。随着Web3行业吸引更多主流投资者,基于热门人物的交易线索将更受关注。RootData热搜榜单成为加密

    每日资讯 2024-04-30 19:35 996
  • Vitalik:Binius——对二进制字段的高效证明
    Vitalik:Binius——对二进制字段的高效证明

    本文介绍了2019年时代密码学中的SNARK和STARK技术,特别感谢Justin Drake, Jim Posen, Benjamin Diamond和Radi Cojbasic的反馈。STARK和SNARK是一种证明计算机程序正确性的方法,通过将程序转换成包含多项式的数学方程来实现。STARK使用更大的数字,但不需要可信的设置,并且抗量子。SNARK使用更小的数字,但有限制。Binius是一种新的多项式承诺方案,它使用超立方体来表示计算轨迹,并通过Reed-Solomon编码来防止作弊。Binius是

    每日资讯 2024-04-30 19:34 590
  • EigenLayer官宣空投!但Pendle用户惨遭背刺……
    EigenLayer官宣空投!但Pendle用户惨遭背刺……

    EigenLayer发放空投,总供应量16.7亿枚,分配给社区45%,投资者29.5%,早期贡献者25.5%。但社区不满分配方案,认为项目方占比过高,代币不可转让。空投受IP限制和VPN封锁影响,与积分关联不大,部分用户反映数量少。空投后,EIGEN可能会跟其他项目一样下跌,市场流动性不足。.....

    每日资讯 2024-04-30 19:34 216
  • 市场静候“强心针”:香港虚拟资产现货ETF
    市场静候“强心针”:香港虚拟资产现货ETF

    加密货币市场周末表现疲软,投资者期待香港虚拟资产ETF带来流动性提振,但分析师警告缺乏积极催化剂可能导致币价继续下跌。比特币交易价格持续低于63,000美元,山寨币也遭受重创。本周关注企业财报、就业数据和美联储会议,分析师预计比特币目标为67,500美元以上,但利率不确定性给市场带来压力。比特币ETF流出资金达8360万美元,加密货币市场整体疲软。分析师认为,未来利率不确定性是波动的主要来源,ETF流量逆转也给比特币带来压力。经济学家表示,比特币当前的疲软可能是最后一次震荡,需要反弹至67,500美元以上

    每日资讯 2024-04-30 19:34 264
  • 香港金融史重大时刻:比特币ETF正式登陆港交所
    香港金融史重大时刻:比特币ETF正式登陆港交所

    香港将于4月30日推出比特币和以太坊现货ETF,华夏基金等三家子公司已获批准。此举为零售和机构投资者提供了安全、高效的数字资产配置工具。投资者可通过胜利证券和华赢证券进行实物申购,预计将吸引更多券商参与。ETF市场规模庞大,吸引美国投资者和海外家族办公室。目前只允许合格投资人、机构投资人、零售投资人和符合规定的国际投资人投资。香港证监会已明确将监管加密货币,目前只有比特币和以太坊符合推出ETF的条件。华夏基金香港提供高灵活性的交易选项,支持多种货币交易,费率低于同类型产品。加密货币ETF的推出可能会利好加

    每日资讯 2024-04-30 19:34 886
  • 跨输入签名聚合如何集成到比特币?
    跨输入签名聚合如何集成到比特币?

    跨输入的签名聚合(cross-input signature aggregation,CISA)是一种可以减少交易体积的技术,有望成为比特币的软分叉。本代码库的目标是为了收集关于签名聚合的思想和主题,以及构想它们集成到比特币中的方式。

    比特币知识 2024-04-30 17:44 502
  • 盲化的两方ECDSA签名
    盲化的两方ECDSA签名

    两方的 ECDSA(椭圆曲线签名算法)协议让两个互不信任的参与者可以安全地生成一个共有的公私钥对,而且既无需知晓另一方的私钥信息,也无需知晓整个私钥,就可以对一条双方一致认可的信息生成一个有效的 ECDSA 签名。我们提出了一种基于 Lindell [1] 协议的方法,让其中一方可以完全盲化地参与签名生成,这样 TA 就既不知道被签名的消息的内容,也不知道最终的签名是什么样。

    比特币知识 2024-04-30 17:21 423