Reddit 数据 DAO 以及有关 Gen AI 模型训练的所有知识

Cryptonomist 采访了Vana's 的首席执行官兼联合创始人 Anna Kazlauskas,该公司推出了Reddit Data DAO 第一周就有 14 万名用户使用经过验证的 Reddit 帐户注册。Anna 现在正在与开发人员合作,为 LinkedIn 和 ChatGPT 等其他平台构建数据 DAO。

除了 DAO 之外,他们还有其他渠道供用户将他们的数据汇集到数据集中,然后可用于 GenAI 模型训练,例如创建肖像或头像

除了 Vana 所做的事情之外,我们还与 Anna 讨论了去中心化人工智能领域的发展,因为平台可以帮助人们使用数据并将其货币化以用于新的应用程序。

Vana 是一个由用户拥有的数据驱动的用户拥有的 AI 平台。我们的使命是让用户拥有自己的数据,并通过 AI 模型创造价值。为了提高 AI 模型的性能,对更多训练数据的需求日益增长,因为最终 AI 模型的好坏取决于其数据。

例如,LLaMA 3 的训练数据约为 15 万亿个单词,这大致相当于公共互联网上可用的数据量。现在,各大公司正试图获取更多数据,有时甚至为此花费数亿美元。各大科技平台都在囤积有价值的用户数据,并在不考虑用户许可的情况下构建新技术,这阻碍了创新。

在 Vana,我们将数据从这些封闭的花园中解放出来,将其置于用户的控制之下。我们允许用户直接为 AI 模型做出贡献,选择如何使用他们的数据以及 AI 的使用方式。我们相信,如果我们能够访问最好的数据,我们实际上可以超越领先的模型——通过访问只能直接从用户那里获得的数据来超越 GPT-6 等模型的性能。Vana 的架构是第 1 层区块链,从头开始设计用于私有的、用户拥有的数据。

从采用的角度来看,Reddit Data DAO 取得了令人难以置信的成功,第一周就有超过 14 万名用户注册。这种采用水平对于 DAO 来说并不常见——它现在是历史上最大的数据 DAO。

推动快速采用的原因之一是,随着新闻报道数据销售,用户越来越意识到其数据的价值,故事的大部分内容已经展开。意识到 Reddit 以 2 亿美元的价格出售您的数据或 Apple 以 5000 万美元的价格购买数据,您会更加意识到其价值。

此外,人们对基于 web3 构建的用户自有产品有着强烈的需求,这些产品超越了人们熟悉的DeFi产品,进入了新的所有权领域。我们在 Farcaster、DePIN 网络和基于 Vana 构建的数据 DAO 等项目中看到了这种趋势,它们代表了新一波用户自有产品。

一个重要的教训是需要证明贡献要求。超过一百万人试图加入 Reddit Data DAO,但许多人不符合拥有 Reddit 帐户、存在一定时间且拥有最低数据量的标准。这凸显了建立机制以确保高质量贡献的重要性。

Vana 是一个针对用户拥有数据的点对点网络,构建者创建了各种数据 DAO,例如 Reddit 数据 DAO、LinkedIn 数据 DAO 和 ChatGPT 数据 DAO。

这些不同的数据源对于训练AI模型来说非常有价值,但它们目前被封锁在封闭的围墙中。从这些平台获取数据可能非常棘手,但由于数据监管,这始终是可能的。

我们的目标是帮助用户同时将数据变现和保护。例如,借助 Reddit Data DAO,他们现在正在训练一个用户拥有的模型(目前主要专注于发垃圾帖子,但这只是一个开始)。每次使用该模型时,用户都会获得报酬,从而为模型的共同所有权创造了经济激励。

而且用户数据保持完全私密——数据不是出售,而是被“出租”,底层数据永远不会离开安全环境。

数据隐私已不再仅仅是一个意识形态或偏好问题,而是一个经济问题。如果有人拥有你的数据,他们就有可能创造出一个具有经济价值的人工智能版本,赚取收入并可能与你竞争。这就是为什么隐私对 Vana 如此重要和核心。

我们发明了一个概念,称为“非托管数据”,它类似于非托管钱包,但用于存储您的个人数据。它使您的数据完全受您控制,并由您的私钥授权。这使您的数据可以在应用程序之间移植,并在其上添加一个原生金融层,从而可以构建数据 DAO 之类的东西。

通常,AI 模型使用从公共互联网上抓取的数据进行训练,这些数据无需登录即可获得。但如果你从教孩子了解世界的角度来考虑,你不会希望他们只是随意地在公共互联网上闲逛。你会想给他们提供可能不公开的高质量信息,比如高质量的写作、思维过程或信息。AI 主要在公共数据上进行训练,但它确实需要私人数据来推动前沿发展。这就是数据 DAO 所实现的:用户贡献他们的私人数据来创建用户拥有的 AI。

我们认为,人工智能应该像开源软件一样由社区创建。我们的目标是让研究人员能够访问目前被禁锢在封闭环境中的最佳数据集,以推动人工智能性能的进步。

过去一年,去中心化 AI 领域发展确实加速。例如,今年在 EthCC 上,几乎每天都有去中心化 AI 活动,而去年没有。人们正在研究如何将对金融领域效果良好的自主技术应用到 AI 领域。在 Vana,我们认为所有这一切的核心基础是数据。要构建用户拥有的 AI 和自主 AI,您需要用户拥有的数据,因此我们的重点是该数据部分。

在未来的 5-10 年里,我对几个里程碑感到兴奋:1)由 1 亿人共同拥有的用户拥有的基础模型。2)更多可以自行赚钱的自主 AI 代理,并确保这些代理真正由为训练它们做出贡献的用户拥有。

随着人工智能发挥越来越重要的经济作用,确保从技术和社会角度的权力得到广泛分配。

Vana 是一个无需许可的网络,因此任何人都可以构建数据 DAO。它是专为私有、用户拥有的数据而设计的第一层区块链。目前,Satori 测试网上部署了 100 多个数据 DAO。许多构建者都是 Bittensor 生态系统的早期参与者,他们深刻理解加密和 AI 的交集。一些值得注意的项目包括 Twitter Data DAO、LinkedIn Data DAO 和 GitHub Data DAO。我们还与 ZK 领域和 DAO 工具领域的项目合作,使数据 DAO 更易于创建和管理。

我认为,当今人工智能领域最大的问题之一是谁应该拥有模型并决定将哪些数据输入其中。随着我们开始越来越多地依赖人工智能获取信息,它们成为我们的真相来源。决定将哪些数据输入人工智能的人实际上就是在决定真相。由一个实体控制这一切是可怕的。在 Vana,我们的观点是,应该由社区而不是一家公司来做出这些决定。

去中心化 AI 的另一个问题是:如果 AI 完全去中心化,那么如果 AI 失控并且没有关闭按钮怎么办?我们在 Vana 处理这个问题的方式是,AI 模型最终归为其贡献的用户所有,因此他们始终保持完全控制权。

现在是开始在去中心化 AI 领域进行构建的好时机。有很多机会将一些在 DeFi 中效果良好的加密经济原语应用于新兴的去中心化数据和 AI 类别。我还建议花一些时间深入研究非加密、开源 AI 领域,以了解人们在加密环境之外采取的一些方法。我会亲自研究一些现有项目,看看有哪些原语可供构建,包括尝试在 Vana 上启动数据 DAO。

推荐阅读

相关文章

布鲁塞尔 EThCC:对 Solana 和 Lido 的影响和创新

在布鲁塞尔举行的EThCC (以太坊社区会议)为 Solana 和 Lido 带来了重要更新。活动期间,来自 Solana 基金会的Lily Liu探讨了区块链的持续演进及其跨领域效用。来自 Lido 的Will Shannon则展示了增强安全性和去中心化的新模块。让我们看看下面的所有细节。

memecoin 是导致 NFT 市场价格低迷的原因吗?

看起来,memecoin 市场和 NFT 市场之间可能存在反比相关性,这两种资产的价格走势相反。尤其是 memecoin 市场此刻可能成为 NFT 市场遭受严重打击的原因。将 memecoin 市场最近几个月的趋势与 NFT 的趋势进行比较,实际上似乎存在明显的反比相关性。

重要的加密货币新闻:Tether 的新黄金稳定币

加密货币新闻:Tether 发布了一条关于推出新的黄金抵押稳定币的特别重要消息。 Tether 将其称为 Alloy,符号为 aUSDT。正如符号本身所示,它始终是一种与美元挂钩的稳定币,但与 USDT 不同的是,它不以美元作为抵押。

以太坊 ETF:彭博社预测将于 7 月 2 日推出

彭博社分析师 Eric Balchunas 继续向公众通报备受期待的美国现货以太坊 ETF 推出情况,并将其预测时间提前至 7 月 2 日。彭博社分析师Eric Balchunas在最新消息中对美国将于 7 月 2 日推出现货以太坊 ETF 做出了新的预测。与之前所述的 7 月 4 日相比,这是一个预期。有道理。

加速合并后的以太坊(ETH)发行

在快速发展的加密货币领域,以太坊发生了重大转变,其供应量的增长达到了自被称为“合并”的历史性转变以来最快的日增长率。供应量增长的加速是由于销毁的交易费用大幅减少,这一变化归因于最近的 Dencun 更新。合并发生在 2022 年 9 月,这是以太坊的一次重大变革,从工作量证明 (PoW) 过渡到权益证明 (PoS)。

Twitter起诉埃隆马斯克

Twitter 董事会已决定起诉 Elon Musk未能购买社交网络。埃隆马斯克冒着被推特起诉的风险这个消息已经传了好几天了,但现在它已经成为官方的了。 Twitter 已决定将 Elon Musk 告上法庭,因为他未能以 440 亿美元的价格购买社交网络,由于特斯拉创始人的回溯,该交易在最后一刻落空。