Reddit 数据 DAO 以及有关 Gen AI 模型训练的所有知识

Cryptonomist 采访了Vana's 的首席执行官兼联合创始人 Anna Kazlauskas，该公司推出了Reddit Data DAO ，第一周就有 14 万名用户使用经过验证的 Reddit 帐户注册。Anna 现在正在与开发人员合作，为 LinkedIn 和 ChatGPT 等其他平台构建数据 DAO。

除了 DAO 之外，他们还有其他渠道供用户将他们的数据汇集到数据集中，然后可用于 GenAI 模型训练，例如创建肖像或头像。

除了 Vana 所做的事情之外，我们还与 Anna 讨论了去中心化人工智能领域的发展，因为平台可以帮助人们使用数据并将其货币化以用于新的应用程序。

Vana 是一个由用户拥有的数据驱动的用户拥有的 AI 平台。我们的使命是让用户拥有自己的数据，并通过 AI 模型创造价值。为了提高 AI 模型的性能，对更多训练数据的需求日益增长，因为最终 AI 模型的好坏取决于其数据。

例如，LLaMA 3 的训练数据约为 15 万亿个单词，这大致相当于公共互联网上可用的数据量。现在，各大公司正试图获取更多数据，有时甚至为此花费数亿美元。各大科技平台都在囤积有价值的用户数据，并在不考虑用户许可的情况下构建新技术，这阻碍了创新。

在 Vana，我们将数据从这些封闭的花园中解放出来，将其置于用户的控制之下。我们允许用户直接为 AI 模型做出贡献，选择如何使用他们的数据以及 AI 的使用方式。我们相信，如果我们能够访问最好的数据，我们实际上可以超越领先的模型——通过访问只能直接从用户那里获得的数据来超越 GPT-6 等模型的性能。Vana 的架构是第 1 层区块链，从头开始设计用于私有的、用户拥有的数据。

从采用的角度来看，Reddit Data DAO 取得了令人难以置信的成功，第一周就有超过 14 万名用户注册。这种采用水平对于 DAO 来说并不常见——它现在是历史上最大的数据 DAO。

推动快速采用的原因之一是，随着新闻报道数据销售，用户越来越意识到其数据的价值，故事的大部分内容已经展开。意识到 Reddit 以 2 亿美元的价格出售您的数据或 Apple 以 5000 万美元的价格购买数据，您会更加意识到其价值。

此外，人们对基于 web3 构建的用户自有产品有着强烈的需求，这些产品超越了人们熟悉的DeFi产品，进入了新的所有权领域。我们在 Farcaster、DePIN 网络和基于 Vana 构建的数据 DAO 等项目中看到了这种趋势，它们代表了新一波用户自有产品。

一个重要的教训是需要证明贡献要求。超过一百万人试图加入 Reddit Data DAO，但许多人不符合拥有 Reddit 帐户、存在一定时间且拥有最低数据量的标准。这凸显了建立机制以确保高质量贡献的重要性。

Vana 是一个针对用户拥有数据的点对点网络，构建者创建了各种数据 DAO，例如 Reddit 数据 DAO、LinkedIn 数据 DAO 和 ChatGPT 数据 DAO。

这些不同的数据源对于训练AI模型来说非常有价值，但它们目前被封锁在封闭的围墙中。从这些平台获取数据可能非常棘手，但由于数据监管，这始终是可能的。

我们的目标是帮助用户同时将数据变现和保护。例如，借助 Reddit Data DAO，他们现在正在训练一个用户拥有的模型（目前主要专注于发垃圾帖子，但这只是一个开始）。每次使用该模型时，用户都会获得报酬，从而为模型的共同所有权创造了经济激励。

而且用户数据保持完全私密——数据不是出售，而是被“出租”，底层数据永远不会离开安全环境。

数据隐私已不再仅仅是一个意识形态或偏好问题，而是一个经济问题。如果有人拥有你的数据，他们就有可能创造出一个具有经济价值的人工智能版本，赚取收入并可能与你竞争。这就是为什么隐私对 Vana 如此重要和核心。

我们发明了一个概念，称为“非托管数据”，它类似于非托管钱包，但用于存储您的个人数据。它使您的数据完全受您控制，并由您的私钥授权。这使您的数据可以在应用程序之间移植，并在其上添加一个原生金融层，从而可以构建数据 DAO 之类的东西。

通常，AI 模型使用从公共互联网上抓取的数据进行训练，这些数据无需登录即可获得。但如果你从教孩子了解世界的角度来考虑，你不会希望他们只是随意地在公共互联网上闲逛。你会想给他们提供可能不公开的高质量信息，比如高质量的写作、思维过程或信息。AI 主要在公共数据上进行训练，但它确实需要私人数据来推动前沿发展。这就是数据 DAO 所实现的：用户贡献他们的私人数据来创建用户拥有的 AI。

我们认为，人工智能应该像开源软件一样由社区创建。我们的目标是让研究人员能够访问目前被禁锢在封闭环境中的最佳数据集，以推动人工智能性能的进步。

过去一年，去中心化 AI 领域发展确实加速。例如，今年在 EthCC 上，几乎每天都有去中心化 AI 活动，而去年没有。人们正在研究如何将对金融领域效果良好的自主技术应用到 AI 领域。在 Vana，我们认为所有这一切的核心基础是数据。要构建用户拥有的 AI 和自主 AI，您需要用户拥有的数据，因此我们的重点是该数据部分。

在未来的 5-10 年里，我对几个里程碑感到兴奋：1）由 1 亿人共同拥有的用户拥有的基础模型。2）更多可以自行赚钱的自主 AI 代理，并确保这些代理真正由为训练它们做出贡献的用户拥有。

随着人工智能发挥越来越重要的经济作用，确保从技术和社会角度的权力得到广泛分配。

Vana 是一个无需许可的网络，因此任何人都可以构建数据 DAO。它是专为私有、用户拥有的数据而设计的第一层区块链。目前，Satori 测试网上部署了 100 多个数据 DAO。许多构建者都是 Bittensor 生态系统的早期参与者，他们深刻理解加密和 AI 的交集。一些值得注意的项目包括 Twitter Data DAO、LinkedIn Data DAO 和 GitHub Data DAO。我们还与 ZK 领域和 DAO 工具领域的项目合作，使数据 DAO 更易于创建和管理。

我认为，当今人工智能领域最大的问题之一是谁应该拥有模型并决定将哪些数据输入其中。随着我们开始越来越多地依赖人工智能获取信息，它们成为我们的真相来源。决定将哪些数据输入人工智能的人实际上就是在决定真相。由一个实体控制这一切是可怕的。在 Vana，我们的观点是，应该由社区而不是一家公司来做出这些决定。

去中心化 AI 的另一个问题是：如果 AI 完全去中心化，那么如果 AI 失控并且没有关闭按钮怎么办？我们在 Vana 处理这个问题的方式是，AI 模型最终归为其贡献的用户所有，因此他们始终保持完全控制权。

现在是开始在去中心化 AI 领域进行构建的好时机。有很多机会将一些在 DeFi 中效果良好的加密经济原语应用于新兴的去中心化数据和 AI 类别。我还建议花一些时间深入研究非加密、开源 AI 领域，以了解人们在加密环境之外采取的一些方法。我会亲自研究一些现有项目，看看有哪些原语可供构建，包括尝试在 Vana 上启动数据 DAO。

Reddit 数据 DAO 以及有关 Gen AI 模型训练的所有知识

推荐阅读

相关文章

布鲁塞尔 EThCC：对 Solana 和 Lido 的影响和创新

memecoin 是导致 NFT 市场价格低迷的原因吗？

重要的加密货币新闻：Tether 的新黄金稳定币

以太坊 ETF：彭博社预测将于 7 月 2 日推出

加速合并后的以太坊（ETH）发行

Twitter起诉埃隆马斯克