从芯片到数据:AI 的下一场战役
作者:OORT创始人、哥伦比亚大学教授李崇博士(Max Li)
当全球依旧聚焦于围绕 AI 芯片的战争——关税、知识产权限制、供应链制裁以及地缘政治纷争时,直接左右AI 未来发展的数据荒问题,显然被忽略了。
今年年初,埃隆·马斯克便敏锐地指出,AI 公司已经耗尽了训练模型的数据,甚至“用尽”了人类知识的总和。
本文将探讨数据池的萎缩,及去中心化 AI (DeAI)如何在解决这一挑战中扮演关键角色。
首先要明确一点:数据并非取之不尽用之不竭。
数据之战早有先兆:2023 年,一群视觉艺术家对 Stability AI、MidJourney 和 DeviantArt 提起了一场具有里程碑意义的诉讼,指控这些公司在未获得许可的情况下使用他们的作品来训练生成式 AI 模型(如 Stable Diffusion)。与此同时,马斯克指责 OpenAI 等公司未经授权“抓取”推特(现为 X 平台)的数据,促使 X 平台收紧 API 定价和访问限制。
无独有偶,Reddit 大幅提高 API 定价,扰乱了依赖 Reddit 用户生成内容进行 AI 模型训练的 OpenAI 和 Anthropic 等公司。Reddit 将这一决定视为其数据货币化的方式,但也引发了关于用户数据平台和寻求使用这些数据的 AI 公司之间紧张关系的辩论。
这些事件凸显了一个日益明显的现实:我们正在耗尽合法和伦理上可用的数据。
芯片战聚焦于生产最强大的硬件,而数据战在于获取合适的数据集以训练 AI。伦理、高质量数据的日益稀缺,已成为一众企业发展AI的瓶颈。
对于大公司而言,最可行的方式是从中心化巨头那里获取数据,虽然代价高昂。然而,小型企业却面临有限且通常难以承受的选择。没有适当的收集数据的方法或渠道,这些公司将在未来AI发展和创新赛道大幅落后。
那么我们到底如何以伦理且有效的方式收集推进 AI 开发所需的数据?
数据战争将在多个前沿展开,每个方面都带来独特的挑战与机遇。
谁掌控数据收集的管道?如何做到伦理与合法?
随着针对科技巨头的诉讼因非法抓取或使用数据而堆积如山,新兴的举措也开始出现。例如,哈佛大学率先推动获得用户同意的数据贡献,为公众提供开放访问数据集。尽管此类项目有其价值,但远不足以满足商业 AI 应用的需求。
合成数据也逐渐成为一种潜在解决方案。Meta 和微软等公司已开始利用 AI 生成数据来微调模型,如 Llama 和 Phi-4。Google 和 OpenAI 也在工作中采用了合成数据。然而,合成数据也面临自身的挑战,例如模型“幻觉”问题,这可能会影响其准确性和可靠性。
去中心化的数据收集提供了另一种有前景的选择。通过利用区块链技术并使用加密货币激励个体安全共享数据,去中心化模式可以解决隐私、所有权和质量问题。这些解决方案还民主化了数据访问,使小型企业能够在 AI 生态系统中竞争。
低质量的数据会导致模型偏差、不准确的预测,并最终引发对 AI 系统的不信任。我们如何确保用于 AI 训练的数据是准确且具有代表性的?
行业常见做法包括:
此外,各国监管机构还面临着建立全面数据隐私和安全规则的迫切挑战,这些规则需要平衡个人权利与技术创新,同时应对诸如保护敏感数据免受网络威胁、外国利用以及敌对实体滥用等关键国家安全问题。
数据战争的影响深远。例如,在医疗行业,高质量患者数据的获取可以彻底改变诊断和治疗计划,但严格的隐私法规构成了障碍。同样,在音乐行业,使用伦理数据集训练的 AI 模型可以改变从作曲到版权执行的一切,前提是它们尊重知识产权。
这些挑战突显了去中心化解决方案的重要性,这些方案优先考虑数据透明度、质量和可访问性。通过利用去中心化系统,我们可以创造一个更加公平的数据生态系统,使个人保留对其数据的控制权,企业能够访问伦理且高质量的数据集,并在不损害隐私或安全的情况下推动创新。
从芯片战到数据战的转变将重塑 AI 生态系统及其演变过程,为去中心化数据解决方案提供领先的机会。通过优先考虑伦理数据收集和可访问性,去中心化 AI 有潜力弥合差距,引领更公平、更具创新性的 AI 未来。
争夺最佳数据的战斗已经开始。我们是否准备好应对?