查看“30美元复刻DeepSeek?最新开源AI项目TinyZero横空出世”的源代码
←
30美元复刻DeepSeek?最新开源AI项目TinyZero横空出世
跳转至:
导航
、
搜索
因为以下原因,您没有权限编辑本页:
您所请求的操作仅限于该用户组的用户使用:
用户
您可以查看与复制此页面的源代码。
{{4}} [[伯克利团队]]以30美元复制[[DeepSeek]] AI的核心功能,推出开源项目TinyZero,证明AI研究不再是高成本领域,降低了进入门槛,推动了更广泛的技术应用。 人工智能研究通常是巨头企业的专属游戏,这些公司拥有深厚的财力支持。然而,[[伯克利加州大学]]的一支研究团队却打破了这一局面。他们仅以30美元复制了DeepSeek R1-Zero的核心功能。他们的项目名为[[TinyZero]],证明先进的人工智能推理模型并不需要耗费巨额资金。更重要的是,人工智能研究比以往任何时候都更容易接近。 在Jiayi Pan的带领下,该团队旨在通过[[强化学习]]([[Reinforcement Learning]],[[RL]])重新构建DeepSeek的推理模型。与依赖昂贵的云服务或巨大的计算能力不同,他们使用了一个基本的语言模型、一个简单的提示和一个奖励系统来训练TinyZero。 Pan在X平台上分享了他的兴奋之情,表示:“你可以亲身经历那一刻,只需不到30美元。”他还将[[TinyZero]]描述为第一个开源的推理模型复现项目,强调了它如何学会验证和完善自己的答案。 '''如何开发TinyZero''' 为了测试模型,研究人员选择了一个名为[[Countdown]]的游戏,玩家需要通过基本的数学运算来达到目标数字。尽管'''TinyZero最初是随机猜测,但随着时间的推移,它学会了验证自己的答案、寻找更好的解决方案并相应地进行调整。''' '''他们尝试了不同规模的模型,从50亿参数到700亿参数。结果是什么?参数规模较小的模型(50亿参数)只是随机猜测答案然后停止。而参数规模较大的模型(150亿参数及以上)则学会了自我验证、完善解决方案并显著提高了准确率。''' TinyZero真正引人注目的地方在于,与传统的人工智能模型相比,它的成本低得惊人。看看这些对比: * OpenAI的API:每百万tokens收费15美元 * DeepSeek-R1:每百万tokens收费0.55美元 * TinyZero的总成本:一次性训练成本30美元 这意味着任何人(不仅仅是大型科技公司)都可以在无需烧钱到破产的情况下实验人工智能推理模型。 '''可用性''' [[TinyZero]]是开源的,并且可以在[[GitHub]]上找到,因此任何人都可以尝试改进它。尽管它目前仅在Countdown游戏中进行了测试,但潘佳乂希望这个项目能够使强化学习研究更加普及。 当然,这仍然是一个早期阶段。“当然,其中一个缺点是,它仅在Countdown任务中得到了验证,但尚未在一般推理领域中得到验证。”Pan承认。但即便如此,其影响仍然是显而易见的:人工智能的发展并不一定要昂贵。有了像TinyZero这样的项目,低成本、开源的人工智能或许将成为未来的趋势。 '''DeepSeek是如何训练的''' '''DeepSeek R1通过创新的多阶段[[强化学习]]([[RL]])训练方法,采用组相关策略优化 (GRPO),在复杂推理任务中表现不俗,甚至有望超越OpenAI的o1模型。''' DeepSeek AI发布了其最新的模型DeepSeek-R1,这是一款在复杂推理任务中与OpenAI的o1模型相媲美的开源模型。'''它采用了一种名为组相关策略优化([[GRPO]])的强化学习算法,并通过多阶段训练方法不断优化。'''这一新算法旨在提升大型语言模型(LLM)的推理能力,尤其在数学推理等领域表现尤为突出。 [[文件:TinyZero1.jpg]] 30美元复刻DeepSeek?最新开源AI项目TinyZero横空出世 '''GRPO的核心概念是通过取消对价值函数模型的依赖来简化训练过程。'''这一创新不仅减少了内存消耗和计算开销,还能通过组内得分来估算基准,从而优化模型性能。与传统的Proximal Policy Optimization(PPO)不同,GRPO不依赖单独的价值函数,而是使用多个输出的平均奖励作为基准进行优化。通过这种方式,模型可以更自然地处理多输出的情况,如同在处理单一输入时一样。 DeepSeek团队在构建DeepSeek R1的过程中,首先基于DeepSeek V3进行强化学习实验,尝试应用GRPO对无监督推理文本进行补全。使用规则奖励模型,重点评估格式、数学和编程等领域的表现。比如,通过奖励准确性来评估是否得出了正确的答案,或者是否解决了[[LeetCode]]问题;通过奖励格式来确保模型在思考过程中,能将其思维过程清晰地表达出来。 [[文件:TinyZero2.jpg]] 30美元复刻DeepSeek?最新开源AI项目TinyZero横空出世 这些措施显著提升了DeepSeek R1在AIME 2024的表现,Pass@1得分从15.6%跃升至71.0%,接近OpenAI o1-0912的水平。随着问题的解答中token的数量增加,模型表现出自然地学会了在更长时间内思考并生成更多tokens来完成任务。 然而,这种进步并非没有代价。早期的模型输出可读性较差,语言混杂,但通过多阶段的训练方法,这一问题得到了解决。 在训练过程中,DeepSeek R1经历了四个关键阶段,以确保模型的稳定性和有效性。首先,团队进行了监督微调(SFT),以解决强化学习冷启动阶段的不稳定问题,并使用了包含大量链式思维(CoT)的数据集。接下来,模型在代码和数学等推理任务中应用[[GRPO]],加入了“语言一致性”的奖励,以确保模型语言风格的一致性。第三阶段,通过拒绝采样(RS)生成大量合成数据集,重点提高模型在写作和角色扮演等通用任务中的能力。最后,在第四阶段,[[GRPO]]再次被应用,以结合规则和结果奖励模型,进一步优化模型的有用性和无害性,从而最终形成了DeepSeek R1。 [[文件:TinyZero3.jpg]] 30美元复刻DeepSeek?最新开源AI项目TinyZero横空出世 其中,DeepSeek团队有几项惊人的选择和发现。与许多模型不同,DeepSeek并没有使用[[蒙特卡洛树搜索]]([[MCTS]])或过程奖励模型([[PRM]])。而且,通过在应用[[GRPO]]之前进行微调,训练过程变得更快、更稳定。特别是,基于准确性和格式的规则奖励,往往比复杂的奖励模型更加有效。 通过这一系列创新的训练步骤,DeepSeek R1不仅在推理能力上取得了显著进展,还能在各种任务中展现出更高的实用性和一致性。 [https://www.msn.cn/zh-cn/news/other/30%E7%BE%8E%E5%85%83%E5%A4%8D%E5%88%BBdeepseek-%E6%9C%80%E6%96%B0%E5%BC%80%E6%BA%90ai%E9%A1%B9%E7%9B%AEtinyzero%E6%A8%AA%E7%A9%BA%E5%87%BA%E4%B8%96/ar-AA1ymxIh?ocid=msedgntp&pc=CNNDDB&cvid=67a1e39039524d329b81d943bb4e80d5&ei=29 本文由小黑盒作者@Hylon1996于02月04日发布]
返回至
30美元复刻DeepSeek?最新开源AI项目TinyZero横空出世
。
导航菜单
个人工具
创建账户
登录
名字空间
页面
讨论
变种
视图
阅读
查看源代码
查看历史
更多
搜索
导航
首页
社区主页
新闻动态
最近更改
随机页面
帮助
华师附中老三届
站群链接
社友网(sn)
产品百科(cpwiki)
产品与服务(sn)
社区支持农业(sn)
工具
链入页面
相关更改
特殊页面
页面信息