|簡體中文

比思論壇

 找回密碼
 按這成為會員
搜索



查看: 17|回復: 0
打印 上一主題 下一主題

深度求索大模型:“花小钱办大事”

[複製鏈接]

1181

主題

1

好友

3797

積分

大學生

Rank: 6Rank: 6

  • TA的每日心情
    慵懶
    15 小時前
  • 簽到天數: 218 天

    [LV.7]常住居民III

    推廣值
    0
    貢獻值
    0
    金錢
    83
    威望
    3797
    主題
    1181
    跳轉到指定樓層
    樓主
    發表於 16 小時前 |只看該作者 |倒序瀏覽
    一个来自中国的开源模型,在开年之际聚焦了人工智能(AI)行业的目光。

    日前,杭州深度求索人工智能基础技术研究有限公司(以下简称“深度求索”)上线并同步开源DeepSeek-V3模型,同时公布长达53页的技术报告,介绍关键技术和训练细节。

    和很多语焉不详的报告相比,这份报告真正做到了开源。其中最抓人眼球的部分是,V3模型能力大幅升级,但训练仅仅花费557.6万美元,仅用2048块H800显卡,耗时不到两个月。

    美国人工智能初创公司Anthropic首席执行官达里奥·阿莫迪曾透露,GPT-4o的模型训练成本约为1亿美元。美国开放人工智能研究中心(OpenAI)创始成员之一安德烈·卡帕西点评,DeepSeek-V3让在有限算力预算内进行模型预训练这件事变得容易。

    深度求索如何实现“花小钱办大事”?它是否走出了大模型发展的一条新路?

    降低模型推理成本

    深度求索一直是国内AI版图上位置相对独特的一家——它是唯一没有做2C(面向个人消费者)应用的公司,选择开源路线,至今没有融过资。

    去年5月,深度求索发布DeepSeek-V2,以其创新的模型架构和史无前例的性价比爆火。模型推理成本被降至每百万Tokens(大模型用来表示自然语言文本的单位)仅1元钱,约等于开源大模型Llama3 70B的七分之一,GPT-4 Turbo的七十分之一,引发字节、阿里、百度等企业的模型降价潮。

    个中关节在于,DeepSeek提出的MLA(多头潜在注意力机制)架构和DeepSeekMoESparse(采用稀疏结构的混合专家模型)结构,大幅降低了模型的计算量和显存占用,实现了高效推理和经济高效的训练。

    简单来说,模型压缩、专家并行训练、FP8混合精度训练、数据蒸馏与算法优化等一系列创新技术大幅降低了V3模型成本。作为新兴的低精度训练方法,FP8技术通过减少数据表示所需的位数,显著降低了内存占用和计算需求。据报道,目前,谷歌等已将这项技术引入模型训练与推理中。

    深度科技研究院院长张孝荣在接受媒体采访时说,DeepSeek的“出圈”是对其在大模型技术上的突破和创新的认可,其通过优化算法和工程实践,实现高性能与低成本的平衡。DeepSeek为整个行业的发展注入活力,也对大模型的技术路径和工程实践产生积极影响,推动高效训练、模型轻量化和工程优化。

    有业内人士分析,V3在架构创新、训练效率和推理性能方面展现巨大潜力,尤其在成本和性能的平衡方面作出重要贡献。不过,与此同时,也仍有许多挑战需要解决,如需进一步扩展上下文长度、优化多模态数据处理等。未来的研究方向包括提升模型的推理速度、完善更高效的硬件架构设计,以及增强多模态学习和生成能力。

    不堆算力创新算法

    大参数、大算力、大投入,这条已经被验证行之有效的ChatGPT路径,实则是绝大部分创业公司难以承受之重。

    据报道,仍处于研发过程中的GPT-5,已进行过至少两轮训练,每轮训练耗时数月,一轮计算成本接近5亿美元。一年半过去,GPT-5仍未问世。这意味着,新一代通用大模型的训练成本已达到十多亿美元甚至更高。未来这一数字可能持续攀升。

    规模定律(Scaling law)是指在训练大模型时,数据量、参数量和计算资源越多,训练出的模型能力和效果越好。然而,一段时间以来,行业对规模定律可持续性的疑问不绝于耳。

    V3的出现提供了新的解法。“Scaling Law不只停留在预训练阶段,而是往后训练,尤其是注重推理领域的后训练集、强化学习等领域扩展。”智源研究院副院长兼总工程师林咏华接受科技日报记者采访时说,这一点在国外以OpenAI o1发布为标志,国内则有DeepSeek使用强化学习训练发布DeepSeek R1这个具有很强挖掘和激活能力的模型。

    在林咏华看来,V3的发布,也印证了利用R1可以很好进行能力提升。

    行业相关探索还有很多,如Kimi将强化学习用到更多搜索场景,发布以逻辑思考和深度思考为核心功能的数学模型K0-math;蚂蚁技术研究院建立强化学习实验室,围绕如何在后训练及强化学习上进行更多模型能力的探索。林咏华期待,未来不仅是靠堆砌更多算力、参数和数据,而是靠真正的算法创新,持续在后训练阶段帮助模型提升基础能力。

    值得注意的是,“省钱模式开启”并不意味着算力式微。

    V3发布后,360集团创始人周鸿祎发文称赞“DeepSeek的进步对推动中国AI产业发展是极大利好”,但他也认为,这并非说中国AI发展不需要高端算力芯片。囤显卡建算力集群依旧必要,因为目前预训练算力需求或许没那么大,但像慢思考这类复杂推理模型对推理算力需求大,文生图、文生视频的应用也需消耗大量算力资源。巨头们提供AI云服务,构建庞大算力基础必不可少,这与 DeepSeek 降低训练算力需求是两回事,两者并不矛盾。

    一位行业专家在接受科技日报记者采访时认为,2025年,大模型行业会进一步收敛,这种收敛既包括技术层面,也包括厂商层面。进入“百模大战”后期,要进一步提高模型计算效率,降低推理成本,对计算的架构分布、利用效率等都提出更为精细化的要求。
    您需要登錄後才可以回帖 登錄 | 按這成為會員

    重要聲明:本論壇是以即時上載留言的方式運作,比思論壇對所有留言的真實性、完整性及立場等,不負任何法律責任。而一切留言之言論只代表留言者個人意見,並非本網站之立場,讀者及用戶不應信賴內容,並應自行判斷內容之真實性。於有關情形下,讀者及用戶應尋求專業意見(如涉及醫療、法律或投資等問題)。 由於本論壇受到「即時上載留言」運作方式所規限,故不能完全監察所有留言,若讀者及用戶發現有留言出現問題,請聯絡我們比思論壇有權刪除任何留言及拒絕任何人士上載留言 (刪除前或不會作事先警告及通知 ),同時亦有不刪除留言的權利,如有任何爭議,管理員擁有最終的詮釋權。用戶切勿撰寫粗言穢語、誹謗、渲染色情暴力或人身攻擊的言論,敬請自律。本網站保留一切法律權利。

    手機版| 廣告聯繫

    GMT+8, 2025-1-18 17:01 , Processed in 0.016248 second(s), 16 queries , Gzip On, Memcache On.

    Powered by Discuz! X2.5

    © 2001-2012 Comsenz Inc.

    回頂部