发布日期:2025-10-19 08:13 点击次数:115
算力2024欧洲杯官网入口,就像骑手一样,也要学诊断治。
假如你在夜深点了一份外卖。几分钟后,系统速即给你派来最近的骑手,他不需要全城移动的雄兵,只有顺道接单,就能把一碗热汤准时送到你手里。
好意思团正在把这种"派单逻辑"搬到 AI 宇宙。
在最新发布的 LongCat-Flash 模子里,算力不再是一股脑砸上去,而是像骑手一样被精确诊治:复杂问题派更多"高东谈主",浅陋问题就近不休,最大限定减少豪侈。
好意思团最近的财报,和所处的竞争环境,让它需要新的故事。而 LongCat-Flash,即是好意思团递出的第一张筹码:在大模子赛谈开打另一场斗殴,把百万 tokens 的推理资本压到 0.7 好意思元。
以下为 LongCat-Flash 技巧文档解读:像不休骑手一样不休算力
技巧革命:算力活在算法中
当先,LongCat-Flash 的至极之处,不在于它"更大",而在于它会"量入为主"。
它的总参数畛域有 5600 亿,但在施行推理时,每个 token 只需要调用一小部分,轻便 18.6B – 31.3B。可以把它设想成一个重大的骑手团队,不是每一单齐要全员移动,而是字据订单的难度,派出最顺应的几位骑手去送。这么一来,既能保证隐敝面,又幸免了算力豪侈。
而所谓"零筹算巨匠",其实即是处理浅陋任务的捷径。
比如,一单仅仅送楼下便利店的一瓶水,就不需要总部复杂诊治,隔邻的小哥顺道就能完成。一样,LongCat-Flash 遭逢浅陋的 token,就平直放行,不豪侈实足算力,把资源留给真确复杂的任务。这种"按需分派"的逻辑,让模子像诊治骑手一样,把活派得更合理。
上图中展示了 LongCat-Flash 的全体架构:每层由多头潜在持重力(MLA)+ MoE 巨匠构成,其中一部分是零筹算巨匠,保证遭逢浅陋 token 时可以"零支拨"平直通过。
上图中 ( a ) 弧线夸耀:在疏导算力预算下,加入零筹算巨匠的模子 loss 更低,拘谨更快; ( b ) 激活巨匠数领略在 8 个独揽,平均约 27B 参数; ( c ) 不同 token 之间算力分派各别明显,阐明模子确乎在"挑票据"。
另一个革命点叫 ScMoE(Shortcut-connected MoE)。传统模子要等一批任务沿路处理完,再插足下一批,就像骑手要等通盘订单派完才能外出。
ScMoE 的想路是"边派边送":骑手在送餐的同期,系统依然运活动他谈论下一单。这么,算力的使用和通讯可以同期进行,全体后果天然升迁。
图中三组弧线(不同模子畛域)夸耀:有无 ScMoE 的 loss 真实重合,质料统搭伙致,但由于通讯和筹算可以叠加,ScMoE 在隐晦率和推理速率上显耀升迁。
工程智力:给算力买个"社保"
畛域大,速率快仅仅第一步,要津是能不成领略运行。LongCat-Flash 的历练形式更像是在镇定彭胀一个骑手网罗:先在小范围试运行,把诊治端正、阶梯谈论齐调好,再执行到更大的范围,幸免一上来就乱成一团。
为了退缩系统崩溃,它征战了"三重保险"。Router 领略,畸形于幸免通盘订单齐谈论在一条显露;激活领略,就像退缩某几个骑手被派单过多而累坏;优化器领略,则保证全体诊治有节拍,恒久能跑下去。恰是靠这一套机制,它在 30 天里完成了 20 万亿 tokens 的历练任务。
性能比较:发扬安妥
从收获单来看,LongCat-Flash 不仅仅推理快,在各大基准测试中一样发扬安妥:
通用任务:在 MMLU(89.71)和 CEval(90.44)中,LongCat-Flash 达到与海外一线模子畸形的水准。天然 CEval 分数略低于 Kimi-K2(91.26),但全体发扬依旧逾越大大齐基线模子,展现了可以的华文领略智力。
复杂推理:在 GPQA-diamond(73.23)上,LongCat-Flash 与同类模子保抓临近水准;在 DROP(79.06)、ZebraLogic(89.30)、GraphWalks-128k(51.05)等测试中,也领略处于中上游梯队。
数学智力:在 MATH500(96.40)和 AIME24(70.42)上,LongCat-Flash 与 Kimi-K2、DeepSeek 比拟差距不大,保管在高水平。在 BeyondAIME(43.00)上虽有下滑,但全体仍优于大齐模子。
编程任务:在 HumanEval+(88.41)、MBPP+(79.63)等 benchmark 上,LongCat-Flash 发扬领略,略低于 Kimi-K2(93.29、79.87),但依旧优于 Gemini2.5 Flash、Claude Sonnet 等敌手。
实测好意思团 LongCat-Flash:快
其实从上头的测试基准中可以看到,好意思团 LongCat-Flash 的性能并莫得遥遥逾越的方位,只可算是与各大主流模子智力旗饱读畸形。因此在好多常用的测试中看不出分袂,但有少量:
好意思团这个模子是果然快,和买了准时宝一样。
promtps:写一个 Python 函数 is_prime ( n ) ,判断 n 是否是质数,并给出 10 个不同的测试样例。
左边模子是 LongCat-Flash 网页端,右边是 kimi 1.5(字据官网态状,反映更快),可以看到一样的辅导词,LongCat-Flash 莫得怎么想考,一滑行内容平直飞出来,而 kimi 1.5 经由片晌想考后,(和 LongCat-Flash 比拟)慢悠悠的把内容写出来。
在中枢代码部分,二者也没分袂,可以说 LongCat-Flash 又快又好。
LongCat-Flash 的速率和价钱上风,巧合能坐窝改写行业口头。毕竟在大模子商场,生态和用户习尚时常比性能参数更具粘性。但它却显现出一个信号:好意思团依然习尚用我方最擅长的吩咐,把复杂的科技问题翻译成"诊治骑手"的逻辑,再用价钱杠杆撬开商场。
这让问题变得更道理:
当 AI 巨头们在谈模子畛域、参数精度时,好意思团却在谈派单后果和资本弧线。它看似"接地气"的切入点,反而可能成为搅拌口头的变量,就像也曾的 DeepSeek 那样。
十年前2024欧洲杯官网入口,好意思团用补贴烧出了外卖帝国。十年后,它是否能靠另一场价钱战,把我方送进大模子的牌桌?没东谈主能给出谜底,但至少可以详情的是,好意思团依然递出了第一张筹码。
Powered by 欧洲杯正规(买球)下单平台·中国官方全站 @2013-2022 RSS地图 HTML地图