PANews 1月21日消息,据量子位报道,DeepSeek在GitHub更新的FlashMLA代码中首次出现“MODEL1”名称,覆盖114个文件中28处提及,且与现有版本V32(DeepSeek-V3.2)并列,暗示MODEL1为下一代新架构模型。代码差异显示该模型在KV缓存布局、稀疏性处理及FP8解码等方面进行了优化,或将在春节前后正式发布。结合近期公开的mHC残差连接机制与Engram记忆模块,MODEL1有望整合多项自研创新。
DeepSeek新模型MODEL1代码曝光,疑为全新架构
免责声明:本文版权归原作者所有,不代表MyToken(www.mytokencap.com)观点和立场;如有关于内容、版权等问题,请与我们联系。
更多精彩内容请查阅
X(https://x.com/MyTokencap)或加入社区了解更多MyToken-官方华文电报群
(https://t.me/mytoken_cn)
X(https://x.com/MyTokencap)或加入社区了解更多MyToken-官方华文电报群
(https://t.me/mytoken_cn)
相关阅读


以太坊基金会刚刚再次质押45,034枚ETH,约合9311万美元
PANews 4月3日消息,据Lookonchain监测,以太坊基金会刚刚再次质押了45,034枚ETH(9,311万美元)。...
PANews2026-04-03 08:24:00
币安钱包将于4月7日上线Sentio Pre-TGE活动
PANews 4月3日消息,据官方公告,币安钱包将于4月7日16:00至18:00开展Sentio Pre-TGE活动,符合条件的用户可通过Alpha活动页面参与,需消耗15积分。Pre-TGE活动奖...
PANews2026-04-03 08:11:00
加密 CTA 范式演进:从简单动量到 2026 年的自适应博弈
2026年加密市场完成向机构化转型,规模预计增至33.5亿美元。本文深度解析CTA策略如何应对市场波动与清算危机,并探讨自适应模型、Perp DEX崛起及监管新规下的范式演进与投资机遇。...
PANews2026-04-03 06:51:00