专题：open-weight

按该标签聚合的大模型资讯列表（自动分类与标签提取）。共 2 篇文章。

系统化解析 LLM 架构的实用工作流程

媒体Ahead of AI2026/04/18 19:242800

• 从技术报告到 Hugging Face 配置逐步解析

• 手动加载代码验证模型结构

本文系统梳理了理解大型语言模型（LLM）架构的实用工作流程。作者从官方技术报告出发，强调利用 Hugging Face Model Hub 上的配置文件和 Transformers 实现进行细节获取，并通过代码逐层剖析和本地实验验证模型结构。该方法适用于开放权重模型，虽可部分自动化，但手动分析仍是最佳实践。

LLM 架构 Hugging Face 开源 Transformers 库模型分析开放权重模型

NVIDIA Nemotron 3 Nano 30B 登陆 SageMaker JumpStart：开源MoE大模型，30亿参数高效推理新标杆

原文

媒体AWS Machine Learning Blog2026/02/12 03:3850

NVIDIA Nemotron 3 Nano 30B 是一款开源的30亿活跃参数混合专家（MoE）语言模型，现已在 Amazon SageMaker JumpStart 上线，支持一键部署。该模型采用 Transformer-Mamba 架构，在编码、数学与科学推理等任务中表现优异，上下文窗口达百万令牌，兼具高精度与高效率。其完全开放的权重与部署方案，便于…

Mixture-of-Experts Nemotron模型 SageMaker 开放权重模型长上下文（256K token）