专题:open-weight

按该标签聚合的大模型资讯列表(自动分类与标签提取)。2 篇文章。

媒体Ahead of AI2026/04/18 19:242800
从技术报告到 Hugging Face 配置逐步解析
手动加载代码验证模型结构

本文系统梳理了理解大型语言模型(LLM)架构的实用工作流程。作者从官方技术报告出发,强调利用 Hugging Face Model Hub 上的配置文件和 Transformers 实现进行细节获取,并通过代码逐层剖析和本地实验验证模型结构。该方法适用于开放权重模型,虽可部分自动化,但手动分析仍是最佳实践。

媒体AWS Machine Learning Blog2026/02/12 03:3850

NVIDIA Nemotron 3 Nano 30B 是一款开源的30亿活跃参数混合专家(MoE)语言模型,现已在 Amazon SageMaker JumpStart 上线,支持一键部署。该模型采用 Transformer-Mamba 架构,在编码、数学与科学推理等任务中表现优异,上下文窗口达百万令牌,兼具高精度与高效率。其完全开放的权重与部署方案,便于…