专题:parameter-efficiency

按该标签聚合的大模型资讯列表(自动分类与标签提取)。3 篇文章。

社区Hacker News2026/04/08 20:195640
单GPU训练超百亿参数LLM
全精度训练效率提升

MegaTrain是突破性训练框架,可在单GPU上完成超百亿参数LLM的全精度训练。通过算法优化和流程重构,降低硬件需求并提升效率,为资源有限环境提供高性能模型训练方案。核心亮点包括单设备训练能力、全精度保持与资源效率提升,对AI模型研发具有重要实践价值。

官方Simon Willison2026/04/03 02:287960
Gemma 4发布多模态LLM
采用PLE提升参数效率

谷歌发布Gemma 4系列多模态LLM,包含2B/4B/31B及26B-A4B参数模型。核心亮点包括Per-Layer Embeddings架构提升参数效率、支持视频/音频/OCR等视觉任务处理,以及通过AI Studio提供API接口。测试显示20亿参数模型运行正常,但31B模型存在输出异常,作者演示了模型生成SVG图像的应用案例。