专题:gradient-accumulation

按该标签聚合的大模型资讯列表(自动分类与标签提取)。1 篇文章。

社区Reddit r/LocalLLaMA2026/02/20 22:422600

作者在 RTX 2060(6 GB)显卡上尝试训练 TinyRefinementModel,受显存限制只能使用 384 维特征,采用梯度累积等技巧将显存需求压到可接受范围,训练 5 小时后 loss 降至 5.1 并中止。后续计划将模型迁移至 TPU Spot 继续训练,文中提供了关键超参数和代码链接,适合资源受限的开发者参考。