专题：mlx

按该标签聚合的大模型资讯列表（自动分类与标签提取）。共 5 篇文章。

Gemma 4 多模态微调工具：在 Apple Silicon 上本地训练 Whisper 的实践指南

社区Hacker News2026/04/08 03:373840

• 实现 GCS 流式音频读取并在 Mac Studio 本地微调 Whisper

• 加入 Gemma 4 多模态 LoRA 微调支持并解决 OOM 问题

作者在 M2 Ultra Mac Studio 上实现了一个从 GCS 流式读取音频并对 Whisper 进行本地微调的工具，并在 Gemma 4 发布后加入对其多模态微调的支持。文章详细说明了数据管道、LoRA 微调、内存管理等实现细节，指出了长音频导致 OOM 的挑战并提供了梯度检查点等解决方案，旨在为 Apple Silicon 开发者提供可直接使用…

Gemma 4 Whisper 模型 Apple Silicon MLX技术 LoRA

苹果LLM in a Flash技术助力本地运行Qwen 397B模型

原文

官方Simon Willison2026/03/19 07:566860

• 苹果技术实现本地运行大模型

• 量化优化降低内存占用

Dan Woods利用苹果LLM in a Flash技术，在本地运行Qwen 397B模型，通过量化和专家混合架构优化内存使用。实验显示，4位量化可实现每秒4.36个令牌的推理速度，且输出质量与4位精度无明显差异。该成果对本地大模型部署具有重要参考价值。

LLM in a Flash Mixture-of-Experts 量化技术 MLX技术内存优化

复现Exo DGX Spark + Mac Studio混合推理实验：是否遗漏了关键点？

原文

社区Reddit r/LocalLLaMA2026/02/23 01:265830

本文作者尝试复现Exo在DGX Spark与Mac Studio混合集群上的Llama-3.1 8B训练加速实验，但因Blackwell显卡不被MLX CUDA支持而失败。文章分析了实验环境、问题原因及现有替代方案，指出Exo的Spark功能尚未成熟，但其跨平台集群能力仍具吸引力。

Exo DGX Spark CUDA MLX技术 Llama-3.1

Qwen3-ASR模型MLX重实现：Apple Silicon原生ASR性能新突破

原文

社区Reddit r/LocalLLaMA2026/02/15 13:193850

Qwen3-ASR模型现已通过MLX平台在Apple Silicon上实现原生运行，为M系列GPU带来了高性能的自动语音识别能力。该重实现提供了0.6B和1.7B两种模型规模，支持52种语言，并具备词级时间戳、4位/8位量化、流式解码等高级特性。性能测试显示，其在M4 Pro上识别速度快，错误率低，且内存占用高效。这一进展为Apple生态系统中的AI应用开…

Apple Silicon MLX技术自动语音识别 Qwen 3 量化技术

LispE AI工具套件：集成llama.cpp、tiktoken、mlx与PyTorch的高性能实现

原文

媒体Lobsters AI2026/01/30 21:2640

LispE是一个开源Lisp语言，通过集成llama.cpp、tiktoken、mlx和PyTorch等库，实现了对AI模型的高效加载与推理。其API简洁，性能优于Python，尤其在处理GGUF模型和MLX指令集时表现突出。LispE支持直接使用C++代码进行高性能计算，为开发者和研究人员提供了更灵活的AI开发工具。