专题:whisper

按该标签聚合的大模型资讯列表(自动分类与标签提取)。3 篇文章。

社区Hacker News2026/04/08 03:373840
实现 GCS 流式音频读取并在 Mac Studio 本地微调 Whisper
加入 Gemma 4 多模态 LoRA 微调支持并解决 OOM 问题

作者在 M2 Ultra Mac Studio 上实现了一个从 GCS 流式读取音频并对 Whisper 进行本地微调的工具,并在 Gemma 4 发布后加入对其多模态微调的支持。文章详细说明了数据管道、LoRA 微调、内存管理等实现细节,指出了长音频导致 OOM 的挑战并提供了梯度检查点等解决方案,旨在为 Apple Silicon 开发者提供可直接使用…

社区Hacker News2026/04/07 03:503740
本地 Whisper 模型实现语音转文本
macOS 按住说话交互,数据不离机

Ghost Pepper 是一款基于本地 Whisper 模型的 macOS 语音转文本工具,采用“按住说话”交互方式,确保音频数据不离开本机。已在编码和邮件撰写等场景中实战,且可作为其他 AI Agent 的语音接口。项目完全开源,使用 MIT 许可证,欢迎社区贡献。

社区Hacker News2026/02/15 06:3981

Off Grid是一款开源手机应用,允许用户在离线环境下运行AI文本生成、图像生成、语音转录和视觉处理功能。其核心亮点在于不依赖云端服务,保障用户隐私,同时利用硬件加速提升性能。支持多种AI技术栈,包括llama.cpp、Stable Diffusion、Whisper和SmolVLM/Qwen3-VL,适用于无网络或隐私敏感的场景。