专题：gemini-ai

实时视频翻译器：翻译时克隆你的声音

社区Reddit r/LocalLLaMA2026/02/08 19:3040

一个开源的实时视频翻译器，能在视频通话中实时克隆用户声音进行翻译，实现跨语言交流。该项目融合了 WebRTC、Google STT、Gemini AI 和 Qwen3-TTS 等技术，采用事件驱动架构，端到端延迟仅约 545 毫秒。系统支持无限扩展，未来计划包括群组通话、语音情感迁移和移动应用。项目已在 GitHub 开源，欢迎社区贡献。

实时翻译语音克隆 WebRTC Gemini AI 开源框架