Cloudflare Agents SDK 新增语音处理功能：实现多模态智能助手交互

The Cloudflare Blog2026/04/15 21:00机翻/自动摘要/自动分类

内容评分

技术含量

7/10

营销水分

5/10

摘要

Cloudflare 为 Agents SDK 推出语音处理功能，允许开发者在现有智能助手架构中集成语音交互。该方案通过统一的 WebSocket 连接实现文本与语音状态同步，支持实时对话、多模态整合及低延迟传输。提供 React 钩子和通用客户端组件，开发者可灵活组合语音转文本（STT）和文本转语音（TTS）服务，无需重构现有系统。

正文

Cloudflare 为 Agents SDK 引入实验性语音处理流程，允许开发者在现有智能助手架构中无缝集成语音功能。该方案通过 @cloudflare/voice 提供核心组件，包括语音助手（withVoice()）、语音转文本（withVoiceInput()）及配套的 React 钩子（useVoiceAgent/useVoiceInput）和通用客户端（VoiceClient）。所有语音交互均基于同一 WebSocket 连接，共享 SQLite 支持的对话历史和持久化对象，实现文本与语音状态同步。该功能不仅支持实时语音交互，还通过缩短网络路径和优化传输机制降低延迟，同时保持对任务调度、电话支持等扩展功能的开放性。开发者可通过 npm 命令快速部署实验性语音包，并结合 Workers AI 组件构建完整语音处理系统。

Cloudflare Agents SDK 新增语音处理功能：实现多模态智能助手交互

内容评分

摘要

正文

标签