社区Hacker News2026/04/19 06:464700
• WebAssembly 编译为 Apple GPU 原生码
• 使用 Metal 共享缓冲区实现零拷贝
本文提出在 Apple Silicon 上利用 WebAssembly 实现零拷贝 GPU 推理的方案。通过将推理算子编译为原生指令并使用 Metal 共享缓冲区,省去 CPU‑GPU 数据拷贝,实现更低延迟和功耗。实验表明,推理速度提升 30%~45%,能耗下降约 20%。
按该标签聚合的大模型资讯列表(自动分类与标签提取)。共 1 篇文章。
本文提出在 Apple Silicon 上利用 WebAssembly 实现零拷贝 GPU 推理的方案。通过将推理算子编译为原生指令并使用 Metal 共享缓冲区,省去 CPU‑GPU 数据拷贝,实现更低延迟和功耗。实验表明,推理速度提升 30%~45%,能耗下降约 20%。