专题:local-inference

按该标签聚合的大模型资讯列表(自动分类与标签提取)。8 篇文章。

媒体AINews2026/04/17 13:444600
Claude Opus 4.7 提升复杂任务与视觉能力
Qwen 3.6 本地推理量化效率显著

Anthropic 发布 Claude Opus 4.7,提升了复杂任务和视觉处理能力;Qwen 3.6 在本地推理和量化效率上取得突破,部分基准超越前代。文章梳理了两者的性能对比、硬件兼容性实践以及评估方法的局限,强调了性能提升与成本之间的权衡,对研发和部署者具有实用参考价值。

媒体AINews2026/03/27 13:445730
Anthropic 将发布 10 万亿参数 Capybara 模型
智谱 AI 推出开源编码模型 GLM‑5.1

Anthropic 将推出约 10 万亿参数的 Capybara 模型,性能超越 Claude Opus 4.6,Google 可能提供数据中心资金。智谱 AI 发布开源 GLM‑5.1,提升编码能力并缩小与闭源模型差距。Qwen 系列模型借助 TurboQuant 与 vLLM 实现本地高效推理,虽基准受质疑,但显示出量化加速的前景。整体呈现模型规模扩大…

社区Reddit r/LocalLLaMA2026/02/21 19:124640

本文评估了在约£1,000(≈US$1,300)预算内组装本地大语言模型工作站的可行性,重点分析了 Google Gemini 推荐的 RTX 3090 + Ryzen 5 7600 方案。通过对显卡显存、CPU、主板、内存、电源和散热的细致拆解,给出二手 RTX 3090 与新品 RTX 4070 Ti 两种预算方案,并指出显存是决定可运行模型规模的关键…

社区Reddit r/LocalLLaMA2026/02/20 22:084670

ggml 与 llama.cpp 正式加入 Hugging Face,意味着本地推理模型可以在统一平台上获取、量化并快速部署。此举将显著降低开发门槛、加速工具链集成,并借助 HF 的 CI/CD 提供长期维护。然而,模型与运行时的集中化也可能削弱独立推理栈的创新空间,社区需在便利与多样性之间保持平衡。

社区Reddit r/LocalLLaMA2026/02/15 15:481660

一位技术爱好者正规划搭建一套基于RTX 5090与3090双显卡的本地AI系统,旨在实现DND角色扮演中的高级推理与创意生成,并兼顾轻量级3D模型生成。该系统需能运行量化模型,以提供快速、迭代的场景模拟,并展现出逻辑判断与创新思维。用户强调避免使用昂贵的API服务,寻求在本地硬件上运行高效模型。核心诉求是咨询在此高性能GPU配置下,哪些量化模型能同时满足文…

社区Reddit r/LocalLLaMA2026/02/12 20:5360

Vesta 是一款专为 macOS Apple Silicon 设计的原生 AI 应用,旨在提供一体化的本地与云端 AI 模型运行体验。它独特地集成了 Apple Intelligence、MLX、llama.cpp 等本地推理框架,并支持 OpenAI、HuggingFace 等 31+ 云端 API。核心亮点包括创新的自然语言接口(NLI)和智能体助手…

社区Reddit r/LocalLLaMA2026/02/11 13:0240

一位开发者宣布发布了其重新构建的270亿参数Regency风格大型语言模型“Regency-Aghast”的GGUF版本。该模型旨在复现19世纪初(摄政时代)的独特语言风格和思维模式,为特定历史背景下的文本生成和角色扮演提供支持。作者利用Vast.ai的计算资源完成了此次模型重建,并对其在相关平台上的表现寄予厚望。该模型已在Hugging Face上开源,…