专题：model-comparison

按该标签聚合的大模型资讯列表（自动分类与标签提取）。共 9 篇文章。

阿里发布HappyOyster世界模型：与谷歌Genie 3对标的技术突破

原文

媒体InfoQ 中文2026/04/17 01:358500

• 阿里推出HappyOyster世界模型

• 对标谷歌Genie 3性能

阿里发布HappyOyster世界模型，作为与谷歌Genie 3对标的新产品，该模型通过多模态数据处理和高效推理机制，在复杂场景建模领域实现技术突破，具有潜在的广泛应用价值。

世界模型多模态处理大语言模型人工智能研究模型对比

Claude 代码生成基准评测：多语言效率、成本与竞争模型对比

原文

媒体InfoQ 中文2026/04/09 22:004720

• Claude 3.5 Sonnet 成本低、时延快，准确率略低于 GPT‑4

• 多语言基准覆盖 Python、JS、Java、C#，提供 Pass@1 数据

InfoQ 对 Anthropic Claude 系列模型进行代码生成基准测试，覆盖 Python、JavaScript、Java、C# 四语言。评估指标包括 Pass@1、响应时延和每千字符成本，并与 GPT‑4、Gemini 等主流模型对比。结果显示 Claude 3.5 Sonnet 在成本和时延上具优势，准确率略逊于 GPT‑4；Claude 2.…

代码生成基准测试大语言模型 Anthropic Claude 模型对比

谷歌开源Gemma系列大模型：手机端离线Agent与内存优化技术解析

原文

媒体InfoQ 中文2026/04/03 22:405860

• 谷歌开源Gemma大模型系列

• 支持手机端离线Agent运行

谷歌开源Gemma系列大模型，主打手机端离线Agent支持与内存优化技术。通过动态内存分配和量化压缩，实现轻量化部署。对比Qwen等竞品，突出其在参数规模、推理效率及资源占用方面的优势，为移动端AI应用提供新方案。

开源模型移动AI 内存优化 LLM代理模型对比

Cursor新模型被指与Kimi K2.5相同，联创回应确认

原文

媒体InfoQ 中文2026/03/22 02:007550

• Cursor新模型被指与Kimi K2.5相似

• 官方确认模型基于Kimi K2.5开发

Cursor发布新模型，被指与Kimi K2.5相似，官方确认该事实。事件引发对大模型技术相似性的讨论，反映出AI领域竞争激烈。Cursor通过回应和优化功能试图维持其市场地位。

AI模型模型对比 Cursor Kimi 大型语言模型

Cursor自研模型超越Opus 4.6，性能与成本双优势凸显

原文

媒体InfoQ 中文2026/03/21 00:207830

• Cursor模型性能超越Opus 4.6

• 显著降低计算成本

Cursor发布自研AI模型，性能超越Opus 4.6，具备成本优势和实际应用价值，适合开发者和企业使用。

AI模型模型对比代码生成开源框架性价比

Qwen3.5-Max预览版登顶LMArena中国榜首，阿里千问首次超越GPT-5.4与Claude 4.5

原文

媒体量子位2026/03/20 10:118570

• Qwen3.5-Max预览版在LMArena总榜排名全球第六

• 击败GPT-5.4、Claude 4.6等所有海外顶级模型

阿里千问发布Qwen3.5-Max预览版，在权威盲测平台LMArena中击败所有国际与国产模型，登顶中国最强AI模型。其在数学与文本能力子榜均居中国第一，总榜全球第六，首次实现对GPT-5.4和Claude 4.6的超越。该模型延续‘小参数大性能’策略，8款开源模型全系SOTA，标志着中国大模型正式进入全球第一梯队。

通义千问3.5模型 LMArena盲测榜模型对比阿里巴巴 AI 开源模型

Apple Silicon M3 Ultra 上的 LLM 性能实测：GPT-OSS:120B 领跑，Nemotron Nano 潜力初显

原文

社区Reddit r/LocalLLaMA2026/02/15 11:284840

本文对 Apple Silicon M3 Ultra 平台上的大型语言模型（LLM）进行了性能实测。在 llama.cpp 环境下，使用 10000 token 的深度上下文生成任务作为评测标准，GPT-OSS:120B 以其出色的速度和通用性脱颖而出，成为当前中等硬件配置下的首选。Nemotron Nano 因其参数规模与速度的良好平衡展现出潜力。GLM…

大语言模型性能 Apple Silicon Llama.cpp框架模型对比

Amazon SageMaker AI推出基于Amazon Nova的LLM评判器，实现动态评分标准与精准模型评估

原文

媒体AWS Machine Learning Blog2026/02/07 00:2960

Amazon SageMaker AI推出基于Amazon Nova的LLM评判器，支持动态评分标准生成，可精准评估生成式AI模型输出。该评判器通过自动生成评估规则，提升模型迭代和数据质量控制的效率，具备可解释性、灵活性和高准确性三大核心亮点，适用于多种AI应用场景。

大语言模型评估 Amazon Nova Amazon SageMaker AI 动态评分模型对比

AI道德预测实验：人类与机器的伦理分歧

原文

媒体Dynomight2025/06/19 08:007850

文章通过道德情景测试AI模型对人类价值观的理解，对比AI与人类预测结果，揭示AI在伦理判断上的局限性。涉及普通与极端道德问题，提供数据与分析，对AI伦理研究具有参考价值。

伦理AI 模型对比 AI伦理道德困境 LLM预测