阿里发布HappyOyster世界模型,作为与谷歌Genie 3对标的新产品,该模型通过多模态数据处理和高效推理机制,在复杂场景建模领域实现技术突破,具有潜在的广泛应用价值。
专题:model-comparison
按该标签聚合的大模型资讯列表(自动分类与标签提取)。共 9 篇文章。
InfoQ 对 Anthropic Claude 系列模型进行代码生成基准测试,覆盖 Python、JavaScript、Java、C# 四语言。评估指标包括 Pass@1、响应时延和每千字符成本,并与 GPT‑4、Gemini 等主流模型对比。结果显示 Claude 3.5 Sonnet 在成本和时延上具优势,准确率略逊于 GPT‑4;Claude 2.…
谷歌开源Gemma系列大模型,主打手机端离线Agent支持与内存优化技术。通过动态内存分配和量化压缩,实现轻量化部署。对比Qwen等竞品,突出其在参数规模、推理效率及资源占用方面的优势,为移动端AI应用提供新方案。
Cursor发布新模型,被指与Kimi K2.5相似,官方确认该事实。事件引发对大模型技术相似性的讨论,反映出AI领域竞争激烈。Cursor通过回应和优化功能试图维持其市场地位。
Cursor发布自研AI模型,性能超越Opus 4.6,具备成本优势和实际应用价值,适合开发者和企业使用。
阿里千问发布Qwen3.5-Max预览版,在权威盲测平台LMArena中击败所有国际与国产模型,登顶中国最强AI模型。其在数学与文本能力子榜均居中国第一,总榜全球第六,首次实现对GPT-5.4和Claude 4.6的超越。该模型延续‘小参数大性能’策略,8款开源模型全系SOTA,标志着中国大模型正式进入全球第一梯队。
本文对 Apple Silicon M3 Ultra 平台上的大型语言模型(LLM)进行了性能实测。在 llama.cpp 环境下,使用 10000 token 的深度上下文生成任务作为评测标准,GPT-OSS:120B 以其出色的速度和通用性脱颖而出,成为当前中等硬件配置下的首选。Nemotron Nano 因其参数规模与速度的良好平衡展现出潜力。GLM…
Amazon SageMaker AI推出基于Amazon Nova的LLM评判器,支持动态评分标准生成,可精准评估生成式AI模型输出。该评判器通过自动生成评估规则,提升模型迭代和数据质量控制的效率,具备可解释性、灵活性和高准确性三大核心亮点,适用于多种AI应用场景。
文章通过道德情景测试AI模型对人类价值观的理解,对比AI与人类预测结果,揭示AI在伦理判断上的局限性。涉及普通与极端道德问题,提供数据与分析,对AI伦理研究具有参考价值。