专题：gemini

按该标签聚合的大模型资讯列表（自动分类与标签提取）。共 54 篇文章。

OpenAI Agents SDK 开源升级与多家厂商集成；Gemini、Claude Opus 与 NVIDIA Lyra 等模型新发布

媒体AINews2026/04/15 13:445700

• OpenAI Agents SDK 开源并支持多种资源管理功能

• Google、Anthropic、NVIDIA 等发布新模型与应用

OpenAI 发布开源 Agents SDK，解耦代理与计算资源并支持文件、技能、内存等功能，促进第三方平台集成。Google、DeepMind、Anthropic、NVIDIA 等同步推出 Gemini 桌面应用、Gemini 3.1 Flash TTS、Claude Opus 4.7 及 Lyra 2.0 等新模型，提升智能助理和语音合成能力。社区在 …

OpenAI 代理 SDK Google Gemini 桌面应用 Anthropic Claude Opus 4.7 NVIDIA Lyra 2.0 webAI-ColVec1

深度剖析Gemini SynthID检测机制的逆向工程方法

原文

社区Hacker News2026/04/10 04:103820

• 逆向定位SynthID检测子模块

• 多层特征+阈值实现高精度区分

本文通过灰盒分析、二进制审计和行为追踪，逆向揭示了Gemini模型的SynthID检测机制。核心在于多层特征嵌入与概率阈值判别，实现真实与合成ID的高精度区分。文中提供代码示例、阈值调优方法及实验评估，阐明其在LLM安全与隐私保护中的价值，并为安全研发指明方向。

Google Gemini 桌面应用 SynthID检测逆向工程 LLM安全隐私保护

LLM-Gemini 0.30 版本发布，新增多款Gemini与Gemma系列模型

原文

官方Simon Willison2026/04/03 02:255540

• LLM-Gemini 0.30版本发布

• 新增Gemini 3.1与Gemma 4系列模型

LLM-Gemini 0.30版本推出三款新模型，涵盖Gemini和Gemma系列。gemini-3.1-flash-lite-preview主打轻量化推理，gemma-4-26b-a4b-it与gemma-4-31b-it提供不同参数规模的高性能选项，扩展了模型应用场景，开发者可通过官方文档获取详细技术信息。

Google Gemini 桌面应用 Gemma 模型大模型模型更新大语言模型

2026年苹果WWDC：Siri全面升级，AI战略加速落地

原文

媒体爱范儿2026/03/25 11:128750

• Siri升级为智能对话助手

• iOS 27优化系统稳定性

2026年苹果WWDC将重点展示Siri的全面升级与AI战略进展。Siri将采用对话形式，支持历史会话和个性化推荐，由Apple Foundation Models和Google Gemini驱动。iOS 27优化系统稳定性与性能，同时支持折叠iPhone。苹果还推出智能家居产品，集成AI功能，强化隐私保护。

Siri 人工智能 iOS homeOS Google Gemini 桌面应用

苹果推出全新独立Siri应用，AI语音助手升级至Campo

原文

媒体爱范儿2026/03/25 10:467630

• 苹果推出独立Siri应用Campo

• Siri整合AI问答与本地搜索

苹果即将推出独立Siri应用Campo，整合AI问答与本地搜索，取代Spotlight。Siri将升级为用户主动使用的工具，并引入Google的Gemini模型提升性能。苹果计划将Siri作为未来硬件的核心操作系统，推动产品智能化。该升级体现了苹果在AI领域的战略布局与技术整合能力。

Siri AI助手 Google Gemini 桌面应用 iOS 27 WWDC

Gemini Embedding 2原生支持视频嵌入，实现亚秒级视频搜索

原文

社区Hacker News2026/03/24 22:586880

• Gemini Embedding 2支持原生视频嵌入

• CLI工具实现视频索引与自然语言搜索

Gemini Embedding 2新增原生视频嵌入功能，无需转录即可实现视频与文本的向量匹配。作者开发了CLI工具，用于视频索引和自然语言搜索，支持自动裁剪匹配片段。该技术适用于监控、哨兵模式等场景，索引成本较低，具有实际应用价值。

Google Gemini 桌面应用视频嵌入 ChromaDB 自然语言搜索 AI工具

Google、Mistral、Cohere 与 OpenAI 连发多模态与语音模型，突破上下文与多语言能力

原文

媒体AINews2026/03/24 13:445750

• Google 发布 Gemini 3.1 Flash Live，128k 上下文、70 语言

• Mistral 推 Voxtral TTS，开源低延迟，支持 9 语言

Google、Mistral、Cohere 与 OpenAI 本周相继发布新模型：Google 的 Gemini 3.1 Flash Live 提供 70 语言、128k 上下文的实时语音视觉代理；Mistral 的开源 Voxtral TTS 支持 9 语言、低延迟，性能媲美 ElevenLabs；Cohere 的 Transcribe 在 14 语言上…

文本转语音向量量化显存优化 AI模型大语言模型

Joonote：基于Gemini的锁屏与通知栏笔记应用开发实录

原文

社区Hacker News2026/03/21 23:026730

• 基于Gemini AI开发锁屏笔记应用

• 实现多平台笔记管理功能

Joonote是一款基于Gemini AI的锁屏与通知栏笔记应用，解决了用户在锁屏状态下查看和记录笔记的痛点。其核心亮点包括私密模式、待办事项管理、语音输入、标签分类、自动备份等功能，结合AI辅助开发，为开发者提供了实际案例参考。

Android Kotlin Google Gemini 桌面应用笔记应用 AI开发

谷歌扩展个人智能功能至搜索与Chrome浏览器

原文

官方Google AI Blog2026/03/18 00:007520

• 谷歌扩展AI功能至搜索与Chrome

• 个人智能提升用户交互体验

谷歌将个人智能功能扩展至搜索、Gemini应用和Chrome浏览器，提升个性化体验。AI Mode在多个产品中应用，增强用户交互精准度。核心亮点在于AI技术的多场景落地与用户定制化服务。

个人智能 Google Gemini 桌面应用 AI模式 Chrome浏览器搜索引擎

谷歌地图集成Gemini模型，推出Ask Maps与沉浸式导航功能

原文

媒体量子位2026/03/14 18:488740

• Gemini驱动Ask Maps功能

• 沉浸式导航增强3D体验

谷歌地图推出Ask Maps和沉浸式导航功能，由Gemini模型驱动。Ask Maps通过对话解决复杂出行需求，沉浸式导航提供更逼真的3D视图和道路细节。这两项功能是谷歌地图十多年来的重大升级，显著提升用户体验，对垂直应用构成挑战。

Google Gemini 桌面应用 3D导航自然语言处理个性化推荐 3D导航

谷歌发布首款基于Gemini架构的Embedding模型，支持交错输入

原文

媒体InfoQ 中文2026/03/12 17:498730

• 谷歌发布Gemini架构Embedding模型

• 支持交错输入处理多模态数据

谷歌推出首款基于Gemini架构的Embedding模型，支持交错输入，提升多模态处理能力。该模型在复杂任务中表现灵活高效，可能影响传统AI开发架构，引发开发者社区高度关注。

向量嵌入 Google Gemini 桌面应用多模态生成 AI模型输入处理

谷歌发布Gemini Embedding 2：多模态数据统一嵌入空间

原文

媒体量子位2026/03/11 17:308930

• 多模态数据统一嵌入空间

• 支持图像、视频、音频等混合输入

谷歌推出Gemini Embedding 2，首次将文本、图像、视频、音频和文档统一映射到同一语义空间，实现跨模态语义对齐。该模型支持多模态混合输入，提升AI Agent理解屏幕和环境的能力，技术上采用MRL方法，可动态调整向量维度，适用于RAG、语义搜索、情感分析等场景。

多模态生成向量嵌入 Google Gemini 桌面应用 Matryoshka Representation Learning AI代理

Gemini模型在Google Sheets中实现全新功能升级

原文

官方Google AI Blog2026/03/10 21:007660

• Gemini模型集成至Google Sheets

• 支持自然语言描述操作数据

Google Sheets集成Gemini模型的新测试版功能，支持用户通过自然语言描述快速创建、整理和编辑工作表。该功能适用于基础任务和复杂数据分析，提升了办公效率。核心亮点包括自然语言交互、自动化处理和智能辅助功能。

Google Sheets Google Gemini 桌面应用 AI集成技术数据分析自然语言处理

Conductor：Gemini CLI 的上下文驱动开发工具

原文

官方Google Developers Blog2026/03/05 00:336740

Conductor 是 Gemini CLI 的新扩展，通过将上下文保存为 Markdown 文件，实现结构化开发流程。适用于从零开始的项目和团队协作，确保 AI 代理遵循规范，同时保留人类控制权。核心亮点在于上下文持久化与开发流程的结构化。

Google Gemini 桌面应用命令行工具 AI代理 Markdown 上下文驱动

Gemini 3 Flash正式上线Gemini CLI，提升编码效率与成本效益

原文

官方Google Developers Blog2026/03/05 00:337860

Gemini 3 Flash在Gemini CLI中发布，具备专业编码性能、低延迟和成本优势，SWE-bench得分为76%，与Gemini 3 Pro相当。适用于高频开发任务，支持大上下文窗口和快速生成负载测试脚本，提升开发效率。

Google Gemini 桌面应用大语言模型命令行工具 SWE-bench基准测试代码生成

Gemini 3 实战：AI代理在真实场景中的应用案例

原文

官方Google Developers Blog2026/03/05 00:337840

本文展示 Gemini 3 在多个开源框架中的实际应用，涵盖深度搜索、多代理系统、浏览器自动化和企业自动化等场景。通过这些案例，开发者可快速构建 AI 代理，体现了 Gemini 3 在推动 AI 代理落地中的技术实力与生态合作。

AI代理 Google Gemini 桌面应用开源项目浏览器自动化企业自动化

可信人工智能框架落地：从赛车场景看AI代理架构实践

原文

官方Google Developers Blog2026/03/05 00:337640

谷歌在赛车场景中测试可信AI框架，结合GCP、Gemini与Antigravity技术，展示AI代理架构在复杂环境中的应用潜力。核心亮点在于强调AI的可解释性、透明度和安全性，为可信AI的实践提供参考。

代理架构可信人工智能 Google云平台 Google Gemini 桌面应用 Antigravity开发平台

Gemini CLI 扩展配置升级：更安全、更便捷的使用体验

原文

官方Google Developers Blog2026/03/05 00:334750

Gemini CLI 推出结构化扩展配置，简化用户操作并提升安全性。通过自动提示和密钥链存储，避免手动配置环境变量。新增配置管理命令，支持全局和项目级设置，优化了AI工具的使用体验。

命令行工具配置调整安全控制 API 接口 Google Gemini 桌面应用

Gemini Canvas助力Android XR团队构建交互式增强现实体验

原文

官方Google Developers Blog2026/03/05 00:336770

Gemini Canvas功能被Android XR团队用于快速构建交互式XR体验。开发者通过自然语言提示生成3D环境和模型，简化了XR开发流程，提升了创意实现效率。该技术结合AI与扩展现实，具有实际应用价值。

Google Gemini 桌面应用增强现实 Canvas 人工智能三维建模

Google Cloud推出自主网络运营新框架，实现AI驱动的电信网络智能化

原文

官方Google Cloud Blog2026/03/04 16:007840

Google Cloud与Future Connections推出‘自主网络运营框架’新升级，包含‘自主数据管理员’和‘VoLTE代理’。前者通过Gemini实现语义理解与动态ETL处理，后者专注于语音服务优化，提升网络性能与自动化水平。One NZ已实际部署，标志着AI在电信网络中的深度应用。

自主网络运营 Google Gemini 桌面应用数据治理 VoIP/语音服务 AI 自动化