专题:gemini

按该标签聚合的大模型资讯列表(自动分类与标签提取)。54 篇文章。

媒体AINews2026/04/15 13:445700
OpenAI Agents SDK 开源并支持多种资源管理功能
Google、Anthropic、NVIDIA 等发布新模型与应用

OpenAI 发布开源 Agents SDK,解耦代理与计算资源并支持文件、技能、内存等功能,促进第三方平台集成。Google、DeepMind、Anthropic、NVIDIA 等同步推出 Gemini 桌面应用、Gemini 3.1 Flash TTS、Claude Opus 4.7 及 Lyra 2.0 等新模型,提升智能助理和语音合成能力。社区在 …

社区Hacker News2026/04/10 04:103820
逆向定位SynthID检测子模块
多层特征+阈值实现高精度区分

本文通过灰盒分析、二进制审计和行为追踪,逆向揭示了Gemini模型的SynthID检测机制。核心在于多层特征嵌入与概率阈值判别,实现真实与合成ID的高精度区分。文中提供代码示例、阈值调优方法及实验评估,阐明其在LLM安全与隐私保护中的价值,并为安全研发指明方向。

官方Simon Willison2026/04/03 02:255540
LLM-Gemini 0.30版本发布
新增Gemini 3.1与Gemma 4系列模型

LLM-Gemini 0.30版本推出三款新模型,涵盖Gemini和Gemma系列。gemini-3.1-flash-lite-preview主打轻量化推理,gemma-4-26b-a4b-it与gemma-4-31b-it提供不同参数规模的高性能选项,扩展了模型应用场景,开发者可通过官方文档获取详细技术信息。

媒体爱范儿2026/03/25 11:128750
Siri升级为智能对话助手
iOS 27优化系统稳定性

2026年苹果WWDC将重点展示Siri的全面升级与AI战略进展。Siri将采用对话形式,支持历史会话和个性化推荐,由Apple Foundation Models和Google Gemini驱动。iOS 27优化系统稳定性与性能,同时支持折叠iPhone。苹果还推出智能家居产品,集成AI功能,强化隐私保护。

媒体爱范儿2026/03/25 10:467630
苹果推出独立Siri应用Campo
Siri整合AI问答与本地搜索

苹果即将推出独立Siri应用Campo,整合AI问答与本地搜索,取代Spotlight。Siri将升级为用户主动使用的工具,并引入Google的Gemini模型提升性能。苹果计划将Siri作为未来硬件的核心操作系统,推动产品智能化。该升级体现了苹果在AI领域的战略布局与技术整合能力。

社区Hacker News2026/03/24 22:586880
Gemini Embedding 2支持原生视频嵌入
CLI工具实现视频索引与自然语言搜索

Gemini Embedding 2新增原生视频嵌入功能,无需转录即可实现视频与文本的向量匹配。作者开发了CLI工具,用于视频索引和自然语言搜索,支持自动裁剪匹配片段。该技术适用于监控、哨兵模式等场景,索引成本较低,具有实际应用价值。

媒体AINews2026/03/24 13:445750
Google 发布 Gemini 3.1 Flash Live,128k 上下文、70 语言
Mistral 推 Voxtral TTS,开源低延迟,支持 9 语言

Google、Mistral、Cohere 与 OpenAI 本周相继发布新模型:Google 的 Gemini 3.1 Flash Live 提供 70 语言、128k 上下文的实时语音视觉代理;Mistral 的开源 Voxtral TTS 支持 9 语言、低延迟,性能媲美 ElevenLabs;Cohere 的 Transcribe 在 14 语言上…

社区Hacker News2026/03/21 23:026730
基于Gemini AI开发锁屏笔记应用
实现多平台笔记管理功能

Joonote是一款基于Gemini AI的锁屏与通知栏笔记应用,解决了用户在锁屏状态下查看和记录笔记的痛点。其核心亮点包括私密模式、待办事项管理、语音输入、标签分类、自动备份等功能,结合AI辅助开发,为开发者提供了实际案例参考。

媒体量子位2026/03/14 18:488740
Gemini驱动Ask Maps功能
沉浸式导航增强3D体验

谷歌地图推出Ask Maps和沉浸式导航功能,由Gemini模型驱动。Ask Maps通过对话解决复杂出行需求,沉浸式导航提供更逼真的3D视图和道路细节。这两项功能是谷歌地图十多年来的重大升级,显著提升用户体验,对垂直应用构成挑战。

媒体InfoQ 中文2026/03/12 17:498730
谷歌发布Gemini架构Embedding模型
支持交错输入处理多模态数据

谷歌推出首款基于Gemini架构的Embedding模型,支持交错输入,提升多模态处理能力。该模型在复杂任务中表现灵活高效,可能影响传统AI开发架构,引发开发者社区高度关注。

媒体量子位2026/03/11 17:308930
多模态数据统一嵌入空间
支持图像、视频、音频等混合输入

谷歌推出Gemini Embedding 2,首次将文本、图像、视频、音频和文档统一映射到同一语义空间,实现跨模态语义对齐。该模型支持多模态混合输入,提升AI Agent理解屏幕和环境的能力,技术上采用MRL方法,可动态调整向量维度,适用于RAG、语义搜索、情感分析等场景。

官方Google AI Blog2026/03/10 21:007660
Gemini模型集成至Google Sheets
支持自然语言描述操作数据

Google Sheets集成Gemini模型的新测试版功能,支持用户通过自然语言描述快速创建、整理和编辑工作表。该功能适用于基础任务和复杂数据分析,提升了办公效率。核心亮点包括自然语言交互、自动化处理和智能辅助功能。

官方Google Cloud Blog2026/03/04 16:007840

Google Cloud与Future Connections推出‘自主网络运营框架’新升级,包含‘自主数据管理员’和‘VoLTE代理’。前者通过Gemini实现语义理解与动态ETL处理,后者专注于语音服务优化,提升网络性能与自动化水平。One NZ已实际部署,标志着AI在电信网络中的深度应用。