OpenAI 发布开源 Agents SDK,解耦代理与计算资源并支持文件、技能、内存等功能,促进第三方平台集成。Google、DeepMind、Anthropic、NVIDIA 等同步推出 Gemini 桌面应用、Gemini 3.1 Flash TTS、Claude Opus 4.7 及 Lyra 2.0 等新模型,提升智能助理和语音合成能力。社区在 …
专题:gemini
按该标签聚合的大模型资讯列表(自动分类与标签提取)。共 54 篇文章。
本文通过灰盒分析、二进制审计和行为追踪,逆向揭示了Gemini模型的SynthID检测机制。核心在于多层特征嵌入与概率阈值判别,实现真实与合成ID的高精度区分。文中提供代码示例、阈值调优方法及实验评估,阐明其在LLM安全与隐私保护中的价值,并为安全研发指明方向。
LLM-Gemini 0.30版本推出三款新模型,涵盖Gemini和Gemma系列。gemini-3.1-flash-lite-preview主打轻量化推理,gemma-4-26b-a4b-it与gemma-4-31b-it提供不同参数规模的高性能选项,扩展了模型应用场景,开发者可通过官方文档获取详细技术信息。
2026年苹果WWDC将重点展示Siri的全面升级与AI战略进展。Siri将采用对话形式,支持历史会话和个性化推荐,由Apple Foundation Models和Google Gemini驱动。iOS 27优化系统稳定性与性能,同时支持折叠iPhone。苹果还推出智能家居产品,集成AI功能,强化隐私保护。
苹果即将推出独立Siri应用Campo,整合AI问答与本地搜索,取代Spotlight。Siri将升级为用户主动使用的工具,并引入Google的Gemini模型提升性能。苹果计划将Siri作为未来硬件的核心操作系统,推动产品智能化。该升级体现了苹果在AI领域的战略布局与技术整合能力。
Gemini Embedding 2新增原生视频嵌入功能,无需转录即可实现视频与文本的向量匹配。作者开发了CLI工具,用于视频索引和自然语言搜索,支持自动裁剪匹配片段。该技术适用于监控、哨兵模式等场景,索引成本较低,具有实际应用价值。
Google、Mistral、Cohere 与 OpenAI 本周相继发布新模型:Google 的 Gemini 3.1 Flash Live 提供 70 语言、128k 上下文的实时语音视觉代理;Mistral 的开源 Voxtral TTS 支持 9 语言、低延迟,性能媲美 ElevenLabs;Cohere 的 Transcribe 在 14 语言上…
Joonote是一款基于Gemini AI的锁屏与通知栏笔记应用,解决了用户在锁屏状态下查看和记录笔记的痛点。其核心亮点包括私密模式、待办事项管理、语音输入、标签分类、自动备份等功能,结合AI辅助开发,为开发者提供了实际案例参考。
谷歌将个人智能功能扩展至搜索、Gemini应用和Chrome浏览器,提升个性化体验。AI Mode在多个产品中应用,增强用户交互精准度。核心亮点在于AI技术的多场景落地与用户定制化服务。
谷歌地图推出Ask Maps和沉浸式导航功能,由Gemini模型驱动。Ask Maps通过对话解决复杂出行需求,沉浸式导航提供更逼真的3D视图和道路细节。这两项功能是谷歌地图十多年来的重大升级,显著提升用户体验,对垂直应用构成挑战。
谷歌推出首款基于Gemini架构的Embedding模型,支持交错输入,提升多模态处理能力。该模型在复杂任务中表现灵活高效,可能影响传统AI开发架构,引发开发者社区高度关注。
谷歌推出Gemini Embedding 2,首次将文本、图像、视频、音频和文档统一映射到同一语义空间,实现跨模态语义对齐。该模型支持多模态混合输入,提升AI Agent理解屏幕和环境的能力,技术上采用MRL方法,可动态调整向量维度,适用于RAG、语义搜索、情感分析等场景。
Google Sheets集成Gemini模型的新测试版功能,支持用户通过自然语言描述快速创建、整理和编辑工作表。该功能适用于基础任务和复杂数据分析,提升了办公效率。核心亮点包括自然语言交互、自动化处理和智能辅助功能。
Conductor 是 Gemini CLI 的新扩展,通过将上下文保存为 Markdown 文件,实现结构化开发流程。适用于从零开始的项目和团队协作,确保 AI 代理遵循规范,同时保留人类控制权。核心亮点在于上下文持久化与开发流程的结构化。
Gemini 3 Flash在Gemini CLI中发布,具备专业编码性能、低延迟和成本优势,SWE-bench得分为76%,与Gemini 3 Pro相当。适用于高频开发任务,支持大上下文窗口和快速生成负载测试脚本,提升开发效率。
本文展示 Gemini 3 在多个开源框架中的实际应用,涵盖深度搜索、多代理系统、浏览器自动化和企业自动化等场景。通过这些案例,开发者可快速构建 AI 代理,体现了 Gemini 3 在推动 AI 代理落地中的技术实力与生态合作。
谷歌在赛车场景中测试可信AI框架,结合GCP、Gemini与Antigravity技术,展示AI代理架构在复杂环境中的应用潜力。核心亮点在于强调AI的可解释性、透明度和安全性,为可信AI的实践提供参考。
Gemini CLI 推出结构化扩展配置,简化用户操作并提升安全性。通过自动提示和密钥链存储,避免手动配置环境变量。新增配置管理命令,支持全局和项目级设置,优化了AI工具的使用体验。
Gemini Canvas功能被Android XR团队用于快速构建交互式XR体验。开发者通过自然语言提示生成3D环境和模型,简化了XR开发流程,提升了创意实现效率。该技术结合AI与扩展现实,具有实际应用价值。
Google Cloud与Future Connections推出‘自主网络运营框架’新升级,包含‘自主数据管理员’和‘VoLTE代理’。前者通过Gemini实现语义理解与动态ETL处理,后者专注于语音服务优化,提升网络性能与自动化水平。One NZ已实际部署,标志着AI在电信网络中的深度应用。