专题：computer-vision

本文详细介绍了如何利用AWS Cloud Development Kit (CDK) 构建一个智能照片搜索系统。该系统巧妙融合了Amazon Rekognition进行人脸与物体检测、Amazon Neptune图数据库管理复杂关系，以及Amazon Bedrock（搭载Claude 3.5 Sonnet）生成AI驱动的上下文描述。通过无服务器架构，系统实…

人工智能计算机视觉图数据库大型语言模型服务器less

native-devtools-mcp v0.4.3：跨平台 UI 自动化与 LLM 集成新里程碑

原文

社区Reddit r/LocalLLaMA2026/02/23 22:154860

桌面 UI 控制服务器 `native-devtools-mcp` 发布 v0.4.3 版本，大幅增强了跨平台自动化能力。新版本新增了对 Android 设备的全面自动化支持（通过 ADB），并引入了基于 SIMD 加速的图像模板匹配技术，可实现高效的视觉元素查找。同时，工具在 macOS 和 Windows 上增强了可访问性搜索功能，并增加了多项安全措施…

界面自动化 Android 自动化大语言模型集成计算机视觉开发工具

提升 Qwen-3-VL 目标检测精度：开源模型与技术探讨

原文

社区Reddit r/LocalLLaMA2026/02/11 19:3280

本文聚焦于提升 AI 模型在目标检测任务中的边界框（Bounding Box）精度问题。用户在使用 Qwen-3-VL 模型时发现其精度表现不如 Gemini 3，因此寻求更优的开源模型或技术方法。文章旨在收集社区关于提高边界框检测精度的建议和经验，特别是针对真实世界图像的应用场景。这对于需要精确目标定位的计算机视觉开发者和研究人员具有参考价值。

对象检测边界框 Qwen-3-VL 计算机视觉开源人工智能

开源项目：为本地 LLM 注入视觉能力，集成 Google Lens 与 OpenCV

原文

社区Hacker News2026/02/11 13:4050

该开源项目（noapi-google-search-mcp）为本地大型语言模型（LLM）赋予了强大的视觉识别能力。通过集成 Google Lens 和 OpenCV，项目能够让纯文本模型识别图像中的物体，并进行准确的描述。此外，它还整合了 Google 的多项搜索服务，如搜索、新闻、地图等，提供了一个无需 API 密钥的综合性工具集。该项目极大地扩展了本地…

大型语言模型计算机视觉 Google Lens OpenCV RAG技术