GitHub 公开了 Copilot 如何收集、脱敏并利用用户代码交互数据训练其后续大语言模型的完整流程。文章说明了数据范围、隐私保护措施、训练方法以及质量评估手段,并提供了用户数据管理入口,帮助开发者了解其代码如何被用于模型迭代。
专题:data-privacy
按该标签聚合的大模型资讯列表(自动分类与标签提取)。共 9 篇文章。
联想推出天禧AI,通过系统级智能体解决个人AI部署与使用难题,具备自主执行、数据安全和跨设备个性化能力,目标成为用户‘专属超能搭档’,并计划在5月发布4.0版本。
Google推出Gemma 4系列开源小模型,支持手机等设备本地运行。通过Apache 2.0许可证实现完全开源,配套专利保护机制。该模型突破数据中心依赖,满足医疗、金融等行业数据安全需求,引入多步推理与Agent模式等核心技术,推动AI技术在边缘设备的广泛应用。
GitHub更新Copilot数据使用政策,用户交互数据将用于模型训练,以提升代码建议的准确性与安全性。核心亮点包括数据来源透明、用户可选择退出、数据共享范围明确。
本文展示如何通过Hacker News评论数据,利用LLM生成用户画像。分析涵盖职业身份、技术兴趣、安全意识、性格特征等,揭示了AI在用户行为分析中的潜力,同时也引发对隐私和数据安全的思考。
本文探讨‘同意剧场’现象,即用户界面设计中看似提供选择实则操纵用户同意的策略。分析了视觉偏见、同意疲劳、默认勾选等常见手法,并指出其对用户自主权的侵犯。文章结合心理学理论与现实案例,强调伦理设计的重要性,呼吁设计师正视用户心理与权利。
soul-schema 是一款利用本地LLM自动生成数据库语义描述的工具,强调数据隐私与本地化处理。它仅读取元数据,不接触行级数据,支持多种模型,输出格式灵活,适用于数据建模和AI训练场景。
本文精选了2026年3月4日Hacker News的多篇热门文章,涵盖AI伦理、技术应用、行业动态及开源项目发展。重点包括Meta AI眼镜的数据隐私问题、Apple M5芯片的AI性能提升、AI在新闻中的误用、开源项目SEO挑战及AI在科研中的突破。内容涉及技术实现、社会影响与行业趋势,具有较高的参考价值。
针对AI模型训练中普遍存在的“先抓取后道歉”的数据爬取乱象,作者提出疑问:是否存在一种更优的训练方式,能在不损害数据所有者控制权的前提下进行模型训练或微调?文中提及联邦学习和安全环境训练等潜在方案,但对其应用现状表示不确定,并对当前大规模数据抓取模式表示不满。