开源LLM评判工具:系统化评估本地大模型性能与推理过程原文社区Reddit r/LocalLLaMA2026/02/15 16:472850该开源工具利用“LLM作为评判者”机制,旨在系统化评估本地大语言模型(如LLaMA-3、Qwen-Coder)在RAG和代码任务中的性能。它提供多模型对比、LLM智能评分、推理过程记录及结果导出等功能,可用于代码模型评估、回归测试和生成微调偏好数据。作者强调提示词敏感性和中间步骤记录的重要性,并呼吁社区分享可复用评估工具的经验。LLM作为评估者模型评估本地化大语言模型RAG技术开源工具