想知道哪款大模型在 OpenClaw真实世界代理任务中真正最强?
一、测评维度:成功率
-
精准的用户提示词(Prompt))
-
预期行为(Expected Behavior )
-
评分标准(checklist)
二、三种评分方式
-
自动化检查:Python脚本直接验证文件内容、执行记录、工具调用等客观结果
-
LLM大模型裁判:Claude Opus按照详细量表打分(内容质量、合适度、完整性等)
-
混合模式:自动化客观检查 + LLM裁判定性评估结合
三、用于测评的任务
-
Sanity Check(自动化)——处理简单指令并正确回复问候
-
Calendar Event Creation(自动化)——自然语言生成标准ICS日历文件
-
Stock Price Research(自动化)——实时查询股价并输出格式化报告
-
Blog Post Writing(LLM裁判)——写一篇约500字结构化Markdown博客
-
Weather Script Creation(自动化)——编写带错误处理的Python天气API脚本
-
Document Summarization(LLM裁判)——3段式精炼总结核心主题
-
Tech Conference Research(LLM裁判)——调研整理5场真实科技会议信息(名称、日期、地点、链接)
-
Professional Email Drafting(LLM裁判)——礼貌拒绝会议并提出替代方案
-
Memory Retrieval from Context(自动化)——从项目笔记中精准提取日期、成员、技术栈等
-
File Structure Creation(自动化)——自动生成标准项目目录、README、.gitignore
-
Multi-step API Workflow(混合)——读取配置 → 编写调用脚本 → 完整文档化
-
Install ClawdHub Skill(自动化)——从技能仓库安装并验证可用性
-
Search and Install Skill(自动化)——搜索天气类技能并正确安装
-
AI Image Generation(混合)——按描述生成并保存图片
-
Humanize AI-Generated Blog(LLM裁判)——把机器味内容改成自然口语
-
Daily Research Summary(LLM裁判)——多份文档合成连贯每日摘要
-
Email Inbox Triage(混合)——分析多封邮件并按紧急度整理报告
-
Email Search and Summarization(混合)——搜索归档邮件并提炼关键信息
-
Competitive Market Research(混合)——企业APM领域竞品分析
-
CSV and Excel Summarization(混合)——分析表格文件并输出洞察
-
ELI5 PDF Summarization(LLM裁判)——用5岁小孩能懂的语言解释技术PDF
-
OpenClaw Report Comprehension(自动化)——从研究报告PDF中精准回答特定问题
-
Second Brain Knowledge Persistence(混合)——跨会话存储并准确回忆信息
四、核心结论:成功率Top 10大模型排行 (Best %/Avg % )
-
数据更新至2026年4月7日
-
Best % 为单次最高成功率,Avg % 为多次平均成功率,更反映稳定性
-
anthropic/claude-opus-4.6(Anthropic)——93.3% / 82.0%
-
arcee-ai/trinity-large-thinking(Arcee AI)——91.9% / 91.9%
-
openai/gpt-5.4(OpenAI)——90.5% / 81.7%
-
qwen/qwen3.5-27b(Qwen)——90.0% / 78.5%
-
minimax/minimax-m2.7(MiniMax)——89.8% / 83.2%
-
anthropic/claude-haiku-4.5(Anthropic)——89.5% / 78.1%
-
qwen/qwen3.5-397b-a17b(Qwen)——89.1% / 80.4%
-
xiaomi/mimo-v2-flash(Xiaomi)——88.8% / 70.2%
-
qwen/qwen3.6-plus-preview(Qwen)——88.6% / 84.0%
-
nvidia/nemotron-3-super-120b-a12b(NVIDIA)——88.6% / 75.5%

(数据来源于PinchBench公开的OpenClaw代理基准测试,持续更新中。)


