收集 PR 总数
424,653
1h +720 / 24h +921
有效 SWE 总数
28,801
1h +24 / 24h +216
整体处理成功率
47.5%
Valid SWE / 已处理目录 60,677
difficulty_score 均值
5.77
median 5.7,count 28,754
语言进度
| 语言 | 收集 PR | 过去 1h | 过去 24h | 有效 SWE | 过去 1h | 过去 24h | 已处理目录 | 处理成功率 |
|---|---|---|---|---|---|---|---|---|
| Cc | 28,202 | 0 | 0 | 7,734 | 0 | 0 | 10,431 | |
| C++cpp | 43,066 | 0 | 0 | 1,907 | +6 | +54 | 4,249 | |
| Gogo | 88,022 | +414 | +505 | 4,449 | +2 | +42 | 10,962 | |
| Javajava | 59,923 | +34 | +40 | 2,631 | +11 | +27 | 6,432 | |
| JavaScriptjs | 30,941 | +155 | +155 | 3,667 | +1 | +1 | 7,877 | |
| Pythonpy | 68,083 | 0 | +51 | 2,518 | 0 | 0 | 7,949 | |
| Rustrust | 50,455 | +19 | +69 | 2,504 | 0 | +35 | 5,426 | |
| TypeScriptts | 55,961 | +98 | +101 | 3,391 | +4 | +57 | 7,351 |
运行参数
| 语言 | 评估模型 (OPENAI) | 填充模型 (ANTHROPIC) | 并发数 | min_source_files | max_source_files |
|---|---|---|---|---|---|
| C | gpt-5.4 | claude-sonnet-4-6 | 16 | 2 | 15 |
| C++ | gpt-5.4 | claude-sonnet-4-6 | 16 | 2 | 15 |
| Go | gpt-5.4 | claude-sonnet-4-6 | 16 | 2 | 10 |
| Java | claude-haiku-4-5-20251001 | claude-sonnet-4-6 | 16 | 2 | 10 |
| JavaScript | glmmoedsa | glmmoedsa | 16 | 2 | 10 |
| Python | MiniMax-M2.7 | MiniMax-M2.7 | 16 | 3 | 15 |
| Rust | gpt-5.4 | claude-opus-4-6 | 16 | 2 | 10 |
| TypeScript | gpt-5.4 | claude-sonnet-4-6 | 16 | 2 | 10 |
失败原因统计
| 语言 | 已处理 | 成功 | 失败 | trivial_pr | validation | infra_error | timeout | workflow_error | 其他 |
|---|---|---|---|---|---|---|---|---|---|
| C | 39,798 | 8,220 | 31,578 | 13,809 | 2,264 | 12,730 | 680 | 1,855 | 240 |
| C++ | 23,491 | 2,095 | 21,396 | 5,055 | 580 | 14,883 | 224 | 381 | 273 |
| Go | 30,157 | 6,529 | 23,628 | 10,533 | 2,196 | 6,583 | 1,588 | 1,178 | 1,550 |
| Java | 14,757 | 2,985 | 11,772 | 4,727 | 1,591 | 3,215 | 257 | 368 | 1,614 |
| JavaScript | 16,972 | 5,114 | 11,858 | 7,386 | 1,794 | 529 | 359 | 637 | 1,153 |
| Python | 22,915 | 2,630 | 20,285 | 8,859 | 2,534 | 8,204 | 238 | 317 | 133 |
| Rust | 17,537 | 2,944 | 14,593 | 4,405 | 1,155 | 5,542 | 637 | 1,620 | 1,234 |
| TypeScript | 36,977 | 3,393 | 33,584 | 6,657 | 886 | 22,856 | 181 | 2,899 | 105 |
fix.patch 复杂度
| 语言 | Valid SWE Count | Avg fix.patch lines | Avg fix.patch hunks | Avg fix.patch files |
|---|---|---|---|---|
| C | 7,734 | 281.22 | 15.40 | 4.93 |
| C++ | 1,907 | 330.93 | 11.46 | 4.53 |
| Go | 4,449 | 271.21 | 14.93 | 4.97 |
| Java | 2,631 | 171.05 | 10.94 | 4.47 |
| JavaScript | 3,667 | 73.30 | 6.21 | 2.76 |
| Python | 2,518 | 135.78 | 9.99 | 3.44 |
| Rust | 2,504 | 257.08 | 12.86 | 4.06 |
| TypeScript | 3,391 | 159.62 | 9.09 | 4.09 |
统计方法说明
难度打分 difficulty_score
读取每个有效任务目录的 solution/fix.patch、tests/ 和 instruction.md,由 src/swegen/scoring.py 使用零 API 静态评分。
当前公式采用 log-scale 连续评分,避免中等规模 patch 过早变成 hard。权重为:patch_scope 38%、logic_complexity 32%、context_breadth 15%、test_complexity 10%、instruction_complexity 5%。
label 阈值:easy <= 4.0,medium <= 7.0,hard > 7.0。
Tags 生成与展示
tags 不是看板现场计算的,而是在 swegen 构建任务时由 LLM 根据 PR 信息生成,并写入 task.toml 的 [metadata].tags。
prompt 要求 tags 按三段式生成:编程语言、项目层级/领域、框架/库名或具体主题。看板只读取已有 task.toml 并统计每个语言的 tag 出现次数和占比。
fix.patch 统计
patch 统计来自每个有效任务的 solution/fix.patch,并按语言扩展名过滤代码文件,口径与 upload_march_swe_to_hf.py 的 code-only 统计保持一致。
Avg fix.patch lines 统计代码文件 diff 中新增/删除行数;Avg fix.patch hunks 统计 @@ hunk 数;Avg fix.patch files 统计涉及的代码文件数。
difficulty_label 分布
| 语言 | easy / medium / hard | easy | medium | hard |
|---|---|---|---|---|
| C | 735 / 5189 / 1802 | 735 | 5,189 | 1,802 |
| C++ | 321 / 1190 / 392 | 321 | 1,190 | 392 |
| Go | 370 / 3278 / 795 | 370 | 3,278 | 795 |
| Java | 349 / 1673 / 606 | 349 | 1,673 | 606 |
| JavaScript | 593 / 2725 / 348 | 593 | 2,725 | 348 |
| Python | 211 / 1724 / 560 | 211 | 1,724 | 560 |
| Rust | 260 / 1465 / 777 | 260 | 1,465 | 777 |
| TypeScript | 346 / 2570 / 475 | 346 | 2,570 | 475 |
difficulty_score 概览
| 语言 | count | min | p25 | median | mean | p75 | max |
|---|---|---|---|---|---|---|---|
| C | 7,726 | 2.4 | 4.9 | 5.9 | 5.91 | 7.0 | 9.2 |
| C++ | 1,903 | 2.5 | 4.4 | 5.6 | 5.63 | 6.8 | 9.0 |
| Go | 4,443 | 2.6 | 4.9 | 5.8 | 5.81 | 6.7 | 9.1 |
| Java | 2,628 | 2.8 | 4.7 | 5.9 | 5.81 | 6.9 | 9.2 |
| JavaScript | 3,666 | 2.6 | 4.4 | 5.2 | 5.28 | 6.1 | 9.2 |
| Python | 2,495 | 2.6 | 4.9 | 5.8 | 5.90 | 6.9 | 8.9 |
| Rust | 2,502 | 2.7 | 4.9 | 6.2 | 6.11 | 7.4 | 9.0 |
| TypeScript | 3,391 | 2.7 | 4.6 | 5.5 | 5.58 | 6.5 | 8.9 |
全局 Top Tags
library13,005 (45.2%)
backend8,866 (30.8%)
cli4,019 (14.0%)
frontend1,704 (5.9%)
testing1,239 (4.3%)
react917 (3.2%)
http906 (3.1%)
framework778 (2.7%)
embedded567 (2.0%)
cpp396 (1.4%)
networking360 (1.3%)
async328 (1.1%)
kubernetes260 (0.9%)
graphql231 (0.8%)
postgresql226 (0.8%)
eslint217 (0.8%)
parsing207 (0.7%)
aws182 (0.6%)
angular174 (0.6%)
kernel173 (0.6%)
compiler172 (0.6%)
firmware170 (0.6%)
quic166 (0.6%)
git165 (0.6%)
json162 (0.6%)
redis154 (0.5%)
aem147 (0.5%)
security142 (0.5%)
rust141 (0.5%)
tls138 (0.5%)