qwen3.6 勝
完成率 4/5 vs 2/5 · 品質優勢在推理與指令遵從
gemma4-heretic Q8
Basegoogle/gemma-4-12B-it
Parameters12B dense
QuantQ8_0 (13 GB)
Context128K
ModHeretic decensor
KL div0.0284
qwen3.6 35B-A3B
BaseQwen/Qwen3-35B-A3B
Parameters35B MoE (3B active)
QuantDefault (23 GB)
Context128K
ModNone (stock)
RoleCouncil Primary Brain
5-Dimension Test Matrix
| Dimension | Gemma4 | Qwen3.6 | Winner |
| Q1 中文理解+摘要 |
✓ ~100s |
✓ ~180s |
平手 |
| Q2 程式碼生成 |
✓ ~300s |
✓ ~250s |
qwen |
| Q3 邏輯推理 |
✗ timeout |
✓ ~400s |
qwen |
| Q4 商業建議 |
✗ timeout |
△ ~590s 截尾 |
qwen |
| Q5 JSON 格式遵從 |
✗ timeout |
✗ timeout |
都失敗 |
Key Findings
Gemma4 致命傷:Thinking 不收斂
Gemma4 的 thinking mode 是模型層行為,無法透過 Modelfile template 關閉。複雜題(Q3 邏輯推理)600 秒只產出 8 行 thinking、0 行答案。Q2 程式碼題 thinking 佔 315 行,答案僅 30 行。在 DGX Spark 上,12B dense 模型的 thinking 吞吐量不足以支撐複雜推理。
Qwen3.6 MoE 優勢:3B active 夠快
35B 總參數但只有 3B active parameters,推理速度反而比 12B dense 的 Gemma4 快。4/5 題在 600s 內完成,Q3 邏輯推理正確算出 64.69% 覆蓋率(實際值 64.7%),Q4 商業建議給出 91APP 實戰級 MA 腳本。
品質持平的維度:中文能力
Q1 摘要兩者都準確完成 3 句話任務,中文流暢度相當。Gemma4 thinking 33 行 vs Qwen3.6 63 行,但最終輸出品質幾乎無差。中文不是 Gemma4 的弱項。
指令遵從:Qwen 更嚴格
Q2 要求「只給 code 不要解釋」— Qwen3.6 輸出純 20 行 Python;Gemma4 在 code 裡加了行內註解,技術上違反指令。小事,但反映 instruction following 精度差異。
Output Samples (Q1 中文摘要)
Gemma4 3 句摘要 · ~100s
1. 顧問發現 6 萬名流失客在過去 12 個月的 R12 消費金額幾乎為零,最初懷疑數據出現錯誤。
2. 工程師澄清這是由於流失客的定義即為「逾 365 天未消費」,導致其在 R12 滾動窗口內自然無訂單。
3. 顧問現在需要決定是否在報表中加入特別標註,以避免其他同事誤將此現象視為系統 Bug。
Qwen3.6 3 句摘要 · ~180s
顧問檢視電商流失客分群時,發現過去一年累積的六萬名客戶在R12滾動窗口內消費金額幾乎為零,最初懷疑是數據異常。經工程師說明後釐清,此為業務定義邏輯所致:流失客的最後消費已超過365天,自然在過去12個月內不會產生訂單。為避免團隊誤解為系統或資料錯誤,顧問正評估是否需在報表中特別標註此機制,以確保數據解讀的準確性。
Output Samples (Q3 邏輯推理 · Qwen3.6 only)
Qwen3.6 覆蓋率計算 · ~400s · 正確
設 A=主力客 3,940 / B=回購客 47,869 / C=一次客 9,461 / D=流失客 213,842
已知:A ⊂ B(主力客 100% 被回購客包含)
|C ∩ D| = 9,461 × 46.4% = 4,390
|A ∪ B ∪ C ∪ D| = |B| + |C| + |D| - |C ∩ D|
= 47,869 + 9,461 + 213,842 - 4,390
= 266,782
覆蓋率 = 266,782 / 412,423 ≈ 64.69%
(附註:題目說 5 群但只給 4 群數據,若第 5 群有人數則覆蓋率更高)
Conclusion
qwen3.6 繼續作為 Primary Local Brain。MoE 架構(35B/3B active)在 DGX Spark 上的實際推理速度優於 12B dense,且指令遵從、邏輯推理、商業場景表現均更好。
gemma4-heretic 定位為特殊用途備機:需要解封(decensor)的場景——敏感 prompt 測試、紅隊演練、不受安全拒答限制的批次任務。日常 Council 投票不適合,thinking 開銷在 DGX 上跑不動複雜題。
測試方法:5 題中文 prompt 透過 ssh dgx-ts | ollama run 平行送兩模型,timeout 600s,thinking mode 未關(Gemma4 無法關閉)。每題獨立計時,超時記為失敗。