Gemma4-Heretic vs Qwen3.6 — DGX Spark Benchmark

qwen3.6 勝完成率 4/5 vs 2/5 · 品質優勢在推理與指令遵從

gemma4-heretic Q8

Basegoogle/gemma-4-12B-it

Parameters12B dense

QuantQ8_0 (13 GB)

Context128K

ModHeretic decensor

KL div0.0284

qwen3.6 35B-A3B

BaseQwen/Qwen3-35B-A3B

Parameters35B MoE (3B active)

QuantDefault (23 GB)

Context128K

ModNone (stock)

RoleCouncil Primary Brain

5-Dimension Test Matrix

Dimension	Gemma4	Qwen3.6	Winner
Q1 中文理解＋摘要	✓ ~100s	✓ ~180s	平手
Q2 程式碼生成	✓ ~300s	✓ ~250s	qwen
Q3 邏輯推理	✗ timeout	✓ ~400s	qwen
Q4 商業建議	✗ timeout	△ ~590s 截尾	qwen
Q5 JSON 格式遵從	✗ timeout	✗ timeout	都失敗

Key Findings

Gemma4 致命傷：Thinking 不收斂

Gemma4 的 thinking mode 是模型層行為，無法透過 Modelfile template 關閉。複雜題（Q3 邏輯推理）600 秒只產出 8 行 thinking、0 行答案。Q2 程式碼題 thinking 佔 315 行，答案僅 30 行。在 DGX Spark 上，12B dense 模型的 thinking 吞吐量不足以支撐複雜推理。

Qwen3.6 MoE 優勢：3B active 夠快

35B 總參數但只有 3B active parameters，推理速度反而比 12B dense 的 Gemma4 快。4/5 題在 600s 內完成，Q3 邏輯推理正確算出 64.69% 覆蓋率（實際值 64.7%），Q4 商業建議給出 91APP 實戰級 MA 腳本。

品質持平的維度：中文能力

Q1 摘要兩者都準確完成 3 句話任務，中文流暢度相當。Gemma4 thinking 33 行 vs Qwen3.6 63 行，但最終輸出品質幾乎無差。中文不是 Gemma4 的弱項。

指令遵從：Qwen 更嚴格

Q2 要求「只給 code 不要解釋」— Qwen3.6 輸出純 20 行 Python；Gemma4 在 code 裡加了行內註解，技術上違反指令。小事，但反映 instruction following 精度差異。

Output Samples (Q1 中文摘要)

Gemma4 3 句摘要 · ~100s

1. 顧問發現 6 萬名流失客在過去 12 個月的 R12 消費金額幾乎為零，最初懷疑數據出現錯誤。 2. 工程師澄清這是由於流失客的定義即為「逾 365 天未消費」，導致其在 R12 滾動窗口內自然無訂單。 3. 顧問現在需要決定是否在報表中加入特別標註，以避免其他同事誤將此現象視為系統 Bug。

Qwen3.6 3 句摘要 · ~180s

顧問檢視電商流失客分群時，發現過去一年累積的六萬名客戶在R12滾動窗口內消費金額幾乎為零，最初懷疑是數據異常。經工程師說明後釐清，此為業務定義邏輯所致：流失客的最後消費已超過365天，自然在過去12個月內不會產生訂單。為避免團隊誤解為系統或資料錯誤，顧問正評估是否需在報表中特別標註此機制，以確保數據解讀的準確性。

Output Samples (Q3 邏輯推理 · Qwen3.6 only)

Qwen3.6 覆蓋率計算 · ~400s · 正確

設 A=主力客 3,940 / B=回購客 47,869 / C=一次客 9,461 / D=流失客 213,842 已知：A ⊂ B（主力客 100% 被回購客包含） |C ∩ D| = 9,461 × 46.4% = 4,390 |A ∪ B ∪ C ∪ D| = |B| + |C| + |D| - |C ∩ D| = 47,869 + 9,461 + 213,842 - 4,390 = 266,782 覆蓋率 = 266,782 / 412,423 ≈ 64.69% （附註：題目說 5 群但只給 4 群數據，若第 5 群有人數則覆蓋率更高）

Conclusion

qwen3.6 繼續作為 Primary Local Brain。MoE 架構（35B/3B active）在 DGX Spark 上的實際推理速度優於 12B dense，且指令遵從、邏輯推理、商業場景表現均更好。

gemma4-heretic 定位為特殊用途備機：需要解封（decensor）的場景——敏感 prompt 測試、紅隊演練、不受安全拒答限制的批次任務。日常 Council 投票不適合，thinking 開銷在 DGX 上跑不動複雜題。

測試方法：5 題中文 prompt 透過 ssh dgx-ts | ollama run 平行送兩模型，timeout 600s，thinking mode 未關（Gemma4 無法關閉）。每題獨立計時，超時記為失敗。

gemma4-heretic 12B vs qwen3.6 35B-A3B

5-Dimension Test Matrix

Key Findings

Output Samples (Q1 中文摘要)

Output Samples (Q3 邏輯推理 · Qwen3.6 only)

Conclusion