以研究為基礎的路由引擎,每個請求 1 毫秒內 完成複雜度分類, 自動送到真的合適的模型 — 而不是最貴的那一個。 輸出品質一樣、SLA 一樣。單 token 最高省 97%、實際帳單依工作流省 30–75%。
CASCA_BYPASS=true → 5 秒內直連你的 provider
Casca 把每個請求分類後,自動送到最划算的模型。
四個系統協同:分類複雜度、保護品質、快取答案、自動學習。
每個 prompt 在 1 毫秒內分類為 HIGH / MED / LOW。簡單查詢走 Gemini Flash(單 token 最多便宜 97%),需要思考的留給 GPT-4o 或 Claude Sonnet。不用人工維規則 — production 引擎原生支援 14 種語言,遇到模糊的案例還有 L2 MiniLM 接手。
160 條規則 · 14 種語言 · L1+L2 雙層法律、合規、醫療這類請求一律強制走 GPT-4o / Claude Sonnet — 沒有例外。連續 3 天品質低於你設的門檻,當月費用全額退還。寫在合約裡,不是嘴上說說。
強制 HIGH · 一鍵 ROLLBACK · 寫進合約「什麼是 API?」一天可能被問 200 次。同樣的問題、同樣的答案、零成本。我們的全域快取池用語意比對 — 錯字、改寫、跨語言版本全部命中,全部 $0。
模糊比對 · 編輯距離 < 5 · 全域池曖昧的 prompt(「幫我搞定這個」、「修一下」)會進入 AMBIG queue 等人工標註。每一筆標註都會餵回引擎。版本完全公開 — v1.2(26 條規則、已發表論文)→ v2.6.2(160 條規則、現役 production)。省費比例每月複利成長。
AMBIG 佇列 · v2.6.2 PRODUCTION · 複利成長100% 相容 OpenAI SDK。沒有 logic 要改、沒有 prompt 要重寫、不用排工程衝刺週。換掉 base URL,全部都動。
我們把 8 個代表性的工作流跑進 Casca v2.6.2 引擎,下面這張表就是真實跑出來的數字 — 包含省得不多的產業。我們敢公開省得少的 — 因為誠實比包裝有效。
客觀比較,不打官腔。Casca 是路由引擎,不是聚合器、不是觀測工具 — 而且我們敢公開研究論文。
| 功能 | OpenRouter | Helicone | Portkey | Casca |
|---|---|---|---|---|
| 依複雜度自動路由 | — | — | 手動規則 | ✓ 原生 |
| 品質 SLA 含月費退還 | — | — | — | ✓ 寫進合約 |
| 公開技術論文 + DOI | — | — | — | ✓ Zenodo |
| 分產業省費 benchmark | — | — | — | ✓ 8 個產業 |
| 從真實流量自動學習 | — | — | — | ✓ 飛輪機制 |
| 14 種語言原生分類 | 僅英文路由 | N/A | 有限 | ✓ 內建 |
| 跨客戶語意快取 | — | — | ✓ | ✓ 含隔離模式 |
| 相容 OpenAI SDK(直接套用) | ✓ | ✓ | ✓ | ✓ 一行 |
| Bypass 開關(5 秒 rollback) | — | — | 需改設定檔 | ✓ 環境變數 |
Self-serve 方案給你穩定可預測的價格;不然就選成果型方案 — 我們幫你省到的錢比訂閱費多,你才付。
一次整合,所有主流 LLM provider — 加上每一家有實力的二線玩家。新模型上線當天就能用。OpenAI 改價?一鍵切換。新 provider 在成本/品質上勝過 GPT-4o?你立刻拿到好處。給不想被單一供應商綁死的團隊。
適合月燒 $300K+ 的團隊。成果計費 12–15%(量越大越低)。Provider Pool 預設啟用。客製 SLA、專屬客戶支援、可私有化部署、我們替你跟 provider 談 rate card。
最好的 SaaS 承諾不是把客戶綁死 — 而是把「隨時可離開」做到無摩擦,客戶會因為想留而留。下面是我們的承諾,白話講。
啟用 60 天後,如果實際帳單沒省到 30%,我們把你訂閱費全退。不問理由、不討論。每個帳號限用一次。
從 dashboard 一鍵取消。Self-Serve 方案沒有年約綁定,不用打電話找業務。當期費用照算到月底,不退未使用部分。如果出狀況,CASCA_BYPASS=true 5 秒內把流量導回你的 provider。
想休息一下?暫停 1–3 個月。期間零訂閱費,路由引擎停用(流量自動 bypass 到你的 provider)。所有設定、API key、dashboard 資料完整保留。90 天內回來,不另收費、零懲罰。
客觀指標、自動退費 — 不用申訴、沒有主觀爭議:
· 7 日滾動窗口內路由準確率 < 90%
· Bypass 切換延遲 > 5 秒
· p99 延遲連續 3 天 > 你 provider 基準的 1.5 倍