為每月 LLM 開銷 $10K–$200K 的團隊打造

把 LLM 帳單砍掉 30–75%。
一行 code 上線。
數字來自已發表的研究論文。

以研究為基礎的路由引擎，每個請求 1 毫秒內 完成複雜度分類，自動送到真的合適的模型 — 而不是最貴的那一個。輸出品質一樣、SLA 一樣。單 token 最高省 97%、實際帳單依工作流省 30–75%。

⭐ GitHub jewanchen/casca 📄 已發表 Zenodo · DOI 🛡️ SLA 省不到 30% 全額退費 🌐 原生支援 14 種語言

整合方式 base_url = "https://api.cascaio.com/v1"

緊急脫離：CASCA_BYPASS=true → 5 秒內直連你的 provider

✓ 30 分鐘內上線

✓ Prompt 絕不儲存、絕不拿來訓練

✓ 出狀況？一個指令脫離

核心技術

為了把成本省到底
而設計的引擎

四個系統協同：分類複雜度、保護品質、快取答案、自動學習。

◈

依複雜度路由

每個 prompt 在 1 毫秒內分類為 HIGH / MED / LOW。簡單查詢走 Gemini Flash（單 token 最多便宜 97%），需要思考的留給 GPT-4o 或 Claude Sonnet。不用人工維規則 — production 引擎原生支援 14 種語言，遇到模糊的案例還有 L2 MiniLM 接手。

160 條規則 · 14 種語言 · L1+L2 雙層

⛊

SLA 品質保護

法律、合規、醫療這類請求一律強制走 GPT-4o / Claude Sonnet — 沒有例外。連續 3 天品質低於你設的門檻，當月費用全額退還。寫在合約裡，不是嘴上說說。

強制 HIGH · 一鍵 ROLLBACK · 寫進合約

⟁

語意快取

「什麼是 API？」一天可能被問 200 次。同樣的問題、同樣的答案、零成本。我們的全域快取池用語意比對 — 錯字、改寫、跨語言版本全部命中，全部 $0。

模糊比對 · 編輯距離 < 5 · 全域池

↻

自我學習飛輪

曖昧的 prompt（「幫我搞定這個」、「修一下」）會進入 AMBIG queue 等人工標註。每一筆標註都會餵回引擎。版本完全公開 — v1.2（26 條規則、已發表論文）→ v2.6.2（160 條規則、現役 production）。省費比例每月複利成長。

AMBIG 佇列 · v2.6.2 PRODUCTION · 複利成長

數據攤開

市面上「省 60%」的口號多半是吹的。
真相是 — 看你做哪一行。

我們把 8 個代表性的工作流跑進 Casca v2.6.2 引擎，下面這張表就是真實跑出來的數字 — 包含省得不多的產業。我們敢公開省得少的 — 因為誠實比包裝有效。

產業

帳單下降

為什麼是這個級距

金融科技客服

65–75%

幾乎全是餘額、交易紀錄、KYC 這類查詢 — LOW 比例非常高

電商客服

60–72%

訂單狀態、退換貨、尺寸這些 — 同樣的問題每天反覆出現

HR 內部問答

60–75%

每個員工都在問同樣的特休、福利、退休金問題

保險客服

55–68%

保單查詢、理賠進度為主 — 重複又簡單

行銷／內容工具

41–55%

中等任務的內容生成佔大宗 — LOW 較少、HIGH 也不多

教育科技／線上學習

38–52%

Q&A 與教學內容混合 — 複雜度分布廣

B2B SaaS 內建 AI 助手

30–45%

混合推理任務 — 分析、起草、摘要交雜

開發工具／程式碼生成

19–31%

多數請求真的需要推理 — 沒太多空間優化

幫我分析我的工作流 → 看方法論與論文 →

以上數字為模擬工作流，引擎 v2.6.2 對 GPT-4o 定額計價基準（$5.00／百萬 tokens）的對比結果。實際客戶帳單會因流量組合、retry 機制、整體 overhead 而異。已發表的 v1.2 論文記錄基礎方法論；v2.6.2 完整產業 benchmark 報告即將發佈。

競品比較

OpenRouter、Helicone、Portkey 不就好了嗎？

客觀比較，不打官腔。Casca 是路由引擎，不是聚合器、不是觀測工具 — 而且我們敢公開研究論文。

功能	OpenRouter	Helicone	Portkey	Casca
依複雜度自動路由	—	—	手動規則	✓ 原生
品質 SLA 含月費退還	—	—	—	✓ 寫進合約
公開技術論文 + DOI	—	—	—	✓ Zenodo
分產業省費 benchmark	—	—	—	✓ 8 個產業
從真實流量自動學習	—	—	—	✓ 飛輪機制
14 種語言原生分類	僅英文路由	N/A	有限	✓ 內建
跨客戶語意快取	—	—	✓	✓ 含隔離模式
相容 OpenAI SDK（直接套用）	✓	✓	✓	✓ 一行
Bypass 開關（5 秒 rollback）	—	—	需改設定檔	✓ 環境變數

所有比較依 2026 年 5 月公開文件為準。覺得不對？歡迎到 GitHub 開 issue，我們會更新表格。

定價

你省多少，我們才收多少。
不是你花多少。

Self-serve 方案給你穩定可預測的價格；不然就選成果型方案 — 我們幫你省到的錢比訂閱費多，你才付。

免費

$0 / 月

含 1000 萬 tokens · 用你自己的 API key

不會超收 — 用完就停

創業者拿來試 Casca、做 PoC 用。

三層智慧路由
跨客戶語意快取
即時省費 dashboard
社群支援（GitHub）
用自己的 OpenAI / Anthropic / Google key

免費開始 →

起步

$299 / 月

含 1 億 tokens · 用你的 key

超量計費：$0.10 / 百萬 tokens

適合 Series A 的 AI 新創，月燒 $5K–$30K 在 LLM。

免費版全部功能
Email 支援 · 24 小時回覆
路由分析 + 告警
品質 SLA（自動化）
隨時可暫停訂閱

60 天試用 →

最受歡迎

成長

$999 / 月

含 5 億 tokens · 用你的 key

超量計費：$0.05 / 百萬 tokens

適合 Series A/B，月燒 $30K–$80K。第一天就回本。

起步版全部功能
Slack 支援 · 當日回覆
自訂路由規則 + 強制 HIGH 名單
多 provider 自動 failover
稽核 log · 保留 90 天

60 天試用 →

擴張

$2,499 起 / 月

20 億 tokens · 或抽 12% 省費

兩種計費方式 · 往下看

適合中型團隊，月燒 $80K–$300K。可選定額或成果計費。

成長版全部功能
成果型計費可選
Provider Pool 加購
專屬客戶成功經理
客製 SLA + 延長稽核 log

看選項 ↓

擴張方案 · 兩種計費方式

隨時可切換

方案 A · 可預測

定額訂閱

$2,499 / 月

含 20 億 tokens，超量 $0.05／百萬。月帳單可預測 — 採購好過、財務好估。

            ● 財務報表清爽好看
            ● 完全不用分享資料
          

方案 B · 利益對齊

成果計費

12% 省費抽成

授權我們讀取你 provider 的帳單。我們對 GPT-4o 定額計價（$5／百萬）算出真實省費，收 12%。沒省到 = $0。最高也只到方案 A 的 1.5 倍 — 不會比定額還貴。

            ● 下限 $0 — 引擎沒省到完全不收費
            ● 上限 1.5 倍 — 不會收到驚喜帳單
            ● 含每月同業 benchmark 報告
          

⬡ 選配加購 · 擴張方案以上

Casca Provider Pool — 別讓你的 AI Stack 被綁死

一次整合，所有主流 LLM provider — 加上每一家有實力的二線玩家。新模型上線當天就能用。OpenAI 改價？一鍵切換。新 provider 在成本／品質上勝過 GPT-4o？你立刻拿到好處。給不想被單一供應商綁死的團隊。

OpenAI Anthropic Google Groq Mistral Together AI Fireworks AI Cohere + 更多

預先談好的費率 · 統一 DPA · 自動 failover · 一張帳單管所有 provider

加購

+^$499 / 月

企業方案已含

加到擴張方案 →

企業方案

客製化年合約 · 成果計費為主

適合月燒 $300K+ 的團隊。成果計費 12–15%（量越大越低）。Provider Pool 預設啟用。客製 SLA、專屬客戶支援、可私有化部署、我們替你跟 provider 談 rate card。

●Provider Pool 預設啟用

●可私有化部署

●季度業務 review

●建置費：$15K–$30K

聯絡業務 →

💡 算給你看（電商客服工作流，目前月燒 $50K 在 GPT-4o）：Casca 把 60% 流量導去便宜模型 → LLM 帳單降到約 $15K。加上成長方案：5B tokens × $0.05 + $999 = 約 $1,250。Casca 總成本 $1,250／月。淨省 $33,750／月。投報率 27:1。不同產業數字不同 — 看上方「數據攤開」表。

所有 BYO-key 方案：你的 API key 永遠不會離開你的環境。LLM 費用 OpenAI / Anthropic / Google 直接跟你收。Casca 只收路由費。

服務承諾

讓你想走就走，是設計出來的。

最好的 SaaS 承諾不是把客戶綁死 — 而是把「隨時可離開」做到無摩擦，客戶會因為想留而留。下面是我們的承諾，白話講。

60 天省費保證

啟用 60 天後，如果實際帳單沒省到 30%，我們把你訂閱費全退。不問理由、不討論。每個帳號限用一次。

隨時可取消

從 dashboard 一鍵取消。Self-Serve 方案沒有年約綁定，不用打電話找業務。當期費用照算到月底，不退未使用部分。如果出狀況，CASCA_BYPASS=true 5 秒內把流量導回你的 provider。

暫停訂閱

想休息一下？暫停 1–3 個月。期間零訂閱費，路由引擎停用（流量自動 bypass 到你的 provider）。所有設定、API key、dashboard 資料完整保留。90 天內回來，不另收費、零懲罰。

自動化品質 SLA

客觀指標、自動退費 — 不用申訴、沒有主觀爭議：

· 7 日滾動窗口內路由準確率 < 90%
· Bypass 切換延遲 > 5 秒
· p99 延遲連續 3 天 > 你 provider 基準的 1.5 倍

企業客戶會拿到客製 MSA，含具名帳戶的效能承諾與合約救濟條款 — 比 self-serve 標準 SLA 更深更具體。

別再燒錢了。
今天就開始。

選一條符合你採購習慣的路。兩條都通到同一個引擎。

高觸點 · 月花費 $50K+ 團隊

免費工作流分析

寄給我們 100 個真實請求樣本（去識別化），我們把流量跑進 v2.6.2 引擎，24 小時內回你分層省費預估。不用簽約、不用 sales call。

申請分析 → ↳ < 24 小時回覆 · 創辦人親自回信

自助 · 不限團隊規模

建立免費帳號

註冊、拿 API key、把 base_url 換掉，30 分鐘內路由就動。免費方案 1000 萬 tokens／月 — 夠在真實流量上驗證省費了。

建立免費帳號 → ↳ 不用信用卡 · < 30 分鐘上線

✓ 免費開始 · ✓ 不用信用卡 · ✓ 隨時可取消

把 LLM 帳單砍掉 30–75%。
一行 code 上線。
數字來自已發表的研究論文。

即時路由中

為了把成本省到底
而設計的引擎

依複雜度路由

SLA 品質保護

語意快取

自我學習飛輪

改一行 code。
下班前就上線。

市面上「省 60%」的口號多半是吹的。
真相是 — 看你做哪一行。

原生支援 14 種語言的智慧解析

OpenRouter、Helicone、Portkey 不就好了嗎？

你省多少，我們才收多少。
不是你花多少。

擴張方案 · 兩種計費方式

Casca Provider Pool — 別讓你的 AI Stack 被綁死

讓你想走就走，是設計出來的。

60 天省費保證

隨時可取消

暫停訂閱

自動化品質 SLA

常見問題

別再燒錢了。
今天就開始。

免費工作流分析

建立免費帳號

CASCA.

產品

資源

公司

法務 & 信任

把 LLM 帳單砍掉 30–75%。 一行 code 上線。 數字來自已發表的研究論文。

即時路由中

為了把成本省到底而設計的引擎

依複雜度路由

SLA 品質保護

語意快取

自我學習飛輪

改 一行 code。下班前就上線。

市面上「省 60%」的口號多半是吹的。真相是 — 看你做哪一行。

原生支援 14 種語言的智慧解析

OpenRouter、Helicone、Portkey 不就好了嗎？

你省多少，我們才收多少。不是你花多少。

擴張方案 · 兩種計費方式

Casca Provider Pool — 別讓你的 AI Stack 被綁死

讓你想走就走，是設計出來的。

60 天省費保證

隨時可取消

暫停訂閱

自動化品質 SLA

常見問題

別再燒錢了。今天就開始。

免費工作流分析

建立免費帳號

CASCA.

產品

資源

公司

法務 & 信任

把 LLM 帳單砍掉 30–75%。
一行 code 上線。
數字來自已發表的研究論文。

為了把成本省到底
而設計的引擎

改一行 code。
下班前就上線。

市面上「省 60%」的口號多半是吹的。
真相是 — 看你做哪一行。

你省多少，我們才收多少。
不是你花多少。

別再燒錢了。
今天就開始。