為每月 LLM 開銷 $10K–$200K 的團隊打造

把 LLM 帳單砍掉 30–75%。
一行 code 上線。
數字來自已發表的研究論文。

以研究為基礎的路由引擎,每個請求 1 毫秒內 完成複雜度分類, 自動送到真的合適的模型 — 而不是最貴的那一個。 輸出品質一樣、SLA 一樣。單 token 最高省 97%、實際帳單依工作流省 30–75%。

GitHub jewanchen/casca 📄 已發表 Zenodo · DOI 🛡️ SLA 省不到 30% 全額退費 🌐 原生支援 14 種語言
整合方式 base_url = "https://api.cascaio.com/v1"
緊急脫離:CASCA_BYPASS=true → 5 秒內直連你的 provider
30 分鐘內上線
Prompt 絕不儲存、絕不拿來訓練
出狀況?一個指令脫離

即時路由中

Casca 把每個請求分類後,自動送到最划算的模型。

0
LOW
0
MED
0
HIGH
0
快取

為了把成本省到底
而設計的引擎

四個系統協同:分類複雜度、保護品質、快取答案、自動學習。

依複雜度路由

每個 prompt 在 1 毫秒內分類為 HIGH / MED / LOW。簡單查詢走 Gemini Flash(單 token 最多便宜 97%),需要思考的留給 GPT-4o 或 Claude Sonnet。不用人工維規則 — production 引擎原生支援 14 種語言,遇到模糊的案例還有 L2 MiniLM 接手。

160 條規則 · 14 種語言 · L1+L2 雙層

SLA 品質保護

法律、合規、醫療這類請求一律強制走 GPT-4o / Claude Sonnet — 沒有例外。連續 3 天品質低於你設的門檻,當月費用全額退還。寫在合約裡,不是嘴上說說。

強制 HIGH · 一鍵 ROLLBACK · 寫進合約

語意快取

「什麼是 API?」一天可能被問 200 次。同樣的問題、同樣的答案、零成本。我們的全域快取池用語意比對 — 錯字、改寫、跨語言版本全部命中,全部 $0。

模糊比對 · 編輯距離 < 5 · 全域池

自我學習飛輪

曖昧的 prompt(「幫我搞定這個」、「修一下」)會進入 AMBIG queue 等人工標註。每一筆標註都會餵回引擎。版本完全公開 — v1.2(26 條規則、已發表論文)→ v2.6.2(160 條規則、現役 production)。省費比例每月複利成長。

AMBIG 佇列 · v2.6.2 PRODUCTION · 複利成長

一行 code
下班前就上線。

100% 相容 OpenAI SDK。沒有 logic 要改、沒有 prompt 要重寫、不用排工程衝刺週。換掉 base URL,全部都動。

100%
相容 OpenAI SDK
0
其他 code 改動
< 1h
完成全部設定
# 你現在的 code
client = OpenAI(
api_key="sk-...",
base_url="https://api.openai.com/v1"
)
 
# 換成這行。其他不用動。
client = OpenAI(
api_key="sk-casca-...",
base_url="https://api.cascaio.com/v1" # ✓ 完成
)
 
# 緊急脫離 — 5 秒回原狀
# export CASCA_BYPASS=true

市面上「省 60%」的口號多半是吹的。
真相是 — 看你做哪一行。

我們把 8 個代表性的工作流跑進 Casca v2.6.2 引擎,下面這張表就是真實跑出來的數字 — 包含省得不多的產業。我們敢公開省得少的 — 因為誠實比包裝有效。

產業
帳單下降
為什麼是這個級距
金融科技客服
65–75%
幾乎全是餘額、交易紀錄、KYC 這類查詢 — LOW 比例非常高
電商客服
60–72%
訂單狀態、退換貨、尺寸這些 — 同樣的問題每天反覆出現
HR 內部問答
60–75%
每個員工都在問同樣的特休、福利、退休金問題
保險客服
55–68%
保單查詢、理賠進度為主 — 重複又簡單
行銷/內容工具
41–55%
中等任務的內容生成佔大宗 — LOW 較少、HIGH 也不多
教育科技/線上學習
38–52%
Q&A 與教學內容混合 — 複雜度分布廣
B2B SaaS 內建 AI 助手
30–45%
混合推理任務 — 分析、起草、摘要交雜
開發工具/程式碼生成
19–31%
多數請求真的需要推理 — 沒太多空間優化
以上數字為模擬工作流,引擎 v2.6.2 對 GPT-4o 定額計價基準($5.00/百萬 tokens)的對比結果。 實際客戶帳單會因流量組合、retry 機制、整體 overhead 而異。 已發表的 v1.2 論文記錄基礎方法論;v2.6.2 完整產業 benchmark 報告即將發佈。

原生支援 14 種語言的智慧解析

🇺🇸 English
🇹🇼 繁體中文
🇨🇳 简体中文
🇯🇵 日本語
🇫🇷 Français
🇰🇷 한국어
🇩🇪 Deutsch
🇪🇸 Español
🇮🇹 Italiano
🇮🇳 हिन्दी
🇸🇦 العربية
🇹🇭 ไทย
🇻🇳 Tiếng Việt
🇮🇩 Bahasa Indonesia

OpenRouter、Helicone、Portkey 不就好了嗎?

客觀比較,不打官腔。Casca 是路由引擎,不是聚合器、不是觀測工具 — 而且我們敢公開研究論文。

功能 OpenRouter Helicone Portkey Casca
依複雜度自動路由 手動規則 ✓ 原生
品質 SLA 含月費退還 ✓ 寫進合約
公開技術論文 + DOI ✓ Zenodo
分產業省費 benchmark ✓ 8 個產業
從真實流量自動學習 ✓ 飛輪機制
14 種語言原生分類 僅英文路由 N/A 有限 ✓ 內建
跨客戶語意快取 ✓ 含隔離模式
相容 OpenAI SDK(直接套用) ✓ 一行
Bypass 開關(5 秒 rollback) 需改設定檔 ✓ 環境變數
所有比較依 2026 年 5 月公開文件為準。覺得不對?歡迎到 GitHub 開 issue,我們會更新表格。

你省多少,我們才收多少。
不是你花多少。

Self-serve 方案給你穩定可預測的價格;不然就選成果型方案 — 我們幫你省到的錢比訂閱費多,你才付。

免費
$0 / 月
含 1000 萬 tokens · 用你自己的 API key
不會超收 — 用完就停
創業者拿來試 Casca、做 PoC 用。
  • 三層智慧路由
  • 跨客戶語意快取
  • 即時省費 dashboard
  • 社群支援(GitHub)
  • 用自己的 OpenAI / Anthropic / Google key
免費開始 →
起步
$299 / 月
含 1 億 tokens · 用你的 key
超量計費:$0.10 / 百萬 tokens
適合 Series A 的 AI 新創,月燒 $5K–$30K 在 LLM。
  • 免費版全部功能
  • Email 支援 · 24 小時回覆
  • 路由分析 + 告警
  • 品質 SLA(自動化)
  • 隨時可暫停訂閱
60 天試用 →
擴張
$2,499 起 / 月
20 億 tokens · 或抽 12% 省費
兩種計費方式 · 往下看
適合中型團隊,月燒 $80K–$300K。可選定額或成果計費。
  • 成長版全部功能
  • 成果型計費可選
  • Provider Pool 加購
  • 專屬客戶成功經理
  • 客製 SLA + 延長稽核 log
看選項 ↓

擴張方案 · 兩種計費方式

隨時可切換
方案 A · 可預測
定額訂閱
$2,499 / 月

含 20 億 tokens,超量 $0.05/百萬。月帳單可預測 — 採購好過、財務好估。

財務報表清爽好看 完全不用分享資料
方案 B · 利益對齊
成果計費
12% 省費抽成

授權我們讀取你 provider 的帳單。我們對 GPT-4o 定額計價($5/百萬)算出真實省費,收 12%。沒省到 = $0。最高也只到方案 A 的 1.5 倍 — 不會比定額還貴。

下限 $0 — 引擎沒省到完全不收費 上限 1.5 倍 — 不會收到驚喜帳單 含每月同業 benchmark 報告
選配加購 · 擴張方案以上

Casca Provider Pool — 別讓你的 AI Stack 被綁死

一次整合,所有主流 LLM provider — 加上每一家有實力的二線玩家。新模型上線當天就能用。OpenAI 改價?一鍵切換。新 provider 在成本/品質上勝過 GPT-4o?你立刻拿到好處。給不想被單一供應商綁死的團隊。

OpenAI Anthropic Google Groq Mistral Together AI Fireworks AI Cohere + 更多
預先談好的費率 · 統一 DPA · 自動 failover · 一張帳單管所有 provider
加購
+$499 / 月
企業方案已含
加到擴張方案 →
企業方案
客製化年合約 · 成果計費為主

適合月燒 $300K+ 的團隊。成果計費 12–15%(量越大越低)。Provider Pool 預設啟用。客製 SLA、專屬客戶支援、可私有化部署、我們替你跟 provider 談 rate card。

Provider Pool 預設啟用
可私有化部署
季度業務 review
建置費:$15K–$30K
聯絡業務 →
💡 算給你看(電商客服工作流,目前月燒 $50K 在 GPT-4o):Casca 把 60% 流量導去便宜模型 → LLM 帳單降到約 $15K。加上成長方案:5B tokens × $0.05 + $999 = 約 $1,250。Casca 總成本 $1,250/月。淨省 $33,750/月。投報率 27:1。不同產業數字不同 — 看上方「數據攤開」表。
所有 BYO-key 方案:你的 API key 永遠不會離開你的環境。LLM 費用 OpenAI / Anthropic / Google 直接跟你收。Casca 只收路由費。

讓你想走就走,是設計出來的。

最好的 SaaS 承諾不是把客戶綁死 — 而是把「隨時可離開」做到無摩擦,客戶會因為想留而留。下面是我們的承諾,白話講。

1

60 天省費保證

啟用 60 天後,如果實際帳單沒省到 30%,我們把你訂閱費全退。不問理由、不討論。每個帳號限用一次。

2

隨時可取消

從 dashboard 一鍵取消。Self-Serve 方案沒有年約綁定,不用打電話找業務。當期費用照算到月底,不退未使用部分。如果出狀況,CASCA_BYPASS=true 5 秒內把流量導回你的 provider。

3

暫停訂閱

想休息一下?暫停 1–3 個月。期間零訂閱費,路由引擎停用(流量自動 bypass 到你的 provider)。所有設定、API key、dashboard 資料完整保留。90 天內回來,不另收費、零懲罰。

4

自動化品質 SLA

客觀指標、自動退費 — 不用申訴、沒有主觀爭議:

· 7 日滾動窗口內路由準確率 < 90%
· Bypass 切換延遲 > 5 秒
· p99 延遲連續 3 天 > 你 provider 基準的 1.5 倍

企業客戶會拿到客製 MSA,含具名帳戶的效能承諾與合約救濟條款 — 比 self-serve 標準 SLA 更深更具體。

常見問題

別再燒錢了。
今天就開始。

選一條符合你採購習慣的路。兩條都通到同一個引擎。

自助 · 不限團隊規模

建立免費帳號

註冊、拿 API key、把 base_url 換掉,30 分鐘內路由就動。免費方案 1000 萬 tokens/月 — 夠在真實流量上驗證省費了。

建立免費帳號 → ↳ 不用信用卡 · < 30 分鐘上線
免費開始  ·  不用信用卡  ·  隨時可取消