現在,Together GPU 集群包括自動擴展、RBAC、全棧可觀察性和內建的自我修復操作。 從實驗性的 GPU 基礎設施轉向具備彈性容量、多團隊治理和自動故障恢復的生產就緒 AI 平台。
主要功能: 👉 使用 Kubernetes Cluster Autoscaler 的自動擴展 — 根據實時需求彈性調整 GPU 容量 👉 自我修復操作 — 主動健康檢查和 3 次點擊節點修復以減少 MTTR 👉 基於角色的訪問控制 — 結構化的多團隊治理與項目隔離 👉 全堆棧可觀察性 — 具有 GPU、網絡和存儲遙測的 Grafana 儀表板
58