现在,Together GPU 集群包括自动扩展、基于角色的访问控制(RBAC)、全栈可观察性和内置的自愈操作。 从实验性的 GPU 基础设施迁移到具备弹性容量、多团队治理和自动故障恢复的生产就绪 AI 平台。
关键能力: 👉 使用 Kubernetes 集群自动扩展器进行自动扩展 — 根据实时需求弹性扩展 GPU 容量 👉 自愈操作 — 主动健康检查和 3 次点击节点修复以减少 MTTR 👉 基于角色的访问控制 — 结构化的多团队治理与项目隔离 👉 全栈可观察性 — 带有 GPU、网络和存储遥测的 Grafana 仪表板
52