GPU Fleet — Overview

GPU Fleet, kendi GPU makinelerini console üzerinden uçtan uca yönetmeni sağlar:

Linux + NVIDIA, macOS + Apple Silicon ve CPU-only makineleri tek arayüzden onboard et.
Curated bir model kataloğundan (Qwen, Llama, Mistral, BGE embeddings, Whisper, XTTS, EasyOCR…) tıkla-deploy yap.
Aynı modeli N makinede çalıştırıp tek bir OpenAI-compatible endpoint arkasına koy (Pool).
A100/H100 üzerinde MIG ile fiziksel GPU'yu mantıksal parçalara böl.
Her host'ta UI'dan terminal aç (host shell / sandbox / container exec).
Health, agent durumu, deployment durumu — hepsi tek pane'de.

GPU Fleet genel görünüm

Operate → GPU Fleet altında; üst sekmeler Overview / Onboarding / Model Marketplace / Pools / Settings. Overview, host/online/offline/pending-claim ve toplam GPU sayaçlarını, her host için durum + heartbeat + agent sürümü kartını gösterir. Onboard hosts yeni makine ekler.

Mimari özet

┌──────────────────────┐        long-poll              ┌──────────────────────┐
│      Cognipeer       │ ◀──── handshake ────────────  │   gpu-agent (Node)   │
│       Console        │       heartbeat, events       │   - platform adapter │
│  (multi-tenant API)  │ ─────────────────────────────▶│   - docker (vllm/…)  │
│                      │       desired-state commands  │   - mig (nvidia-smi) │
│  + UI                │                                │   - terminal pty     │
│  + Pool proxy        │ ◀───── /api/internal/         │                      │
│  + DB                │        gpu-pool/.../v1        │                      │
└──────────────────────┘                                └──────────────────────┘
                                                              GPU host

Agent her makineye kurulur, console'a outbound bağlanır (firewall dostu).
Console desired-state'i DB'de tutar, agent farkı uygular.
Pool proxy birden çok deployment'ı tek OpenAI uyumlu endpoint arkasında load-balance eder.

Hızlı başlangıç

GPU Fleet → Settings sekmesinden bir fleet token üret (Rotate fleet token).
Onboarding sekmesinden bilgisayarına özel install command'ı kopyala.
Her GPU host'unda komutu çalıştır → host pending claim olarak görünür.
UI'dan host'u claim et (ad ver, terminal'i opt-in olarak aç).
Model Marketplace'ten model seç, host detayında Deploy model → birkaç dakika sonra healthy.
Birden çok host'a aynı modeli kurmak istersen Pools → Bulk deploy.

Detay için sıradaki rehberlere bak.

Roller ve izinler

GPU Fleet, gpu-fleet servis izniyle korunur (admin-only). RBAC tarafında bu izni verirken admin seviyesi gerekir; daha düşük seviyeler şu an desteklenmez (alt seviye okuma desteği planlı).

Terminal erişimi ayrıca host bazında opt-in (terminalEnabled) — claim sırasında veya sonra UI'dan aç/kapa. Bu, RBAC izniyle birlikte iki-faktörlü çalışır: izin AND flag açık olmadan terminal açılmaz.

Veri modeli (özet)

Entity	Açıklama
`gpu_hosts`	Console'a bağlı GPU/CPU makineleri. Status: `pending_claim → online → offline`.
`gpu_slices`	Schedule edilebilir parça: full-GPU veya MIG instance. Bir deployment'a bağlanır.
`llm_deployments`	Slice üzerinde koşan Docker container (vLLM / TGI / Ollama / custom).
`gpu_fleet_commands`	Konsoldan agent'a giden komut kuyruğu (FIFO, idempotent).
`gpu_fleet_events`	Append-only event log (audit + state propagation).
`gpu_fleet_settings`	Tenant-wide ayarlar (fleet token, agent distribution mode, terminal TTL).
`llm_pools`	Aynı modeli çalıştıran deployment'ları gruplayan load-balanced endpoint.

Lifecycle

Host:        [register] → pending_claim ──claim──▶ online ◀──heartbeat── (offline if stale)
Deployment:  pending → pulling → starting → healthy ◀──── unhealthy / failed / stopped
Pool:        active ──drain──▶ disabled (delete tamamen siler)
Slice:       agent reports → console upserts → MIG reconfig deletes/recreates

Sonraki adım

→ Onboarding Hosts — ilk makineyi bağla.

GPU Fleet — Overview ​

Mimari özet ​

Hızlı başlangıç ​

Roller ve izinler ​

Veri modeli (özet) ​

Lifecycle ​

Sonraki adım ​