Malmö
Skomakaregatan 2211 34 Malmö
Sverige+46 735 124 970hello@kruso.se
Molnbaserad AI använder tekniker som containrar, mikrotjänster och Kubernetes för att bygga och hantera AI-system. I den molnbaserade världen används community-verktyg för att skapa skalbara och effektiva AI-arbetsflöden.
Kubernetes spelar en viktig roll genom att automatisera träning, driftsättning och servering av maskininlärningsmodeller. Verktyg som Kubeflow, MLflow och Ray stödjer dessa processer.
Detta tillvägagångssätt ger dig flexibilitet, skalbarhet och enklare infrastrukturhantering för komplexa AI-arbetsbelastningar.
Molnbaserade AI-system består vanligtvis av flera integrerade öppen-källkodsverktyg som hanterar olika aspekter av maskininlärningens livscykel, från databehandling och modellträning till servering och övervakning.
Kubeflow: Kubeflow är en molnbaserad plattform som kör maskininlärningsflöden på Kubernetes. Plattformen syftar till att förenkla implementering och skalning av ML-modeller och är en central komponent i många molnbaserade AI-stacks.
Kubeflow Pipelines: Ett verktyg för att bygga och hantera kompletta ML-arbetsflöden, där användare kan definiera komplexa pipelines för ML-uppgifter (t.ex. dataförberedelse, träning, utvärdering) med versionshantering, spårbarhet och möjlighet till tillförlitlig upprepning.
KFServing (KServe): En komponent för att servera ML-modeller på Kubernetes med serverlösa inferensmönster. KFServing stöder avancerade funktioner som automatisk skalning, GPU-acceleration och multipla ramverk (t.ex. TensorFlow, PyTorch, XGBoost).
Ray Serve: Ray Serve är ett skalbart bibliotek för modellservering som bygger på det distribuerade beräkningsramverket Ray. Det möjliggör flexibel implementering av ML-modeller med funktioner som trafikfördelning, dynamisk skalning och Python-native API:er, vilket är idealiskt för servering av flera modeller eller realtidsinferens i stor skala.
NVIDIA GPU Operator: NVIDIA GPU Operator automatiserar hanteringen av alla komponenter som krävs för att köra GPU-accelererade arbetslaster på Kubernetes. Det hanterar installation av drivrutiner, övervakning och uppgraderingar, vilket förenklar användningen av NVIDIA-GPU:er för intensiva tränings- och inferensuppgifter inom AI-arbetsflöden.
Istio och Prometheus:
Istio: En servicemesh som erbjuder trafikhantering, säkerhet och observerbarhet för mikrotjänster—inklusive tjänster som serverar AI-modeller. I molnbaserad AI används Istio för att hantera och övervaka interaktioner mellan tjänster som modell-API:er, databaser och frontend-applikationer.
Prometheus: Ett öppen-källkods övervakningssystem som samlar och frågar efter mätvärden från Kubernetes-arbetslaster. Prometheus används ofta inom molnbaserad AI för att övervaka träningsprestanda, resursanvändning och latenstider för modellinferens, vilket förbättrar observerbarheten och systemets hälsa.
Molnbaserad AI utmärker sig eftersom det ger konsekvens, automatisering och intelligent resurshantering vid utveckling och driftsättning av AI-system. En av dess huvudstyrkor är möjligheten att hantera både applikationer och maskininlärningsmodeller via ett gemensamt kontrollplan, vilket effektiviserar drift och minskar komplexiteten för team.
En nyckelfunktion är intelligent GPU-autoskalning. Istället för att kontinuerligt köra dyra GPU-instanser kan molnbaserade AI-plattformar automatiskt upptäcka när GPU-resurser behövs, som vid träning eller inferens, och dynamiskt skala upp. När arbetsbelastningen är klar skalas oanvända GPU:er automatiskt ned igen. Detta ger mycket effektiv användning av infrastrukturen, minskar kostnaderna och bibehåller prestanda.
Molnbaserad AI använder en modulär, skalbar och automatiseringsvänlig arkitektur som bygger på välbeprövade molnbaserade principer. Det typiska arbetssättet integrerar flera viktiga tekniker och metoder för att säkerställa att AI-applikationer effektivt kan utvecklas, distribueras och drivas i olika miljöer.
Kärnan i denna strategi är Kubernetes, som orkestrerar containrar för både AI-modeller och stödjande mikrotjänster. Kubernetes möjliggör enhetlig distribution och skalning över kluster, oavsett om de körs i molnet, lokalt eller vid edge.
Systemarkitekturen följer vanligtvis dessa grundläggande principer:
GitOps: All infrastruktur- och modellkonfiguration hanteras som kod och lagras i Git-repositorier. Verktyg som Argo CD och Flux synkroniserar kontinuerligt det deklarerade tillståndet i Git med det faktiska tillståndet i Kubernetes, vilket möjliggör helt automatiserade och versionskontrollerade distributionspipelines.
Mikrotjänster: Varje komponent i AI-stacken—databehandling, modellträning, inferens och övervakning—implementeras som löst kopplade mikrotjänster. Detta möjliggör oberoende skalning, uppdateringar och återanvändning över projektgränser.
GPU-schemaläggning: Specialiserade schemaläggare och NVIDIA GPU Operator hanterar GPU-resurser dynamiskt. Detta säkerställer att dyra GPU-resurser bara tilldelas när de behövs, som under träning eller inferens, vilket optimerar kostnader och utnyttjande avsevärt.
CNCF-ekosystemintegration: Arkitekturen drar stor nytta av projekt från Cloud Native Computing Foundation (CNCF), inklusive Prometheus för övervakning, Istio för servicemesh-funktioner, Envoy för trafikkontroll och OpenTelemetry för observerbarhet. Dessa verktyg ger operativ insyn, tillförlitlighet och säkerhet i stor skala.
Detta arbetssätt gör det möjligt för team att utveckla och distribuera AI-system enligt samma principer som moderna programvaror—högt automatiserade, molnagnostiska och byggda för kontinuerlig leverans.
Ingen leverantörslåsning; helt community-driven.
Körs var som helst: lokalt, offentlig moln eller hybrid.
Skala modeller och tjänster vid behov.
Exakt kontroll över resursanvändning.
Stöds av ett livfullt open source-ekosystem.
Integreras sömlöst med CI/CD- och GitOps-arbetsflöden.