Si të Vendosni Modele të IA-së

Si të Vendosni Modele të IA-së

Përgjigje e shkurtër: Vendosja e një modeli të inteligjencës artificiale do të thotë zgjedhja e një modeli shërbimi (në kohë reale, në grup, në transmetim ose në skaj), dhe më pas bërja e të gjithë rrugës të riprodhueshme, të vëzhgueshme, të sigurt dhe të kthyeshme. Kur versiononi gjithçka dhe krahasoni vonesën p95/p99 në ngarkesa të ngjashme me prodhimin, shmangni shumicën e dështimeve të "punës në laptopin tim".

Përmbledhjet kryesore:

Modelet e vendosjes: Zgjidhni në kohë reale, në grup, në transmetim ose në skaj përpara se të angazhoheni në mjete.

Riprodhueshmëria: Versiononi modelin, veçoritë, kodin dhe mjedisin për të parandaluar devijimin.

Vëzhgueshmëria: Monitoroni vazhdimisht bishtat e latencës, gabimet, ngopjen dhe shpërndarjet e të dhënave ose të daljes.

Vendosje të sigurta: Përdorni testimin me ngjyrat kanarine, blu-jeshile ose hije me pragje automatike të rikthimit.

Siguria dhe privatësia: Zbatoni autorizimin, kufijtë e shpejtësisë dhe menaxhimin e sekreteve, dhe minimizoni të dhënat personale personale në regjistra.

Si të Vendosni Modele të IA-së? Infografik

Artikuj që mund t'ju pëlqejnë të lexoni pas këtij: 

🔗 Si të matni performancën e inteligjencës artificiale
Mësoni metrika, standarde dhe kontrolle në botën reale për rezultate të besueshme të inteligjencës artificiale.

🔗 Si të automatizoni detyrat me anë të inteligjencës artificiale
Shndërroni punën e përsëritur në rrjedha pune duke përdorur udhëzime, mjete dhe integrime.

🔗 Si të testoni modelet e inteligjencës artificiale
Dizajnoni vlerësime, grupe të dhënash dhe pikëzim për të krahasuar modelet në mënyrë objektive.

🔗 Si të flasësh me IA-në
Bëni pyetje më të mira, përcaktoni kontekstin dhe merrni përgjigje më të qarta shpejt.


1) Çfarë do të thotë në të vërtetë "vendosje" (dhe pse nuk është vetëm një API) 🧩

Kur njerëzit thonë "zbatoni modelin", ata mund të nënkuptojnë ndonjë nga këto:

Pra, vendosja është më pak "e bën modelin të arritshëm" dhe më shumë si:

  • paketim + shërbim + shkallëzim + monitorim + qeverisje + rikthim ( Vendosja Blu-Green )

Është pak a shumë si të hapësh një restorant. Gatimi i një pjate të shijshme është i rëndësishëm, sigurisht. Por prapëseprapë ke nevojë për ndërtesën, stafin, frigoriferin, menutë, zinxhirin e furnizimit dhe një mënyrë për të përballuar nxitimin për darkë pa qarë në frigorifer. Jo një metaforë e përsosur… por e kupton. 🍝


2) Çfarë e bën një version të mirë të “Si të Vendosni Modele të IA-së” ✅

Një “zbatim i mirë” është i mërzitshëm në mënyrën më të mirë. Ai sillet në mënyrë të parashikueshme nën presion, dhe kur nuk sillet, mund ta diagnostikosh shpejt.

Ja se si duket zakonisht "mirë":

  • Ndërtime të riprodhueshme
    I njëjti kod + të njëjtat varësi = e njëjta sjellje. Asnjë ndjesi e frikshme "funksionon në laptopin tim" 👻 ( Docker: Çfarë është një kontejner? )

  • Kontratë e qartë ndërfaqeje.
    Hyrjet, daljet, skemat dhe rastet e skajit janë të përcaktuara. Asnjë lloj surprize në orën 2 të mëngjesit. ( OpenAPI: Çfarë është OpenAPI?, Skema JSON )

  • Performancë që përputhet me realitetin.
    Vonesa dhe rendimenti maten në pajisje të ngjashme me ato të prodhimit dhe ngarkesa realiste.

  • Monitorim me dhëmbë.
    Metrika, regjistra, gjurmë dhe kontrolle të devijimit që shkaktojnë veprime (jo vetëm panele që askush nuk i hap). ( Libri SRE: Monitorimi i Sistemeve të Shpërndara )

  • Strategji e sigurt lançimi
    Canary ose blu-jeshile, rikthim i lehtë, versionim që nuk kërkon lutje. ( Canary Release , Blue-Green Deployment )

  • Ndërgjegjësimi për koston
    "i shpejtë" është i shkëlqyer derisa fatura të duket si një numër telefoni 📞💸

  • Siguria dhe privatësia e integruara në
    menaxhimin e sekreteve, kontrollin e aksesit, trajtimin e PII-ve, auditueshmërinë. ( Kubernetes Secrets , NIST SP 800-122 )

Nëse mund t’i bësh këto vazhdimisht, je tashmë përpara shumicës së ekipeve. Le të jemi të sinqertë.


3) Zgjidhni modelin e duhur të vendosjes (para se të zgjidhni mjetet) 🧠

Përfundim i API-t në kohë reale ⚡

Më e mira kur:

  • përdoruesit kanë nevojë për rezultate të menjëhershme (rekomandime, verifikime për mashtrime, biseda, personalizim)

  • vendimet duhet të merren gjatë një kërkese

Kujdes:

Vlerësimi i grupit 📦

Më e mira kur:

  • parashikimet mund të vonohen (vlerësimi i rrezikut gjatë natës, parashikimi i largimit, pasurimi i ETL) ( Transformimi i Serisë Amazon SageMaker )

  • Ju dëshironi efikasitet në kosto dhe operacione më të thjeshta

Kujdes:

  • freskia e të dhënave dhe plotësimet e tyre

  • mbajtja e logjikës së karakteristikave në përputhje me trajnimin

Përfundim transmetimi 🌊

Më e mira kur:

  • Ju përpunoni ngjarjet vazhdimisht (IoT, klikime, sisteme monitorimi)

  • Ju dëshironi vendime pothuajse në kohë reale pa një kërkesë-përgjigje të rreptë

Kujdes:

Vendosja në Edge 📱

Më e mira kur:

Kujdes:

Zgjidh modelin fillimisht, pastaj zgjidh grumbullin. Përndryshe do të përfundosh duke e detyruar një model katror të shndërrohet në një model të rrumbullakët. Ose diçka e tillë. 😬


4) Paketimi i modelit në mënyrë që të mbijetojë në kontakt me prodhimin 📦🧯

Këtu vdesin në heshtje shumica e "vendosjeve të lehta".

Versioni i gjithçkaje (po, gjithçka)

  • Artifakt modeli (pesha, grafik, tokenizues, harta etiketash)

  • Logjika e veçorive (transformimet, normalizimi, enkoduesit)

  • Kodi i inferencës (para/pas përpunimit)

  • Mjedisi (Python, CUDA, libraritë e sistemit)

Një qasje e thjeshtë që funksionon:

  • trajtojeni modelin si një objekt publikimi

  • ruaje atë me një etiketë versioni

  • kërkojnë një skedar meta të dhënash të ngjashme me kartën e modelit: skemë, metrika, shënime të të dhënave të trajnimit, kufizime të njohura ( Kartat e Modelit për Raportimin e Modelit )

Enët ndihmojnë, por mos i adhuroni 🐳

Kontejnerët janë të shkëlqyer sepse:

Por ju ende duhet të menaxhoni:

Standardizoni ndërfaqen

Vendosni formatin tuaj të hyrjes/daljes që në fillim:

Dhe ju lutem vërtetoni të dhënat hyrëse. Të dhënat hyrëse të pavlefshme janë shkaku kryesor i tiketave "pse po kthen të dhëna të pakuptimta". ( OpenAPI: Çfarë është OpenAPI?, Skema JSON )


5) Opsionet e shërbimit - nga "API i thjeshtë" te serverat me model të plotë 🧰

Ekzistojnë dy rrugë të zakonshme:

Opsioni A: Serveri i aplikacionit + kodi i inferencës (qasja në stilin FastAPI) 🧪

Ju shkruani një API që ngarkon modelin dhe kthen parashikime. ( FastAPI )

Pro:

  • lehtë për t’u personalizuar

  • i shkëlqyer për modele më të thjeshta ose produkte në fazat e hershme

  • autorizim, rrugëzim dhe integrim i drejtpërdrejtë

Kundër:

  • Ju vetë keni rregullimin e performancës (batching, threading, shfrytëzimin e GPU-së)

  • Do të shpikësh disa rrota nga e para, ndoshta keq në fillim

Opsioni B: Serveri i modelit (qasje në stilin TorchServe / Triton) 🏎️

Servera të specializuar që merren me:

Pro:

  • modele më të mira performance menjëherë

  • ndarje më e qartë midis shërbimit dhe logjikës së biznesit

Kundër:

  • kompleksitet shtesë operativ

  • konfigurimi mund të ndihet… i ndërlikuar, si rregullimi i temperaturës së dushit

Një model hibrid është shumë i zakonshëm:


6) Tabela Krahasuese - mënyra të njohura për t'u përdorur (me ndjesi të sinqerta) 📊😌

Më poshtë është një përmbledhje praktike e opsioneve që njerëzit përdorin në të vërtetë kur kuptojnë se si të vendosin modele të inteligjencës artificiale .

Mjet / Qasje Audienca Çmimi Pse funksionon
Docker + FastAPI (ose i ngjashëm) Ekipet e vogla, startup-et Sikur i lirë I thjeshtë, fleksibël, i shpejtë për t’u dërguar - do të “ndjeni” çdo problem me shkallëzimin ( Docker , FastAPI )
Kubernetes (Bëje Vetë) Ekipet e platformës Varur nga infra të kuqe Kontroll + shkallëzueshmëri… gjithashtu, shumë butona, disa prej tyre të mallkuar ( Kubernetes HPA )
Platformë e menaxhuar e ML (shërbim cloud ML) Ekipet që duan më pak operacione Paguaj sipas përdorimit Flukset e punës së integruara të vendosjes, grepat e monitorimit - ndonjëherë të kushtueshme për pikat fundore gjithmonë të ndezura ( vendosja e Vertex AI , përfundimi në kohë reale i SageMaker )
Funksione pa server (për përfundime të lehta) Aplikacione të drejtuara nga ngjarjet Paguaj për përdorim I shkëlqyer për trafikun me maja - por ndezjet e ftohta dhe madhësia e modelit mund t'ju prishin ditën 😬 ( Nisjet e ftohta AWS Lambda )
Serveri i Inferencës NVIDIA Triton Ekipet e fokusuara në performancë Softuer falas, kosto infrastrukture Shfrytëzim i shkëlqyer i GPU-së, grumbullim, shumëmodelë - konfigurimi kërkon durim ( Triton: Grumbullim dinamik )
TorchServe Ekipet me shumë PyTorch Softuer i lirë Modele të mira servirjeje standarde - mund të kenë nevojë për rregullim për shkallë të lartë ( dokumentet TorchServe )
BentoML (paketim + servirje) Inxhinierë të ML-së Bërthamë falas, shtesat ndryshojnë Paketim i qetë, përvojë e mirë për zhvilluesit - ju ende keni nevojë për zgjedhje infrastrukturore ( paketimi BentoML për vendosje )
Ray Serve Njerëz të sistemeve të shpërndara Varur nga infra të kuqe Shkallëzimi është horizontal, i mirë për tubacionet - ndihet "i madh" për projekte të vogla ( dokumentet e Ray Serve )

Shënim mbi tabelën: "Ish-falas" është terminologji e jetës reale. Sepse nuk është kurrë falas. Gjithmonë ka një faturë diku, edhe nëse është gjumi juaj. 😴


7) Performanca dhe shkallëzimi - vonesa, rendimenti dhe e vërteta 🏁

Rregullimi i performancës është vendi ku vendosja bëhet një mjeshtëri. Qëllimi nuk është "i shpejtë". Qëllimi është vazhdimisht mjaftueshëm i shpejtë .

Metrikat kryesore që kanë rëndësi

Leva të zakonshme për të tërhequr

  • Batching
    Kombinoni kërkesat për të maksimizuar përdorimin e GPU-së. I shkëlqyer për rendimentin, mund të dëmtojë vonesën nëse e teproni. ( Triton: Batching dinamik )

  • Kuantizimi.
    Preciziteti më i ulët (si INT8) mund të përshpejtojë nxjerrjen e përfundimeve dhe të zvogëlojë memorien. Mund ta ulë pak saktësinë. Ndonjëherë jo, çuditërisht. ( Kuantizimi pas trajnimit )

  • Kompilim/optimizim
    Eksportimi i ONNX, optimizuesit e grafikëve, rrjedhat e ngjashme me TensorRT. I fuqishëm, por debugging mund të bëhet i ndërlikuar 🌶️ ( ONNX , optimizimet e modelit Runtime të ONNX )

  • Ruajtja në memorien specifike
    Nëse të dhënat hyrëse përsëriten (ose mund të ruani në memorien specifike të ngulitura), mund të kurseni shumë.

  • automatik
    Shkallëzohet sipas përdorimit të CPU/GPU, thellësisë së radhës ose shkallës së kërkesave. Thellësia e radhës është nënvlerësuar. ( Kubernetes HPA )

Një këshillë e çuditshme, por e vërtetë: matni me madhësi ngarkesash të ngjashme me ato të prodhimit. Ngarkesat e vogla të testimit ju gënjejnë. Ato buzëqeshin me mirësjellje dhe më pas ju tradhtojnë më vonë.


8) Monitorimi dhe vëzhgueshmëria - mos fluturoni verbërisht 👀📈

Monitorimi i modelit nuk është vetëm monitorim i kohës së funksionimit. Ju doni të dini nëse:

Çfarë duhet monitoruar (grupi minimal i zbatueshëm)

Shëndeti i shërbimit

Sjellja e modelit

  • shpërndarjet e karakteristikave të hyrjes (statistikat bazë)

  • normat e ngulitura (për modelet e ngulitura)

  • shpërndarjet e rezultateve (besimi, përzierja e klasave, diapazoni i rezultateve)

  • zbulimi i anomalive në hyrje (hyrje mbeturinash, dalje mbeturinash)

Zhvendosja e të dhënave dhe zhvendosja e koncepteve

Regjistrimi, por jo qasja "regjistro gjithçka përgjithmonë" 🪵

Regjistri:

Kini kujdes me privatësinë. Nuk doni që regjistrat tuaj të bëhen rrjedhje e të dhënave tuaja. ( NIST SP 800-122 )


9) Strategjitë e CI/CD dhe lançimit - trajtojini modelet si publikime të vërteta 🧱🚦

Nëse dëshironi vendosje të besueshme, ndërtoni një tubacion. Edhe një të thjeshtë.

Një rrjedhë e ngurtë

  • Testet e njësisë për parapërpunimin dhe paspërpunimin

  • Testi i integrimit me një "grup të artë" të njohur hyrje-dalje

  • Baza e testit të ngarkesës (edhe një peshë e lehtë)

  • Ndërtoni një objekt (kontejner + model) ( praktikat më të mira të ndërtimit të Docker )

  • Vendos në fazën e skenimit

  • Lëshimi i Canary për një pjesë të vogël të trafikut ( Lëshimi i Canary )

  • Rrit gradualisht

  • Rikthim automatik në pragjet e çelësave ( Vendosja Blu-Jeshile )

Modele shtrirjeje që ju shpëtojnë shëndetin mendor

  • Canary : publikim për 1-5% trafik fillimisht ( Canary Release )

  • Blu-jeshile : ekzekuto versionin e ri së bashku me të vjetrin, ktheje kur të jetë gati ( Vendosja Blu-jeshile )

  • Testimi i hijes : dërgo trafik real në modelin e ri, por mos i përdor rezultatet (shumë i mirë për vlerësim) ( Microsoft: Testimi i hijes )

Dhe versiononi pikat fundore ose itinerarin tuaj sipas modelit version. Në të ardhmen do t'ju falënderoj. Edhe ju të tashmen do të falënderoni, por në heshtje.


10) Siguria, privatësia dhe "ju lutem mos zbuloni gjëra" 🔐🙃

Siguria ka tendencë të shfaqet vonë, si një mysafir i paftuar. Më mirë ta ftosh herët.

Lista praktike e kontrollit për kontrollin, listë kontrolli, etj., praktike

  • Autentifikimi dhe autorizimi (kush mund ta telefonojë modelin?)

  • Kufizimi i shpejtësisë (mbrojtje nga abuzimi dhe stuhitë aksidentale) ( mbyllja e API Gateway )

  • Menaxhimi i sekreteve (pa çelësa në kod, pa çelësa as në skedarët e konfigurimit…) ( AWS Secrets Manager , Kubernetes Secrets )

  • Kontrollet e rrjetit (nënrrjete private, politika shërbim-me-shërbim)

  • Regjistrat e auditimit (veçanërisht për parashikimet e ndjeshme)

  • Minimizimi i të dhënave (ruani vetëm atë që duhet) ( NIST SP 800-122 )

Nëse modeli prek të dhënat personale:

  • identifikues të redaktuar ose të hashuar

  • shmangni regjistrimin e ngarkesave të papërpunuara ( NIST SP 800-122 )

  • përcaktoni rregullat e mbajtjes së përmbajtjes

  • rrjedha e të dhënave të dokumentit (e mërzitshme, por mbrojtëse)

Gjithashtu, injektimi i shpejtë dhe abuzimi me rezultatin mund të kenë rëndësi për modelet gjeneruese. Shtoni: ( OWASP Top 10 për Aplikacionet LLM , OWASP: Injeksion i Shpejtë )

  • rregullat e dezinfektimit të hyrjeve

  • filtrimi i daljes aty ku është e përshtatshme

  • parmakë mbrojtës për thirrjen e mjeteve ose veprimet e bazës së të dhënave

Asnjë sistem nuk është perfekt, por mund ta bësh më pak të brishtë.


11) Kurthe të zakonshme (të njohura si kurthet e zakonshme) 🪤

Ja klasikët:

Nëse po e lexoni këtë dhe mendoni "po, bëjmë dy të tilla", mirë se vini në klub. Klubi ka ushqime të lehta dhe pak stres. 🍪


12) Përmbledhje - Si të Vendosni Modele të IA-së pa humbur mendjen 😄✅

Zbatimi është vendi ku IA bëhet një produkt i vërtetë. Nuk është joshës, por është vendi ku fitohet besimi.

Përmbledhje e shpejtë

Dhe po, "Si të Vendosni Modelet e IA-së" mund të duket si xhongling me topa bowlingu të flaktë në fillim. Por sapo rrjedha juaj të jetë e qëndrueshme, bëhet çuditërisht e kënaqshme. Sikur më në fund të organizoni një sirtar të rrëmujshëm… vetëm sirtari është trafiku i prodhimit. 🔥🎳

Pyetje të shpeshta

Çfarë do të thotë të vendosësh një model të inteligjencës artificiale në prodhim

Vendosja e një modeli të IA-së zakonisht përfshin shumë më tepër sesa ekspozimin e një API-je parashikimi. Në praktikë, kjo përfshin paketimin e modelit dhe varësive të tij, zgjedhjen e një modeli shërbimi (në kohë reale, në grup, në transmetim ose në skaj), shkallëzimin me besueshmëri, monitorimin e shëndetit dhe devijimit, dhe konfigurimin e shtigjeve të sigurta të vendosjes dhe rikthimit. Një vendosje e fortë qëndron e qëndrueshme në mënyrë të parashikueshme nën ngarkesë dhe mbetet e diagnostikueshme kur diçka shkon keq.

Si të zgjidhni midis vendosjes në kohë reale, në grup, në transmetim ose në skaje

Zgjidhni modelin e vendosjes bazuar në kohën kur nevojiten parashikime dhe kufizimet nën të cilat veproni. API-të në kohë reale përshtaten me përvojat interaktive ku vonesa ka rëndësi. Vlerësimi në grup funksionon më mirë kur vonesat janë të pranueshme dhe efikasiteti i kostos udhëheq. Transmetimi i përshtatet përpunimit të vazhdueshëm të ngjarjeve, veçanërisht kur semantika e dorëzimit bëhet e vështirë. Vendosja në skaj është ideale për operacione jashtë linje, privatësi ose kërkesa për vonesë ultra të ulët, megjithëse përditësimet dhe ndryshimet e harduerit bëhen më të vështira për t'u menaxhuar.

Cilin version duhet të zgjidhni për të shmangur dështimet e instalimit të tipit "funksionon në laptopin tim"

Versioni është më shumë sesa thjesht peshat e modelit. Zakonisht, do të dëshironi një objekt të modelit të versionuar (duke përfshirë tokenizuesit ose hartat e etiketave), parapërpunimin dhe logjikën e veçorive, kodin e përfundimit dhe mjedisin e plotë të kohës së ekzekutimit (bibliotekat Python/CUDA/sistemi). Trajtojeni modelin si një objekt publikimi me versione të etiketuara dhe meta të dhëna të lehta që përshkruajnë pritjet e skemës, shënimet e vlerësimit dhe kufizimet e njohura.

Nëse do të vendoset me një shërbim të thjeshtë në stilin FastAPI ose me një server modeli të dedikuar

Një server i thjeshtë aplikacionesh (një qasje në stilin FastAPI) funksionon mirë për produktet e hershme ose modelet e thjeshta sepse ju ruani kontrollin mbi rrugëzimin, autorizimin dhe integrimin. Një server modeli (në stilin TorchServe ose NVIDIA Triton) mund të ofrojë efikasitet më të fortë të grumbullimit, konkurencës dhe GPU-së menjëherë. Shumë ekipe përdorin një hibrid: një server modeli për nxjerrjen e përfundimeve plus një shtresë të hollë API për autorizim, formësimin e kërkesave dhe kufijtë e shpejtësisë.

Si të përmirësohet vonesa dhe rendimenti pa prishur saktësinë

Filloni duke matur vonesën p95/p99 në pajisje të ngjashme me prodhimin me ngarkesa realiste, pasi testet e vogla mund të çorientojnë. Mjetet e zakonshme përfshijnë ndarjen në grupe (prodhim më i mirë, vonesë potencialisht më e keqe), kuantizimin (më të vogël dhe më të shpejtë, ndonjëherë me kompromise modeste të saktësisë), rrjedhat e kompilimit dhe optimizimit (si ONNX/TensorRT) dhe ruajtjen në memorien e përkohshme të të dhënave hyrëse ose të ngulitura. Shkallëzimi automatik bazuar në thellësinë e radhës gjithashtu mund të parandalojë rritjen e vonesës së bishtit.

Çfarë monitorimi nevojitet përtej "pikës fundore është aktive"?

Kohëzgjatja e funksionimit nuk është e mjaftueshme, sepse një shërbim mund të duket i shëndetshëm ndërsa cilësia e parashikimit përkeqësohet. Minimumi, monitoroni vëllimin e kërkesave, shkallën e gabimeve dhe shpërndarjet e latencës, plus sinjalet e ngopjes si CPU/GPU/memoria dhe koha e radhës. Për sjelljen e modelit, gjurmoni shpërndarjet e hyrjes dhe daljes së bashku me sinjalet bazë të anomalive. Shtoni kontrolle të devijimit që shkaktojnë veprim në vend të alarmeve të zhurmshme dhe regjistroni ID-të e kërkesave, versionet e modelit dhe rezultatet e validimit të skemës.

Si të lançoni versione të reja modelesh në mënyrë të sigurt dhe të rikuperoni shpejt

Trajtojini modelet si versione të plota, me një tubacion CI/CD që teston parapërpunimin dhe postpërpunimin, kryen kontrolle integrimi kundrejt një "grupi të artë" dhe përcakton një linjë bazë ngarkese. Për lançimet, canary lëshon trafikun rampë gradualisht, ndërsa blu-jeshile mban një version më të vjetër aktiv për rikthim të menjëhershëm. Testimi i hijes ndihmon në vlerësimin e një modeli të ri në trafikun real pa ndikuar te përdoruesit. Rikthimi duhet të jetë një mekanizëm i klasit të parë, jo një mendim i mëvonshëm.

Grackat më të zakonshme kur mësoni se si të vendosni modele të IA-së

Shtrembërimi i shërbimit të trajnimit është rasti klasik: përpunimi paraprak ndryshon midis trajnimit dhe prodhimit, dhe performanca përkeqësohet në heshtje. Një problem tjetër i shpeshtë është mungesa e validimit të skemës, ku një ndryshim në rrjedhën e sipërme i ndan të dhënat hyrëse në mënyra delikate. Ekipet gjithashtu nënvlerësojnë vonesën e pasme dhe përqendrohen shumë te mesataret, anashkalojnë koston (GPU-të joaktive shtohen shpejt) dhe anashkalojnë planifikimin e rikthimit. Monitorimi vetëm i kohës së funksionimit është veçanërisht i rrezikshëm, sepse "lart por gabim" mund të jetë më keq sesa poshtë.

Referencat

  1. Shërbimet Web të Amazon (AWS) - Amazon SageMaker: Përfundim në kohë reale - docs.aws.amazon.com

  2. Shërbimet Web të Amazon (AWS) - Transformimi i Batch-ut të Amazon SageMaker - docs.aws.amazon.com

  3. Shërbimet Web të Amazon (AWS) - Monitori i Modelit Amazon SageMaker - docs.aws.amazon.com

  4. Shërbimet Web të Amazon (AWS) - Rrotullimi i kërkesave të Portës API - docs.aws.amazon.com

  5. Shërbimet Web të Amazon (AWS) - Menaxheri i Sekreteve të AWS: Hyrje - docs.aws.amazon.com

  6. Shërbimet Web të Amazon (AWS) - Cikli jetësor i mjedisit të ekzekutimit të AWS Lambda - docs.aws.amazon.com

  7. Google Cloud - Vertex AI: Vendosni një model në një pikë fundore - docs.cloud.google.com

  8. Google Cloud - Përmbledhje e Monitorimit të Modelit AI Vertex - docs.cloud.google.com

  9. Google Cloud - Vertex AI: Shtrembërimi dhe devijimi i veçorive të monitorit - docs.cloud.google.com

  10. Blogu i Google Cloud - Dataflow: modalitetet e transmetimit saktësisht një herë kundrejt modaliteteve të transmetimit të paktën një herë - cloud.google.com

  11. Google Cloud - Modalitetet e transmetimit të Cloud Dataflow - docs.cloud.google.com

  12. Libri Google SRE - Monitorimi i Sistemeve të Shpërndara - sre.google

  13. Google Research - Bishti në Shkallë - research.google

  14. LiteRT (Google AI) - Përmbledhje e LiteRT - ai.google.dev

  15. LiteRT (Google AI) - Konkluzioni i LiteRT në pajisje - ai.google.dev

  16. Docker - Çfarë është një kontejner? - docs.docker.com

  17. Docker - Praktikat më të mira të ndërtimit të Docker - docs.docker.com

  18. Kubernetes - Kubernetes Secrets - kubernetes.io

  19. Kubernetes - Shkallëzim automatik i pod-eve horizontale - kubernetes.io

  20. Martin Fowler - Lëshimi i Kanarinëve - martfowler.com

  21. Martin Fowler - Vendosja Blue-Green - martfowler.com

  22. Iniciativa OpenAPI - Çfarë është OpenAPI? - openapis.org

  23. Skema JSON - (faqja e referuar) - json-schema.org

  24. Memorizat e Protokollit - Përmbledhje e Memorizatorëve të Protokollit - protobuf.dev

  25. FastAPI - (faqe e referuar) - fastapi.tiangolo.com

  26. NVIDIA - Triton: Grumbullim Dinamik dhe Ekzekutim i Modelit të Njëkohshëm - docs.nvidia.com

  27. NVIDIA - Triton: Ekzekutimi i Modelit të Njëkohshëm - docs.nvidia.com

  28. NVIDIA - Triton Inference Server - docs.nvidia.com

  29. PyTorch - Dokumentet e TorchServe - docs.pytorch.org

  30. BentoML - Paketimi për vendosje - docs.bentoml.com

  31. Ray - Ray Serve dokumente - docs.ray.io

  32. TensorFlow - Kuantizimi pas trajnimit (Optimizimi i Modelit TensorFlow) - tensorflow.org

  33. TensorFlow - Validimi i të Dhënave të TensorFlow: zbuloni shtrembërimin e shërbimit të trajnimit - tensorflow.org

  34. ONNX - (faqe e referuar) - onnx.ai

  35. ONNX Runtime - Optimizimet e modelit - onnxruntime.ai

  36. NIST (Instituti Kombëtar i Standardeve dhe Teknologjisë) - NIST SP 800-122 - csrc.nist.gov

  37. arXiv - Kartat Model për Raportimin e Modeleve - arxiv.org

  38. Microsoft - Testimi në hije - microsoft.github.io

  39. OWASP - 10 më të mirat e OWASP për Aplikimet LLM - owasp.org

  40. Projekti i Sigurisë GenAI i OWASP - OWASP: Injeksion i Menjëhershëm - genai.owasp.org

Gjeni IA-në më të fundit në Dyqanin Zyrtar të Asistentëve të IA-së

Rreth Nesh

Kthehu te blogu