Si të matni performancën e inteligjencës artificiale?

Nëse ndonjëherë keni shitur një model që shkëlqeu në laptop, por që ka ngecur në prodhim, e dini tashmë sekretin: mënyra e matjes së performancës së inteligjencës artificiale nuk është një metrikë magjike. Është një sistem kontrollesh të lidhura me objektivat e botës reale. Saktësia është e bukur. Besueshmëria, siguria dhe ndikimi në biznes janë më të mira.

Artikuj që mund t'ju pëlqejnë të lexoni pas këtij:

🔗 Si të flasësh me IA-në
Udhëzues për të komunikuar në mënyrë efektive me inteligjencën artificiale për rezultate vazhdimisht më të mira.

🔗 Çfarë është nxitja e inteligjencës artificiale
Shpjegon se si kërkesat formësojnë përgjigjet e inteligjencës artificiale dhe cilësinë e rezultateve.

🔗 Çfarë është etiketimi i të dhënave të inteligjencës artificiale
Përmbledhje e caktimit të etiketave të sakta të të dhënave për modelet e trajnimit.

🔗 Çfarë është etika e inteligjencës artificiale
Hyrje në parimet etike që udhëheqin zhvillimin dhe vendosjen e përgjegjshme të IA-së.

Çfarë e bën IA-në të performojë mirë? ✅

Version i shkurtër: performanca e mirë e inteligjencës artificiale do të thotë që sistemi juaj është i dobishëm, i besueshëm dhe i përsëritshëm në kushte të çrregullta dhe në ndryshim. Konkretisht:

Cilësia e detyrës - ajo merr përgjigjet e duhura për arsyet e duhura.
Kalibrimi - rezultatet e besimit përputhen me realitetin, kështu që mund të ndërmerrni veprime të zgjuara.
Qëndrueshmëri - i reziston devijimit, skajeve dhe mjegullës kundërshtare.
Siguria dhe drejtësia - shmang sjelljen e dëmshme, të anshme ose jo në përputhje me rregullat.
Efikasitet - është mjaftueshëm i shpejtë, mjaftueshëm i lirë dhe mjaftueshëm i qëndrueshëm për të funksionuar në shkallë të gjerë.
Ndikimi në biznes - në fakt ndryshon KPI-në që ju intereson.

Nëse dëshironi një pikë referimi formale për përafrimin e metrikave dhe rreziqeve, Korniza e Menaxhimit të Riskut të AI-së NIST është një yll i fortë verior për vlerësimin e besueshëm të sistemit. [1]

Matja e performancës së inteligjencës artificiale

Receta e nivelit të lartë për mënyrën e matjes së performancës së inteligjencës artificiale 🍳

Mendoni në tre shtresa:

Metrikat e detyrës - korrektësia për llojin e detyrës: klasifikimi, regresioni, renditja, gjenerimi, kontrolli, etj.
Metrikat e sistemit - vonesa, rendimenti, kostoja për thirrje, shkalla e dështimeve, alarmet e devijimit, SLA-të e kohës së funksionimit.
Metrikat e rezultateve - rezultatet e biznesit dhe të përdoruesit që dëshironi realisht: konvertimi, mbajtja e klientëve, incidentet e sigurisë, ngarkesa e rishikimit manual, vëllimi i biletave.

Një plan i shkëlqyer matjesh i përzien qëllimisht të treja. Përndryshe, do të merrni një raketë që nuk do të largohet kurrë nga platforma e lëshimit.

Metrikat kryesore sipas llojit të problemit - dhe kur duhet të përdoret cili 🎯

1) Klasifikimi

Precizioni, Rikujtimi, F1 - treshja e ditës së parë. F1 është mesatarja harmonike e precizionit dhe rikujtimit; e dobishme kur klasat janë të pabalancuara ose kostot janë asimetrike. [2]
ROC-AUC - renditja agnostike e pragut të klasifikuesve; kur pozitivët janë të rrallë, inspektohet edhe PR-AUC. [2]
Saktësi e balancuar - mesatarja e kujtesës në të gjitha klasat; i dobishëm për etiketat e shtrembëruara. [2]

Vëzhgim i kurtheve: saktësia vetëm mund të jetë jashtëzakonisht mashtruese me çekuilibrim. Nëse 99% e përdoruesve janë legjitimë, një model budalla, gjithmonë legjitim, merr 99% rezultate dhe e zhgënjen ekipin tuaj të mashtrimit para drekës.

2) Regresioni

MAE për gabime të lexueshme nga njeriu; RMSE kur doni të ndëshkoni gabime të mëdha; R² për shpjegimin e variancës. Pastaj shpërndarjet e kontrollit të arsyeshmërisë dhe grafikët e mbetjeve. [2]
(Përdorni njësi miqësore me domenin në mënyrë që palët e interesuara ta ndiejnë gabimin.)

3) Renditja, gjetja, rekomandimet

nDCG - kujdeset për pozicionin dhe rëndësinë e graduar; standard për cilësinë e kërkimit.
MRR - përqendrohet në shpejtësinë me të cilën shfaqet artikulli i parë përkatës (shumë i mirë për detyrat "gjej një përgjigje të mirë").
(Referencat e zbatimit dhe shembujt e punuar janë në bibliotekat kryesore të metrikës.) [2]

4) Gjenerimi dhe përmbledhja e tekstit

BLEU dhe ROUGE - metrika klasike të mbivendosjes; të dobishme si vija bazë.
Metrikat e bazuara në integrim (p.sh., BERTScore) shpesh lidhen më mirë me gjykimin njerëzor; gjithmonë shoqërohen me vlerësimet njerëzore për stilin, besnikërinë dhe sigurinë. [4]

5) Përgjigje pyetjesh

Përputhja e saktë dhe niveli F1 i tokenit janë të zakonshme për QA-në nxjerrëse; nëse përgjigjet duhet të citojnë burime, matni edhe bazën (kontrollet e mbështetjes së përgjigjeve).

Kalibrim, besim dhe lentet Brier 🎚️

Rezultatet e besimit janë vendi ku shumë sisteme qëndrojnë në heshtje. Ju dëshironi probabilitete që pasqyrojnë realitetin në mënyrë që operatorët të mund të vendosin pragje, rrugë drejt njerëzve ose të vlerësojnë rrezikun.

Kurbat e kalibrimit - vizualizoni probabilitetin e parashikuar kundrejt frekuencës empirike.
Rezultati Brier - një rregull i duhur vlerësimi për saktësinë probabilistike; sa më i ulët aq më mirë. Është veçanërisht i dobishëm kur ju intereson cilësia e probabilitetit, jo vetëm renditja. [3]

Shënim nga terreni: një kalibrim F1 pak më i “keq”, por shumë më i mirë, mund shumë triazhin - sepse njerëzit më në fund mund t’u besojnë rezultateve.

Siguria, paragjykimi dhe drejtësia - matni atë që ka rëndësi 🛡️⚖️

Një sistem mund të jetë i saktë në përgjithësi dhe prapëseprapë të dëmtojë grupe specifike. Gjurmoni e grupuara dhe kriteret e drejtësisë:

Barazi demografike - norma pozitive të barabarta në të gjitha grupet.
Shanset e barazuara / Mundësi të barabarta - shkallë të barabarta gabimesh ose shkallë të vërteta pozitive në të gjitha grupet; përdoreni këto për të zbuluar dhe menaxhuar kompromiset, jo si pulla kalim-dështim të njëpasnjëshëm. [5]

Këshillë praktike: filloni me panele kontrolli që ndajnë metrikat kryesore sipas atributeve kryesore, pastaj shtoni metrika specifike të drejtësisë sipas kërkesave të politikave tuaja. Tingëllon e ndërlikuar, por është më e lirë se një incident.

LLM dhe RAG - një manual matjeje që funksionon vërtet 📚🔍

Matja e sistemeve gjeneruese është… e vështirë. Bëni këtë:

Përcaktoni rezultatet për çdo rast përdorimi: korrektësia, dobia, padëmshmëria, respektimi i stilit, toni i markës, mbështetja në citim, cilësia e refuzimit.
Automatizoni vlerësimet bazë me korniza të fuqishme (p.sh., mjete vlerësimi në grumbullin tuaj) dhe mbajini ato të versionuara me të dhënat tuaja.
Shtoni metrika semantike (të bazuara në integrim) plus metrika mbivendosëse (BLEU/ROUGE) për arsye mendore. [4]
Tokëzimi i instrumenteve në RAG: shkalla e goditjeve të rikthimit, saktësia/rikthimi i kontekstit, mbivendosja e përgjigjes-mbështetjes.
Rishikimi njerëzor me marrëveshje - matni qëndrueshmërinë e vlerësuesit (p.sh., κ e Cohen ose κ e Fleiss) në mënyrë që etiketat tuaja të mos jenë vibrante.

Bonus: regjistroni përqindjet e latencës dhe tokenin ose llogaritni koston për detyrë. Askush nuk e do një përgjigje poetike që mbërrin të martën e ardhshme.

Tabela krahasuese - mjete që ju ndihmojnë të matni performancën e IA-së 🛠️📊

(Po, është pak e rrëmujshme qëllimisht - notat e vërteta janë të rrëmujshme.)

Mjet	Publiku më i mirë	Çmimi	Pse funksionon - një përgjigje e shpejtë
metrika scikit-learn	Praktikuesit e ML	Falas	Implementime kanonike për klasifikim, regres, renditje; të lehta për t'u përfshirë në teste. [2]
Vlerësimi i rrjedhës së ML / GenAI	Shkencëtarë të të dhënave, MLOps	Falas + me pagesë	Vrapime të centralizuara, metrika të automatizuara, gjyqtarë LLM, shënues të personalizuar; regjistron artefaktet në mënyrë të pastër.
Me sa duket	Ekipet që duan panele të shpejta	OSS + cloud	Mbi 100 metrika, raporte drifti dhe cilësie, elementë monitorimi - pamje të këndshme në moment të shkurtër.
Peshat dhe Paragjykimet	Organizata të mbushura me eksperimente	Niveli i lirë	Krahasimet krah për krah, grupet e të dhënave të vlerësimit, gjyqtarët; tabelat dhe gjurmët janë pak a shumë të rregullta.
LangSmith	Ndërtuesit e aplikacioneve LLM	Paguar	Gjurmoni çdo hap, kombinoni rishikimin njerëzor me vlerësuesit e rregullave ose LLM; shkëlqyeshëm për RAG.
TruLens	Dashamirësit e vlerësimit LLM me burim të hapur	OSS	Funksionet e reagimit për të vlerësuar toksicitetin, bazën, rëndësinë; integrohen kudo.
Pritje të Mëdha	Organizatat që vënë në plan të parë cilësinë e të dhënave	OSS	Formalizoni pritjet mbi të dhënat - sepse të dhënat e këqija gjithsesi shkatërrojnë çdo metrikë.
Kontrolle të thella	Testimi dhe CI/CD për ML	OSS + cloud	Testimi i përfshirë i baterive për devijim të të dhënave, probleme me modelin dhe monitorim; parmakë të mirë mbrojtës.

Çmimet ndryshojnë - kontrolloni dokumentet. Dhe po, mund t'i përzieni këto pa u shfaqur policia e veglave.

Pragjet, kostot dhe kurbat e vendimmarrjes - sekreti 🧪

Një gjë e çuditshme, por e vërtetë: dy modele me të njëjtin ROC-AUC mund të kenë vlerë shumë të ndryshme biznesi në varësi të pragut dhe raporteve të kostos.

Fletë e shpejtë për të ndërtuar:

Vendosni koston e një pozitivi të rremë kundrejt një negativi të rremë në para ose kohë.
Përcaktoni pragjet dhe llogaritni koston e pritur për 1 mijë vendime.
Zgjidhni minimal të kostos së pritur , pastaj fiksojeni atë me monitorim.

Përdorni kurbat PR kur pozitivet janë të rralla, kurbat ROC për formën e përgjithshme dhe kurbat e kalibrimit kur vendimet mbështeten në probabilitete. [2][3]

Mini-rast: një model triazhimi me biletë mbështetjeje me F1 modest por kalibrim të shkëlqyer që ndërpreu ridrejtimet manuale pasi operacionet kaluan nga një prag i vështirë në një rrugëtim të shkallëzuar (p.sh., "zgjidhje automatike", "rishikim nga njeriu", "përshkallëzim") të lidhura me breza rezultatesh të kalibruar.

Monitorim, zhvendosje dhe njoftim online 🚨

Vlerësimet jashtë linje janë fillimi, jo fundi. Në prodhim:

Gjurmoni devijimin e të dhënave hyrëse, devijimin e të dhënave dalësedhe rënien e performancës sipas segmentit.
Vendos kontrollet e kangjellave - shkalla maksimale e halucinacioneve, pragjet e toksicitetit, deltat e drejtësisë.
Shtoni panele kontrolli canary për vonesën p95, afatet kohore dhe koston për kërkesë.
Përdorni biblioteka të ndërtuara posaçërisht për ta përshpejtuar këtë; ato ofrojnë zhvendosje, cilësi dhe primitivë monitorimi që në fillim.

Metaforë e vogël me të meta: mendojeni modelin tuaj si një brumë të përgatitur me maja të tharta - nuk e piqni vetëm një herë dhe largoheni; e ushqeni, e shikoni, e nuhatni dhe ndonjëherë e rifilloni.

Vlerësim njerëzor që nuk shkatërrohet 🍪

Kur njerëzit vlerësojnë rezultatet, procesi ka më shumë rëndësi nga sa mendoni.

Shkruani rubrika të sakta me shembuj të kalueshmërisë kundrejt asaj borderline kundrejt asaj që dështon.
Randomizoni dhe verbon mostrat kur të jetë e mundur.
Matni përputhjen midis vlerësuesve (p.sh., κ e Cohen për dy vlerësues, κ e Fleiss për shumë) dhe rifreskoni rubrikat nëse nuk ka përputhje.

Kjo i pengon etiketat tuaja njerëzore të ndryshojnë me humorin ose furnizimin me kafe.

Zhytje e thellë: si të matni performancën e IA-së për LLM-të në RAG 🧩

Cilësia e rikuperimit - recall@k, precision@k, nDCG; mbulimi i fakteve të arit. [2]
Besnikëria e përgjigjes - kontrolle citimi dhe verifikimi, rezultate të bazuara, hetime kundërshtare.
Kënaqësia e përdoruesit - vlerësime të shkëlqyera, përfundimi i detyrës, distanca e redaktimit nga draftet e sugjeruara.
Siguria - toksiciteti, rrjedhja e të dhënave personale, përputhshmëria me politikat.
Kostoja dhe vonesa - tokenët, goditjet në memorien e përkohshme, vonesat p95 dhe p99.

Lidhini këto me veprimet e biznesit: nëse ngurrimi bie nën një vijë, kaloni automatikisht në modalitetin strikt ose në shqyrtim njerëzor.

Një udhëzues i thjeshtë për të filluar sot 🪄

Përcaktoni punën - shkruani një fjali: çfarë duhet të bëjë IA dhe për kë.
Zgjidhni 2–3 metrika të detyrës - plus kalibrimin dhe të paktën një pjesë të drejtësisë. [2][3][5]
Vendosni pragjet duke përdorur koston - mos bëni hamendje.
Krijo një grup të vogël vlerësimi - 100–500 shembuj të etiketuar që pasqyrojnë përzierjen e prodhimit.
Automatizoni vlerësimet tuaja - transferoni vlerësimin/monitorimin në CI në mënyrë që çdo ndryshim të kryejë të njëjtat kontrolle.
Monitor në prodhim - devijim, latencë, kosto, flamuj incidentesh.
Rishikoni çdo muaj - hiqni metrikat që askush nuk i përdor; shtoni ato që u përgjigjen pyetjeve të vërteta.
Dokumentoni vendimet - një tabelë rezultatesh e gjallë që ekipi juaj e lexon në të vërtetë.

Po, kjo është fjalë për fjalë gjithçka. Dhe funksionon.

Gabime të zakonshme dhe si t'i shmangni ato 🕳️🐇

Mbipërshtatja në një metrikë të vetme - përdorni një shportë metrike që përputhet me kontekstin e vendimit. [1][2]
Injorimi i kalibrimit - besimi pa kalibrim është thjesht arrogancë. [3]
Pa segmentim - gjithmonë ndani sipas grupeve të përdoruesve, gjeografisë, pajisjes, gjuhës. [5]
Kosto të papërcaktuara - nëse nuk bëni gabime në çmime, do të zgjidhni pragun e gabuar.
Devijimi i vlerësimit njerëzor - matja e pajtueshmërisë, rifreskimi i rubrikave, rikualifikimi i recensentëve.
Pa instrumente sigurie - shtoni drejtësinë, toksicitetin dhe kontrollet e politikave tani, jo më vonë. [1][5]

Fraza për të cilën erdhe: si të matësh performancën e inteligjencës artificiale - "Shumë gjatë, nuk e lexova" 🧾

Filloni me rezultate të qarta, pastaj grumbulloni detyrat, sistemindhe e biznesit . [1]
Përdorni metrikat e duhura për punën - F1 dhe ROC-AUC për klasifikimin; nDCG/MRR për renditjen; mbivendosje + metrika semantike për gjenerimin (të çiftëzuara me njerëzit). [2][4]
Kalibroni probabilitetet tuaja dhe vlerësoni gabimet tuaja për të zgjedhur pragjet. [2][3]
Shtoni drejtësie me prerjet e grupit dhe menaxhoni në mënyrë të qartë kompromiset. [5]
Automatizoni vlerësimet dhe monitorimin në mënyrë që të mund të përsërisni pa frikë.

E di si është - mat atë që ka rëndësi, ose do të përfundosh duke përmirësuar atë që nuk ka.

Referencat

[1] NIST. Korniza e Menaxhimit të Riskut të IA-së (AI RMF). lexoni më shumë
[2] scikit-learn. Vlerësimi i modelit: përcaktimi sasior i cilësisë së parashikimeve (Udhëzuesi i Përdoruesit). lexoni më shumë
[3] scikit-learn. Kalibrimi i probabilitetit (kurbat e kalibrimit, rezultati Brier). lexoni më shumë
[4] Papineni et al. (2002). BLEU: një Metodë për Vlerësimin Automatik të Përkthimit Automatik. ACL. lexoni më shumë
[5] Hardt, Price, Srebro (2016). Barazia e Mundësive në Mësimin e Mbikëqyrur. NeurIPS. lexoni më shumë

Gjeni IA-në më të fundit në Dyqanin Zyrtar të Asistentëve të IA-së

Rreth Nesh

Kthehu te blogu