Çfarë është një set të dhënash i inteligjencës artificiale?

Nëse po ndërtoni, blini ose thjesht po vlerësoni sisteme të inteligjencës artificiale, do të hasni në një pyetje mashtruese të thjeshtë: çfarë është një grup të dhënash i inteligjencës artificiale dhe pse ka kaq shumë rëndësi? Version i shkurtër: është karburanti, libri i gatimit dhe ndonjëherë busulla për modelin tuaj.

Artikuj që mund t'ju pëlqejnë të lexoni pas këtij:

🔗 Si i parashikon inteligjenca artificiale trendet
Eksploron se si inteligjenca artificiale analizon modelet për të parashikuar ngjarje dhe sjellje të ardhshme.

🔗 Si të matni performancën e inteligjencës artificiale
Metrika dhe metoda për vlerësimin e saktësisë, efikasitetit dhe besueshmërisë së modelit.

🔗 Si të flasësh me IA-në
Udhëzime për krijimin e ndërveprimeve më të mira për të përmirësuar përgjigjet e gjeneruara nga inteligjenca artificiale.

🔗 Çfarë është nxitja e inteligjencës artificiale
Përmbledhje e mënyrës se si nxitjet formësojnë rezultatet e inteligjencës artificiale dhe cilësinë e përgjithshme të komunikimit.

Çfarë është një set të dhënash IA? Një përkufizim i shpejtë 🧩

Çfarë është një grup të dhënash i IA-së? Është një koleksion shembujsh nga të cilët modeli juaj mëson ose mbi të cilët vlerësohet. Çdo shembull ka:

Të dhënat hyrëse - veçoritë që sheh modeli, si fragmente teksti, imazhe, audio, rreshta tabelarë, lexime të sensorëve, grafikë.
Synimet - etiketat ose rezultatet që modeli duhet të parashikojë, si kategoritë, numrat, hapësirat e tekstit, veprimet ose ndonjëherë asgjë fare.
Metadata - kontekst si burimi, metoda e mbledhjes, vulat kohore, licencat, informacioni i pëlqimit dhe shënimet mbi cilësinë.

Mendojeni si një kuti dreke të paketuar me kujdes për modelin tuaj: përbërësit, etiketat, të dhënat ushqyese dhe po, shënimi ngjitës që thotë "mos e hani këtë pjesë". 🍱

Për detyrat e mbikëqyrura, do të shihni të dhëna hyrëse të çiftëzuara me etiketa të qarta. Për detyrat e pambikëqyrura, do të shihni të dhëna hyrëse pa etiketa. Për të mësuarit me përforcime, të dhënat shpesh duken si episode ose trajektore me gjendje, veprime, shpërblime. Për punën multimodale, shembujt mund të kombinojnë tekst + imazh + audio në një regjistrim të vetëm. Tingëllon e zbukuruar; është kryesisht një proces hidraulik.

Udhëzime dhe praktika të dobishme: ideja e Fletëve të të Dhënave për Setet e të Dhënave i ndihmon ekipet të shpjegojnë se çfarë ka brenda dhe si duhet të përdoret [1], dhe Kartat Model plotësojnë dokumentacionin e të dhënave në anën e modelit [2].

Seti i të dhënave të inteligjencës artificiale

Çfarë e bën një set të dhënash të mirë të inteligjencës artificiale ✅

Le të jemi të sinqertë, shumë modele kanë sukses sepse të dhënat nuk ishin të tmerrshme. Një të dhënash “e mirë” është:

Përfaqësues i rasteve të përdorimit real, jo vetëm i kushteve laboratorike.
Etiketuar me saktësi, me udhëzime të qarta dhe gjykim periodik. Metrikat e marrëveshjes (p.sh., masat në stilin kappa) ndihmojnë në kontrollin e qëndrueshmërisë.
i plotë dhe i ekuilibruar për të shmangur dështimin e heshtur në bishta të gjatë. Çekuilibri është normal; neglizhenca jo.
Me origjinë të qartë, me pëlqim, licencë dhe leje të dokumentuara. Dokumentacioni i mërzitshëm parandalon paditë emocionuese.
Dokumentuar mirë duke përdorur karta të dhënash ose fletë të dhënash që përcaktojnë përdorimin e synuar, kufizimet dhe mënyrat e njohura të dështimit [1]
I rregulluar me versionimin, regjistrat e ndryshimeve dhe miratimet. Nëse nuk mund ta riprodhoni të dhënat, nuk mund ta riprodhoni as modelin. Udhëzimet nga Korniza e Menaxhimit të Riskut të IA-së e NIST-it e trajtojnë cilësinë dhe dokumentacionin e të dhënave si shqetësime të klasit të parë [3].

Llojet e të dhënave të inteligjencës artificiale, sipas asaj që po bëni 🧰

Sipas detyrës

Klasifikimi - p.sh., spam vs jo-spam, kategoritë e imazheve.
Regresioni - parashikoni një vlerë të vazhdueshme si çmimi ose temperatura.
Etiketimi i sekuencave - entitete të emërtuara, pjesë të ligjëratës.
Gjenerimi - përmbledhje, përkthim, mbishkrim i imazheve.
Rekomandim - përdorues, artikull, ndërveprime, kontekst.
Zbulimi i anomalive - ngjarje të rralla në seri kohore ose regjistra.
Mësimi përforcues - gjendja, veprimi, shpërblimi, sekuencat e gjendjes tjetër.
Rikthim - dokumente, pyetje, gjykime mbi rëndësinë.

Sipas modalitetit

Tabelare - kolona si mosha, të ardhurat, largimi i klientëve. Nënvlerësuar, brutalisht efektiv.
Tekst - dokumente, biseda, kod, postime në forum, përshkrime produktesh.
Imazhe - foto, skanime mjekësore, pllaka satelitore; me ose pa maska, kuti, pika kyçe.
Audio - forma valore, transkripte, etiketa të folësit.
Video - korniza, shënime kohore, etiketa veprimesh.
Grafët - nyjet, skajet, atributet.
Seri kohore - sensorë, financa, telemetri.

Nga mbikëqyrja

Etiketuar (ari, argjendi, me etiketë automatike), etiketuar dobët, pa etiketë, sintetike. Përzierja për tortë e blerë në dyqan mund të jetë e mirë - nëse e lexoni kutinë.

Brenda kutisë: struktura, ndarjet dhe meta të dhënat 📦

Një grup i të dhënave të fuqishme zakonisht përfshin:

Skema - fushat e tipizuara, njësitë, vlerat e lejuara, trajtimi i null-eve.
Ndarje - trajnim, validim, testim. Mbajini të dhënat e testimit të mbyllura - trajtojini si copën e fundit të çokollatës.
Plani i marrjes së mostrave - si nxorët shembuj nga popullata; shmangni mostrat e përshtatshme nga një rajon ose pajisje e vetme.
Shtesa - përmbysje, prerje, zhurmë, parafrazime, maska. Të mira kur janë të ndershme; të dëmshme kur shpikin modele që nuk ndodhin kurrë në natyrë.
Versionimi - dataset v0.1, v0.2… me regjistra ndryshimesh që përshkruajnë deltat.
Licencat dhe pëlqimi - të drejtat e përdorimit, rishpërndarja dhe rrjedhat e fshirjes. Rregullatorët kombëtarë të mbrojtjes së të dhënave (p.sh., ICO e Mbretërisë së Bashkuar) ofrojnë lista kontrolli praktike dhe të ligjshme për përpunimin [4].

Cikli jetësor i të dhënave, hap pas hapi 🔁

Përcaktoni vendimin - çfarë do të vendosë modeli dhe çfarë ndodh nëse është i gabuar.
Karakteristikat dhe etiketat e fushëveprimit - të matshme, të vëzhgueshme, etike për t'u mbledhur.
Të dhënat burimore - instrumente, regjistra, anketa, korpuse publike, partnerë.
Pëlqimi dhe të dhënat ligjore - njoftimet e privatësisë, çregjistrimet, minimizimi i të dhënave. Shihni udhëzimet e rregullatorit për "pse-në" dhe "si-në" [4].
Mbledh dhe ruaj - ruajtje e sigurt, akses i bazuar në role, trajtim i të dhënave personale.
Etiketë - shënues të brendshëm, crowdsourcing, ekspertë; menaxhoni cilësinë me detyra të arta, auditime dhe metrika marrëveshjesh.
Pastroni dhe normalizoni - hiqni kopjet e dyfishta, trajtoni mangësitë, standardizoni njësitë, rregulloni kodimin. Punë e mërzitshme dhe heroike.
Ndani dhe validoni - parandaloni rrjedhjet; stratifikoni aty ku është e nevojshme; preferoni ndarjet e ndërgjegjshme për kohën për të dhënat kohore; dhe përdorni validimin e kryqëzuar me kujdes për vlerësime të qëndrueshme [5].
Dokument - fletë të dhënash ose kartë të dhënash; përdorimi i synuar, paralajmërimet, kufizimet [1].
Monitorimi dhe përditësimi - zbulimi i devijimit, kadenca e rifreskimit, planet e ndërprerjes. RMF i IA-së i NIST-it e kornizon këtë lak të vazhdueshëm qeverisjeje [3].

Këshillë e shpejtë, e bazuar në botën reale: ekipet shpesh “fitojnë demonstrimin”, por ngecin në prodhim sepse të dhënat e tyre ndryshojnë ngadalë - linja të reja produktesh, një fushë e riemëruar ose një politikë e ndryshuar. Një regjistër i thjeshtë ndryshimesh + kalim periodik i ri-shënimeve shmang pjesën më të madhe të kësaj dhimbjeje.

Cilësia dhe vlerësimi i të dhënave - jo aq e mërzitshme sa duket 🧪

Cilësia është shumëdimensionale:

Saktësia - a janë etiketat të sakta? Përdorni metrika të marrëveshjes dhe gjykime periodike.
Plotësia - mbuloni fushat dhe klasat që ju nevojiten vërtet.
Konsistenca - shmangni etiketat kontradiktore për të dhëna të ngjashme.
Kohëzgjatja - të dhënat e vjetruara i fosilizojnë supozimet.
Drejtësi dhe paragjykim - mbulim në të gjitha demografitë, gjuhët, pajisjet, mjediset; filloni me auditime përshkruese, pastaj testet e stresit. Praktikat që vënë në plan të parë dokumentacionin (fletat e të dhënave, kartat model) i bëjnë këto kontrolle të dukshme [1], dhe kornizat e qeverisjes i theksojnë ato si kontrolle të riskut [3].

Për vlerësimin e modelit, përdorni ndarje të duhura dhe gjurmoni si metrikat mesatare ashtu edhe metrikat e grupit më të keq. Një mesatare e shkëlqyer mund të fshehë një krater. Bazat e validimit të kryqëzuar janë të mbuluara mirë në dokumentet standarde të mjeteve ML [5].

Etika, privatësia dhe licencimi - parmakët mbrojtës 🛡️

Të dhënat etike nuk janë një atmosferë, janë një proces:

Pëlqimi dhe kufizimi i qëllimit - jini të qartë në lidhje me përdorimet dhe bazat ligjore [4].
Trajtimi i të dhënave personale personale - minimizoni, pseudonimizoni ose anonimizoni sipas rastit; merrni në konsideratë teknologjinë që rrit privatësinë kur rreziqet janë të larta.
Atribuimi dhe licencat - respektoni kufizimet për ndarje të ngjashme dhe përdorim komercial.
Paragjykim dhe dëm - kontroll për korrelacione të rreme ("drita e ditës = siguri" do të jetë shumë e ngatërruar natën).
Korrigjim - mësoni si të hiqni të dhënat sipas kërkesës dhe si të riktheni modelet e trajnuara mbi to (dokumentoni këtë në fletën tuaj të të dhënave) [1].

Sa i madh është mjaftueshëm i madh? Përmasat dhe raporti sinjal-zhurmë 📏

Rregull praktik: më shumë shembuj zakonisht ndihmojnë nëse janë relevantë dhe jo pothuajse të dyfishtë. Por ndonjëherë është më mirë të kesh më pak shembuj, më të pastër dhe me etiketa më të mira sesa një mori shembujsh të çrregullt.

Kujdes për:

Kurbat e të mësuarit - paraqitni grafikisht performancën kundrejt madhësisë së mostrës për të parë nëse jeni i kufizuar nga të dhënat apo nga modeli.
Mbulim me bisht të gjatë - klasat e rralla, por kritike, shpesh kanë nevojë për mbledhje të synuar, jo vetëm për më shumë sasi.
Etiketo zhurmën - mat, pastaj zvogëloje; pak është e tolerueshme, një valë baticash jo.
Zhvendosja e shpërndarjes - të dhënat e trajnimit nga një rajon ose kanal mund të mos përgjithësohen në një tjetër; validojeni në të dhënat e testimit të ngjashme me objektivin [5].

Kur keni dyshime, përdorni programe të vogla pilot dhe zgjerojini. Është si të shtoni erëza - shtoni, shijoni, rregulloni, përsëriteni.

Ku të gjeni dhe menaxhoni grupe të dhënash 🗂️

Burime dhe mjete të njohura (nuk ka nevojë të mësoni përmendësh URL-të tani):

Sete të të dhënave të fytyrës përqafuese - ngarkim, përpunim, ndarje programatike.
Kërkimi i të Dhënave Google - meta-kërkim në të gjithë uebin.
Depozita UCI ML - klasike të kuruara për linjat bazë dhe mësimdhënien.
OpenML - detyra + grupe të dhënash + ekzekutime me origjinë.
AWS Open Data / Google Cloud Public Datasets - korpuse të hostuara, në shkallë të gjerë.

Këshillë profesionale: mos e shkarkoni thjesht. Lexoni licencën dhe fletën e të dhënave, pastaj dokumentoni kopjen tuaj me numrat e versionit dhe origjinën [1].

Etiketimi dhe shënimi - ku e vërteta negociohet ✍️

Shënimi është vendi ku udhëzuesi juaj teorik i etiketave përballet me realitetin:

Dizajni i detyrës - shkruani udhëzime të qarta me shembuj dhe kundërshembuj.
Trajnimi i shënuesve - mbillni përgjigje me ngjyrë ari, kryeni raunde kalibrimi.
Kontrolli i cilësisë - përdorni metrika marrëveshjeje, mekanizma konsensusi dhe auditime periodike.
Mjete - zgjidhni mjete që zbatojnë validimin e skemës dhe radhët e shqyrtimit; edhe spreadsheet-et mund të funksionojnë me rregulla dhe kontrolle.
Cikle reagimesh - kapni shënimet e shënuesve dhe modeloni gabimet për të përsosur udhëzuesin.

Nëse të duket sikur po redakton një fjalor me tre shokë që nuk pajtohen për presjet… kjo është normale. 🙃

Dokumentimi i të dhënave - duke e bërë njohurinë implicite të qartë 📒

Një fletë të dhënash ose kartë të dhënash duhet të mbulojë:

Kush e mblodhi, si dhe pse.
Përdorimet e synuara dhe përdorimet jashtë fushëveprimit.
Boshllëqe, paragjykime dhe mënyra dështimi të njohura.
Etiketimi i protokollit, hapat e kontrollit të cilësisë dhe statistikat e marrëveshjes.
Licencë, pëlqim, kontakt për probleme, proces heqjeje.

Shabllone dhe shembuj: Fletët e të dhënave për grupet e të dhënave dhe kartat e modelit janë pika fillestare të përdorura gjerësisht [1].

Shkruaje ndërsa ndërton, jo pas tij. Kujtesa është një medium ruajtjeje i paqëndrueshëm.

Tabela Krahasuese - vende për të gjetur ose pritur grupe të dhënash të IA-së 📊

Po, kjo është paksa e bazuar në opinione. Dhe formulimi është paksa i pabarabartë me qëllim. Është në rregull.

Mjet / Depo	Audienca	Çmimi	Pse funksionon në praktikë
Sete të dhënash për fytyrat përqafuese	Studiues, inxhinierë	Niveli i lirë	Ngarkim i shpejtë, transmetim, skripte komuniteti; dokumente të shkëlqyera; grupe të dhënash të versionuara
Kërkimi i të dhënave në Google	Të gjithë	Falas	Sipërfaqe e gjerë; e shkëlqyer për zbulim; meta të dhëna ndonjëherë jokonsistente megjithatë
Depozita e UCI ML	Studentë, edukatorë	Falas	Klasike të kuruara; të vogla por të rregullta; të mira për linjat bazë dhe mësimdhënien
OpenML	Studiues të riprodhimit	Falas	Detyra + grupe të dhënash + ekzekutime së bashku; gjurmë të bukura të origjinës
Regjistri i të Dhënave të Hapura të AWS	Inxhinierë të të dhënave	Kryesisht falas	Hosting në shkallë petabajtësh; qasje në cloud-native; kostot e daljes nga ora
Setet e të dhënave Kaggle	Praktikuesit	Falas	Ndarje e lehtë, skripte, konkurse; sinjalet e komunitetit ndihmojnë në filtrimin e zhurmës
Setet e të dhënave publike të Google Cloud	Analistët, ekipet	Falas + cloud	I strehuar pranë llogaritjes; Integrim me BigQuery; kujdes me faturimin
Portale akademike, laboratorë	Ekspertë të specializuar	Ndryshon	Shumë i specializuar; ndonjëherë i padokumentuar - prapëseprapë ia vlen kërkimi

(Nëse një qelizë duket sikur flet shumë, kjo është e qëllimshme.)

Ndërtimi i të parit tuaj - një komplet praktik fillestar 🛠️

Dëshironi të kaloni nga "çfarë është një grup të dhënash i IA-së" në "Unë bëra një, funksionon". Provoni këtë rrugë minimale:

Shkruani vendimin dhe metrikën - p.sh., zvogëloni rrugët e gabuara të mbështetjes hyrëse duke parashikuar ekipin e duhur. Metrika: makro-F1.
Listoni 5 shembuj pozitivë dhe 5 negativë - merrni shembuj biletash të vërteta; mos i sajoni.
Hartoni një udhëzues për etiketën - një faqe; rregulla të qarta përfshirjeje/përjashtimi.
Mblidhni një mostër të vogël, të vërtetë - disa qindra bileta në të gjitha kategoritë; hiqni të dhënat personale personale që nuk ju nevojiten.
Ndarje me kontrolle rrjedhjesh - mbajini të gjitha mesazhet nga i njëjti klient në një ndarje; përdorni validimin e kryqëzuar për të vlerësuar ndryshimin [5].
Shënoni me QA - dy shënues në një nëngrup; zgjidhni mosmarrëveshjet; përditësoni udhëzuesin.
Trajnoni një linjë bazë të thjeshtë - logjistika së pari (p.sh., modele lineare ose transformatorë kompaktë). Qëllimi është të testohen të dhënat, jo të fitohen medalje.
Rishikoni gabimet - ku dështon dhe pse; përditësoni të dhënat, jo vetëm modelin.
Dokument - fletë e vogël të dhënash: burimi, lidhja e udhëzuesit të etiketës, ndarjet, kufijtë e njohur, licenca [1].
Planifikoni rifreskimin - mbërrijnë kategori të reja, zhargon i ri, domene të reja; planifikoni përditësime të vogla dhe të shpeshta [3].

Do të mësosh më shumë nga kjo cikël sesa nga një mijë prova të shpejta. Gjithashtu, mbaj kopje rezervë. Të lutem.

Gracka të zakonshme që u dalin tinëz ekipeve 🪤

Rrjedhje të dhënash - përgjigjja futet në veçori (p.sh., përdorimi i fushave pas zgjidhjes për të parashikuar rezultatet). Ndihet si mashtrim sepse është.
Diversitet i cekët - një gjeografi ose pajisje maskohet si globale. Testet do të zbulojnë kthesën e komplotit.
Zhvendosja e etiketës - kriteret ndryshojnë me kalimin e kohës, por udhëzuesi i etiketës jo. Dokumentoni dhe versiononi ontologjinë tuaj.
Objektiva të paspecifikuara - nëse nuk mund të përcaktoni një parashikim të keq, as të dhënat tuaja nuk do ta bëjnë këtë.
Licenca të çrregullta - fshirja tani, kërkimfalja më vonë, nuk është një strategji.
Mbi-shtimi - të dhëna sintetike që mësojnë artefakte joreale, si trajnimi i një kuzhinieri me fruta plastike.

Pyetje të shpeshta rreth vetë frazës ❓

A është pyetja “Çfarë është një grup të dhënash i inteligjencës artificiale?” thjesht një çështje përkufizimi? Kryesisht, por është gjithashtu një sinjal se ju interesojnë pjesët e mërzitshme që i bëjnë modelet të besueshme.
A më duhen gjithmonë etiketa? Jo. Konfigurimet e pambikëqyrura, të vetëmbikëqyrura dhe të RL shpesh i anashkalojnë etiketat e qarta, por kujdesi ndaj tyre ka ende rëndësi.
A mund të përdor të dhëna publike për çdo gjë? Jo. Respektoni licencat, kushtet e platformës dhe detyrimet e privatësisë [4].
Më i madh apo më i mirë? Të dyja, idealisht. Nëse duhet të zgjedhësh, zgjidh më të mirën së pari.

Vërejtje përfundimtare - Çfarë mund të bëni me fotografi të ekranit 📌

Nëse dikush ju pyet se çfarë është një grup të dhënash i inteligjencës artificiale, përgjigjuni: është një koleksion i kuruar dhe i dokumentuar shembujsh që mësojnë dhe testojnë një model, të mbështjellë me qeverisje në mënyrë që njerëzit të mund t'u besojnë rezultateve. Grupet më të mira të të dhënave janë përfaqësuese, të etiketuara mirë, të pastra ligjërisht dhe të mirëmbajtura vazhdimisht. Pjesa tjetër janë detaje - detaje të rëndësishme - rreth strukturës, ndarjeve dhe të gjitha atyre parmakëve të vegjël që i pengojnë modelet të enden në trafik. Ndonjëherë procesi ndihet si kopshtari me spreadsheet-e; ndonjëherë si grumbullim pikselësh. Sidoqoftë, investoni në të dhëna dhe modelet tuaja do të sillen më pak çuditshëm. 🌱🤖

Referencat

[1] Fletë të dhënash për grupet e të dhënave - Gebru et al., arXiv. Lidhje
[2] Kartela modeli për raportimin e modelit - Mitchell et al., arXiv. Lidhje
[3] Korniza e Menaxhimit të Riskut të Inteligjencës Artificiale NIST (AI RMF 1.0). Lidhje
[4] Udhëzime dhe burime të GDPR-së në Mbretërinë e Bashkuar - Zyra e Komisionerit të Informacionit (ICO). Lidhje
[5] Validimi i kryqëzuar: vlerësimi i performancës së vlerësuesit - Udhëzuesi i përdoruesit të scikit-learn. Lidhje

Gjeni IA-në më të fundit në Dyqanin Zyrtar të Asistentëve të IA-së

Rreth Nesh

Kthehu te blogu