Përgjigje e shkurtër: Modelet e fondacionit janë modele të mëdha të inteligjencës artificiale për qëllime të përgjithshme, të trajnuara në grupe të dhënash të gjera dhe të gjera, të cilat më pas përshtaten për shumë punë (shkrimi, kërkimi, kodimi, imazhet) përmes nxitjes, rregullimit të imët, mjeteve ose rikuperimit. Nëse keni nevojë për përgjigje të besueshme, kombinojini ato me bazë (si RAG), kufizime të qarta dhe kontrolle, në vend që t'i lini të improvizojnë.
Përmbledhjet kryesore:
Përkufizim : Një model bazë i trajnuar gjerësisht i ripërdorur në shumë detyra, jo një detyrë për model.
Përshtatja : Përdorni nxitje, rregullime të hollësishme, LoRA/përshtatës, RAG dhe mjete për të drejtuar sjelljen.
Përshtatja gjeneruese : Ato fuqizojnë gjenerimin e tekstit, imazhit, audios, kodit dhe përmbajtjes multimodale.
Sinjalet e cilësisë : Jepini përparësi kontrollueshmërisë, më pak halucinacioneve, aftësisë multimodale dhe nxjerrjes efikase të përfundimeve.
Kontrollet e rrezikut : Planifikoni halucinacionet, paragjykimet, rrjedhjet e privatësisë dhe injektoni menjëherë përmes qeverisjes dhe testimit.

Artikuj që mund t'ju pëlqejnë të lexoni pas këtij:
🔗 Çfarë është një kompani e inteligjencës artificiale
Kuptoni se si firmat e inteligjencës artificiale ndërtojnë produkte, ekipe dhe modele të ardhurash.
🔗 Si duket kodi i inteligjencës artificiale
Shihni shembuj të kodit të IA-së, nga modelet Python te API-të.
🔗 Çfarë është një algoritëm i inteligjencës artificiale
Mësoni se çfarë janë algoritmet e inteligjencës artificiale dhe si marrin vendime.
🔗 Çfarë është teknologjia e inteligjencës artificiale
Eksploroni teknologjitë kryesore të inteligjencës artificiale që fuqizojnë automatizimin, analizën dhe aplikacionet inteligjente.
1) Modelet e themeleve - një përkufizim pa mjegull 🧠
Një model themelor është një model i madh i inteligjencës artificiale me qëllim të përgjithshëm, i trajnuar mbi të dhëna të gjera (zakonisht shumë të tilla), kështu që mund të përshtatet për shumë detyra, jo vetëm për një ( NIST , Stanford CRFM ).
Në vend që të ndërtohet një model i veçantë për:
-
shkrimi i email-eve
-
duke iu përgjigjur pyetjeve
-
përmbledhja e PDF-ve
-
gjenerimi i imazheve
-
klasifikimi i biletave të mbështetjes
-
gjuhët e përkthimit
-
duke bërë sugjerime për kodin
...ju stërvitni një model të madh bazë që "e mëson botën" në një mënyrë statistikore të paqartë, pastaj e përshtatni atë në punë specifike me udhëzime, rregullime të hollësishme ose mjete shtesë ( Bommasani et al., 2021 ).
Me fjalë të tjera: është një motor i përgjithshëm që mund ta drejtoni.
Dhe po, fjala kyçe është "e përgjithshme". Ky është i gjithë truku.
2) Cilat janë Modelet Themelore në IA Gjenerative? (Si përshtaten ato konkretisht) 🎨📝
Pra, cilat janë Modelet Themelore në IA Gjenerative? Ato janë modelet themelore që fuqizojnë sistemet të cilat mund të gjenerojnë përmbajtje të re - tekst, imazhe, audio, kod, video dhe gjithnjë e më shumë… përzierje të të gjitha këtyre ( NIST , Profili i IA Gjenerative NIST ).
IA gjeneruese nuk ka të bëjë vetëm me parashikimin e etiketave si "spam / jo spam". Ka të bëjë me prodhimin e rezultateve që duken sikur janë krijuar nga një person.
-
paragrafë
-
poezi
-
përshkrimet e produkteve
-
ilustrime
-
meloditë
-
prototipet e aplikacioneve
-
zëra sintetikë
-
dhe ndonjëherë marrëzi të pabesueshme 🙃
Modelet e fondacionit janë veçanërisht të mira këtu sepse:
-
Ata kanë përthithur modele të gjera nga grupe të mëdha të dhënash ( Bommasani et al., 2021 )
-
Ato mund të përgjithësohen në pyetje të reja (madje edhe të çuditshme) ( Brown et al., 2020 )
-
Ato mund të ripërdoren për dhjetëra rezultate pa u ritrajnuar nga e para ( Bommasani et al., 2021 )
Ato janë "shtresa bazë" - si brumi i bukës. Mund t’i piqni në formë bagete, pice ose role kanelle… jo një metaforë e përsosur, por më kuptoni 😄
3) Pse ndryshuan gjithçka (dhe pse njerëzit nuk ndalen së foluri për ta) 🚀
Përpara modeleve themelore, shumë nga inteligjenca artificiale ishin specifike për detyrat:
-
trajnoni një model për analizën e ndjenjës
-
trajnoni një tjetër për përkthim
-
trajnoni një tjetër për klasifikimin e imazheve
-
trajnoni një tjetër për njohjen e entitetit të emëruar
Kjo funksionoi, por ishte e ngadaltë, e kushtueshme dhe disi… e brishtë.
Modelet e fondacionit e përmbysën atë:
-
para-stërvit një herë (përpjekje e madhe)
-
ripërdorim kudo (fitim i madh) ( Bommasani et al., 2021 )
Ky ripërdorim është shumëzuesi. Kompanitë mund të ndërtojnë 20 karakteristika mbi një familje modelesh, në vend që ta shpikin rrotën 20 herë.
Gjithashtu, përvoja e përdoruesit u bë më e natyrshme:
-
ju nuk "përdorni një klasifikues"
-
I flet modeles sikur të ishte një kolege e dobishme që nuk fle kurrë ☕🤝
Ndonjëherë është gjithashtu si një koleg pune që me besim keqkupton gjithçka, por hej. Rritje.
4) Ideja kryesore: para-trajnim + adaptim 🧩
Pothuajse të gjitha modelet e fondacionit ndjekin një model ( Stanford CRFM , NIST ):
Para-trajnim (faza e "thithjes së internetit") 📚
Modeli trajnohet në grupe të dhënash masive dhe të gjera duke përdorur të mësuarit e vetë-mbikëqyrur ( NIST ). Për modelet gjuhësore, kjo zakonisht do të thotë parashikimi i fjalëve që mungojnë ose i tokenit tjetër ( Devlin et al., 2018 , Brown et al., 2020 ).
Qëllimi nuk është t'i mësojmë një detyrë të vetme. Qëllimi është t'i mësojmë përfaqësime të përgjithshme :
-
gramatikë
-
fakte (një lloj)
-
modele arsyetimi (ndonjëherë)
-
stilet e shkrimit
-
strukturë kodi
-
qëllim i përbashkët njerëzor
Përshtatja (faza "e bëje praktike") 🛠️
Pastaj e përshtatni duke përdorur një ose më shumë nga:
-
nxitje (udhëzime në gjuhë të thjeshtë)
-
akordimi i udhëzimeve (trajnimi i tij për të ndjekur udhëzimet) ( Wei et al., 2021 )
-
rregullim i imët (trajnim mbi të dhënat e domenit tuaj)
-
LoRA / adaptorë (metoda të lehta akordimi) ( Hu et al., 2021 )
-
RAG (gjenerimi i shtuar i rikuperimit - modeli konsultohet me dokumentet tuaja) ( Lewis et al., 2020 )
-
përdorimi i mjeteve (thirrja e funksioneve, shfletimi i sistemeve të brendshme, etj.)
Kjo është arsyeja pse i njëjti model bazë mund të shkruajë një skenë romantike… pastaj të ndihmojë në debugimin e një pyetjeje SQL pesë sekonda më vonë 😭
5) Çfarë e bën një version të mirë të një modeli themeli? ✅
Kjo është pjesa që njerëzit e kalojnë dhe më vonë pendohen.
Një model “i mirë” për themel nuk është thjesht “më i madh”. Sigurisht, më i madhi ndihmon… por nuk është e vetmja gjë. Një version i mirë i një modeli themeli zakonisht ka:
Përgjithësim i fortë 🧠
Kryen mirë shumë detyra pa pasur nevojë për ritrajnim specifik për detyrën ( Bommasani et al., 2021 ).
Drejtim dhe kontrollueshmëri 🎛️
Mund të ndjekë me siguri udhëzime si:
-
"ji konciz"
-
"përdorni pika"
-
"Shkruani me një ton miqësor"
-
"Mos zbuloni informacione konfidenciale"
Disa modele janë elegante, por të rrëshqitshme. Si të përpiqesh të mbash një copë sapuni në dush. I dobishëm, por i çrregullt 😅
Tendencë e ulët për halucinacione (ose të paktën pasiguri e sinqertë) 🧯
Asnjë model nuk është imun ndaj halucinacioneve, por ato të mirat:
-
halucinoj më pak
-
pranoni pasigurinë më shpesh
-
Qëndroni më afër kontekstit të dhënë kur përdorni rikthimin ( Ji et al., 2023 , Lewis et al., 2020 )
Aftësi të mira multimodale (kur është e nevojshme) 🖼️🎧
Nëse po ndërtoni asistentë që lexojnë imazhe, interpretojnë grafikë ose kuptojnë audion, multimodaliteti ka shumë rëndësi ( Radford et al., 2021 ).
Përfundim efikas ⚡
Vonesa dhe kostoja kanë rëndësi. Një model i fortë, por i ngadaltë, është si një makinë sportive me gomë të shpuar.
Siguria dhe sjellja e duhur 🧩
Jo vetëm "të refuzosh gjithçka", por:
-
shmangni udhëzimet e dëmshme
-
zvogëloni paragjykimin
-
trajtoni temat e ndjeshme me kujdes
-
rezistoni ndaj përpjekjeve themelore të jailbreak (disi…) ( NIST AI RMF 1.0 , Profili i AI-së Gjeneruese NIST )
Dokumentacion + ekosistem 🌱
Kjo tingëllon e thatë, por është e vërtetë:
-
vegla
-
parzmore vlerësimi
-
opsionet e vendosjes
-
kontrollet e ndërmarrjes
-
mbështetje për rregullim të imët
Po, "ekosistem" është një fjalë e paqartë. Edhe unë e urrej. Por ka rëndësi.
6) Tabela Krahasuese - opsionet e zakonshme të modelit të themeleve (dhe për çfarë janë të mira) 🧾
Më poshtë është një tabelë krahasimi praktike, paksa e papërsosur. Nuk është "lista e vetme e vërtetë", është më shumë si: ajo që njerëzit zgjedhin në mënyrë të egër.
| lloji i mjetit / modelit | audiencë | çmim i lartë | pse funksionon |
|---|---|---|---|
| LLM i Pronësuar (stili i bisedës) | ekipet që duan shpejtësi + përsosje | bazuar në përdorim / abonim | Ndjekje e shkëlqyer e udhëzimeve, performancë e përgjithshme e fortë, zakonisht më mirë "pasi e nxor nga kutia" 😌 |
| LLM me peshë të hapur (i vetë-strehueshëm) | ndërtuesit që duan kontroll | kostoja e infrastrukturës (dhe dhimbjet e kokës) | I personalizueshëm, miqësor ndaj privatësisë, mund të funksionojë lokalisht… nëse ju pëlqen të eksperimentoni në mesnatë |
| Gjenerator imazhi difuzioni | krijues, ekipe dizajni | nga pak falas në pak me pagesë | Sintezë e shkëlqyer imazhesh, larmi stilesh, rrjedha pune përsëritëse (gjithashtu: gishtat mund të jenë jashtë funksionit) ✋😬 ( Ho et al., 2020 , Rombach et al., 2021 ) |
| Modeli multimodal i "gjuhës së vizionit" | aplikacione që lexojnë imazhe + tekst | bazuar në përdorim | Ju lejon të bëni pyetje në lidhje me imazhe, pamje të ekranit, diagrame - çuditërisht i dobishëm ( Radford et al., 2021 ) |
| Modeli i themelit të ngulitur | kërkim + sisteme RAG | kosto e ulët për thirrje | Shndërron tekstin në vektorë për kërkim semantik, grupim, rekomandim - energji e qetë MVP ( Karpukhin et al., 2020 , Douze et al., 2024 ) |
| Modeli bazë i konvertimit të të folurit në tekst | qendrat e thirrjeve, krijuesit | bazuar në përdorim / lokal | Transkriptim i shpejtë, mbështetje shumëgjuhëshe, mjaftueshëm i mirë për audio me zhurmë (zakonisht) 🎙️ ( Whisper ) |
| Modeli bazë i konvertimit të tekstit në të folur | ekipet e produkteve, media | bazuar në përdorim | Gjenerimi natyror i zërit, stilet e zërit, narracioni - mund të bëhen të frikshme ( Shen et al., 2017 ) |
| LLM i fokusuar në kod | zhvilluesit | bazuar në përdorim / abonim | Më i mirë në modelet e kodit, debugging, refaktorë… megjithatë, ende nuk është një lexues mendjeje 😅 |
Vini re se si "model themelor" nuk do të thotë vetëm "chatbot". Modelet e integruara dhe të të folurit mund të jenë gjithashtu të tipit themelor, sepse ato janë të gjera dhe të ripërdorshme në të gjitha detyrat ( Bommasani et al., 2021 , NIST ).
7) Vështrim më i afërt: si mësojnë modelet themelore të gjuhës (versioni vibe) 🧠🧃
Modelet themelore të gjuhës (shpesh të quajtura LLM) zakonisht trajnohen në koleksione të mëdha teksti. Ato mësojnë duke parashikuar token-e ( Brown et al., 2020 ). Kaq. Asnjë sekret i çuditshëm.
Por magjia qëndron në faktin se parashikimi i tokenëve e detyron modelin të mësojë strukturën ( CSET ):
-
gramatikë dhe sintaksë
-
marrëdhëniet tematike
-
modele të ngjashme me arsyetimin (ndonjëherë)
-
sekuencat e zakonshme të mendimit
-
si i shpjegojnë njerëzit gjërat, debatojnë, kërkojnë falje, negociojnë, mësojnë
Është si të mësosh të imitosh miliona biseda pa “kuptuar” mënyrën se si veprojnë njerëzit. Gjë që duket sikur nuk duhet të funksionojë… e megjithatë vazhdon të funksionojë.
Një ekzagjerim i lehtë: është në thelb si të ngjesh shkrimin njerëzor në një tru gjigant probabilistik.
Nga ana tjetër, kjo metaforë është pak e mallkuar. Por ne lëvizim 😄
8) Vështrim më i afërt: modelet e difuzionit (pse imazhet funksionojnë ndryshe) 🎨🌀
Modelet e themelimit të imazhit shpesh përdorin difuzioni ( Ho et al., 2020 , Rombach et al., 2021 ).
Ideja e përafërt:
-
shtoni zhurmë në imazhe derisa ato të bëhen praktikisht statike si ato të televizorit
-
stërvitni një model për ta përmbysur atë zhurmë hap pas hapi
-
në kohën e gjenerimit, filloni me zhurmë dhe “hiqni zhurmën” në një imazh të udhëhequr nga një nxitje ( Ho et al., 2020 )
Kjo është arsyeja pse gjenerimi i imazheve ndihet si "zhvillimi" i një fotoje, përveçse fotografia është një dragua që vesh atlete në korridorin e një supermarketi 🛒🐉
Modelet e difuzionit janë të mira sepse:
-
ato gjenerojnë pamje vizuale me cilësi të lartë
-
ato mund të udhëhiqen fuqishëm nga teksti
-
Ato mbështesin rafinimin iterativ (variacione, ngjyrosje të brendshme, përmirësim të shkallës) ( Rombach et al., 2021 )
Ata gjithashtu ndonjëherë përballen me:
-
renderimi i tekstit brenda imazheve
-
detaje të imëta anatomie
-
identitet i qëndrueshëm i personazheve në të gjitha skenat (po përmirësohet, por prapëseprapë)
9) Vështrim më i afërt: modele multimodale të themelimit (tekst + imazhe + audio) 👀🎧📝
Modelet multimodale të themelimit synojnë të kuptojnë dhe gjenerojnë lloje të shumta të të dhënave:
-
tekst
-
imazhe
-
audio
-
video
-
ndonjëherë hyrje të ngjashme me sensorët ( Profili i AI-së Gjeneruese NIST )
Pse kjo ka rëndësi në jetën reale:
-
mbështetja e klientit mund të interpretojë pamjet e ekranit
-
Mjetet e aksesueshmërisë mund të përshkruajnë imazhe
-
Aplikacionet edukative mund të shpjegojnë diagramet
-
Krijuesit mund të ripërziejnë formatet shpejt
-
Mjetet e biznesit mund të “lexojnë” një pamje të ekranit të panelit dhe ta përmbledhin atë
Nën kapuç, sistemet multimodale shpesh i harmonizojnë përfaqësimet:
-
shndërroni një imazh në ngulitje
-
shndërro tekstin në elemente të integruara
-
Mësoni një hapësirë të përbashkët ku fjala "mace" përputhet me pikselët e maces 😺 ( Radford et al., 2021 )
Nuk është gjithmonë elegante. Ndonjëherë qepet si jorgan. Por funksionon.
10) Rregullimi i imët kundrejt nxitjes kundrejt RAG (si e përshtatni modelin bazë) 🧰
Nëse po përpiqeni të bëni një model themeli praktik për një fushë specifike (ligjore, mjekësore, shërbim ndaj klientit, njohuri të brendshme), keni disa leva:
Nxitje 🗣️
Më e shpejta dhe më e thjeshta.
-
pro: zero trajnim, përsëritje e menjëhershme
-
kundra: mund të jetë i paqëndrueshëm, kufizon kontekstin, shkakton brishtësi
Rregullim i imët 🎯
Trajnoni më tej modelin mbi shembujt tuaj.
-
pro: sjellje më e qëndrueshme, gjuhë më e mirë e domenit, mund të zvogëlojë gjatësinë e kërkesës
-
kundra: kostoja, kërkesat për cilësinë e të dhënave, rreziku i mbipërshtatjes, mirëmbajtja
Akordim i lehtë (LoRA / adaptorë) 🧩
Një version më efikas i rregullimit të imët ( Hu et al., 2021 ).
-
pro: më e lirë, modulare, më e lehtë për t'u ndërruar
-
kundër: ende ka nevojë për trajnime dhe vlerësime
RAG (gjenerim i shtuar i rikuperimit) 🔎
Modeli merr dokumente relevante nga baza juaj e njohurive dhe përgjigjet duke i përdorur ato ( Lewis et al., 2020 ).
-
pro: njohuri të azhurnuara, citime të brendshme (nëse i zbatoni), më pak ritrajnim
-
kundra: cilësia e rikuperimit mund ta bëjë ose ta prishë atë, ka nevojë për ndarje të mirë në copa + ngulitje
Bisedë e vërtetë: shumë sisteme të suksesshme kombinojnë nxitjen + RAG. Rregullimi i imët është i fuqishëm, por jo gjithmonë i nevojshëm. Njerëzit ia kalojnë shumë shpejt sepse tingëllon mbresëlënëse 😅
11) Rreziqet, kufizimet dhe seksioni "ju lutem mos e përdorni këtë verbërisht" 🧯😬
Modelet e fondacionit janë të fuqishme, por nuk janë të qëndrueshme si softuerët tradicionalë. Ato janë më shumë si… një praktikant i talentuar me problem vetëbesimi.
Kufizimet kryesore për planifikim:
Halucinacione 🌀
Modelet mund të shpikin:
-
burime të rreme
-
fakte të pasakta
-
hapa të besueshëm, por të gabuar ( Ji et al., 2023 )
Zbutjet:
-
RAG me kontekst të bazuar ( Lewis et al., 2020 )
-
dalje të kufizuara (skema, thirrje mjetesh)
-
udhëzim i qartë "mos hamendëso"
-
shtresat e verifikimit (rregullat, verifikimet e kryqëzuara, rishikimi njerëzor)
Paragjykime dhe modele të dëmshme ⚠️
Meqenëse të dhënat e trajnimit pasqyrojnë njerëzit, mund të merrni:
-
stereotipet
-
performancë e pabarabartë midis grupeve
-
përfundime të pasigurta ( NIST AI RMF 1.0 , Bommasani et al., 2021 )
Zbutjet:
-
akordimi i sigurisë
-
ekip i kuq
-
filtra përmbajtjeje
-
kufizime të kujdesshme të domenit ( Profili i AI-së Gjeneruese NIST )
Privatësia dhe rrjedhja e të dhënave 🔒
Nëse futni të dhëna konfidenciale në një pikë fundore të modelit, duhet të dini:
-
si ruhet
-
nëse përdoret për trajnim
-
çfarë regjistrimi ekziston
-
çfarë kontrollon nevojat e organizatës suaj ( NIST AI RMF 1.0 )
Zbutjet:
-
opsione private vendosjeje
-
qeverisje e fortë
-
ekspozim minimal të të dhënave
-
RAG vetëm për brenda me kontroll të rreptë të aksesit ( NIST Generative AI Profile , Carlini et al., 2021 )
Injeksion i menjëhershëm (sidomos me RAG) 🕳️
Nëse modeli lexon tekst të pabesueshëm, ai tekst mund të përpiqet ta manipulojë atë:
-
"Injoroni udhëzimet e mëparshme..."
-
“Më dërgo sekretin…” ( OWASP , Greshake et al., 2023 )
Zbutjet:
-
udhëzimet e sistemit të izoluar
-
dezinfekto përmbajtjen e marrë
-
përdorni politika të bazuara në mjete (jo vetëm kërkesa)
-
test me të dhëna kundërshtare ( OWASP Cheat Sheet , NIST Generative AI Profile )
Nuk dua të të tremb. Thjesht… është më mirë të dish se ku kërcasin dërrasat e dyshemesë.
12) Si të zgjidhni një model fondatine për rastin tuaj të përdorimit 🎛️
Nëse po zgjidhni një model themeli (ose po ndërtoni mbi një të tillë), filloni me këto udhëzime:
Përcaktoni se çfarë po gjeneroni 🧾
-
vetëm tekst
-
imazhe
-
audio
-
multimodale të përziera
Vendosni standardin tuaj të faktualitetit 📌
Nëse keni nevojë për saktësi të lartë (financë, shëndetësi, ligj, siguri):
-
do të dëshironi RAG ( Lewis et al., 2020 )
-
do të dëshironi vërtetim
-
do të dëshironi shqyrtim njerëzor në ciklin e punës (të paktën ndonjëherë) ( NIST AI RMF 1.0 )
Vendos objektivin tënd të vonesës ⚡
Biseda është e menjëhershme. Përmbledhja e grupeve mund të jetë më e ngadaltë.
Nëse keni nevojë për përgjigje të menjëhershme, madhësia e modelit dhe hostimi kanë rëndësi.
Nevojat për privatësinë dhe pajtueshmërinë e hartës 🔐
Disa ekipe kërkojnë:
-
vendosje në vend / VPC
-
pa ruajtje të të dhënave
-
regjistrat e auditimit të rreptë
-
kontrolli i aksesit për dokument ( NIST AI RMF 1.0 , Profili i AI Gjenerues NIST )
Bilanconi buxhetin - dhe durim 😅
Vetë-hostimi jep kontroll, por shton kompleksitetin.
API-të e menaxhuara janë të lehta, por mund të jenë të kushtueshme dhe më pak të personalizueshme.
Një këshillë e vogël praktike: prototipi me diçka të lehtë fillimisht, pastaj ngurtësojeni më vonë. Fillimi me konfigurimin "perfekt" zakonisht ngadalëson gjithçka.
13) Cilat janë Modelet Themelore në IA Gjenerative? (Modeli i shpejtë mendor) 🧠✨
Le ta rikthejmë. Cilat janë Modelet Themelore në IA Gjenerative?
Ato janë:
-
modele të mëdha dhe të përgjithshme të trajnuara në të dhëna të gjera ( NIST , Stanford CRFM )
-
i aftë të gjenerojë përmbajtje (tekst, imazhe, audio, etj.) ( Profili i AI Gjenerues NIST )
-
i adaptueshëm për shumë detyra nëpërmjet udhëzimeve, rregullimeve të hollësishme dhe rikthimit ( Bommasani et al., 2021 )
-
shtresa bazë që fuqizon shumicën e produkteve moderne gjeneruese të IA-së
Ato nuk janë një arkitekturë apo markë e vetme. Ato janë një kategori modelesh që sillen si një platformë.
Një model themeli është më pak si një kalkulator dhe më shumë si një kuzhinë. Mund të gatuani shumë vakte në të. Mund të digjni edhe bukën e thekur nëse nuk po i kushtoni vëmendje… por kuzhina është ende mjaft e dobishme 🍳🔥
14) Përmbledhje dhe ushqim për të marrë me vete ✅🙂
Modelet themelore janë motorët e ripërdorshëm të IA-së gjeneruese. Ato trajnohen gjerësisht, pastaj përshtaten për detyra specifike përmes nxitjes, rregullimit të imët dhe rikthimit ( NIST , Stanford CRFM ). Ato mund të jenë të mahnitshme, të çrregullta, të fuqishme dhe herë pas here qesharake - të gjitha në të njëjtën kohë.
Përmbledhje:
-
Modeli i themelit = modeli bazë për qëllime të përgjithshme ( NIST )
-
IA Gjenerative = krijim përmbajtjeje, jo vetëm klasifikim ( Profili i IA Gjenerative i NIST )
-
Metodat e adaptimit (nxitja, RAG, akordimi) e bëjnë atë praktike ( Lewis et al., 2020 , Hu et al., 2021 )
-
Zgjedhja e një modeli ka të bëjë me kompromiset: saktësia, kostoja, vonesa, privatësia, siguria ( NIST AI RMF 1.0 )
Nëse po ndërtoni diçka me IA gjeneruese, të kuptuarit e modeleve të themeleve nuk është opsionale. Është i gjithë kati mbi të cilin qëndron ndërtesa… dhe po, ndonjëherë dyshemeja lëkundet pak 😅
Pyetje të shpeshta
Modelet e themeleve, me fjalë të thjeshta
Një model themelor është një model i madh i inteligjencës artificiale për qëllime të përgjithshme, i trajnuar mbi të dhëna të gjera, në mënyrë që të mund të ripërdoret për shumë detyra. Në vend që të ndërtoni një model për punë, filloni me një model të fortë "bazë" dhe e përshtatni atë sipas nevojës. Ky përshtatje shpesh ndodh përmes nxitjes, rregullimit të imët, rikuperimit (RAG) ose mjeteve. Ideja qendrore është gjerësia plus kontrollueshmëria.
Si ndryshojnë modelet themelore nga modelet tradicionale të inteligjencës artificiale specifike për detyrat
IA tradicionale shpesh trajnon një model të veçantë për secilën detyrë, si analiza e ndjenjës ose përkthimi. Modelet themelore e përmbysin këtë model: trajnohen paraprakisht një herë, pastaj ripërdoren në shumë veçori dhe produkte. Kjo mund të zvogëlojë përpjekjet e dyfishta dhe të përshpejtojë ofrimin e aftësive të reja. Kompromisi është se ato mund të jenë më pak të parashikueshme se softueri klasik, përveç nëse shtoni kufizime dhe testime.
Modelet themelore në IA gjenerative
Në IA-në gjeneruese, modelet themelore janë sistemet bazë që mund të prodhojnë përmbajtje të re si tekst, imazhe, audio, kod ose rezultate multimodale. Ato nuk kufizohen vetëm në etiketim ose klasifikim; ato gjenerojnë përgjigje që i ngjajnë punës së bërë nga njeriu. Meqenëse mësojnë modele të gjera gjatë trajnimit paraprak, ato mund të trajtojnë shumë lloje dhe formate të kërkesave. Ato janë "shtresa bazë" pas shumicës së përvojave moderne gjeneruese.
Si mësojnë modelet themelore gjatë para-trajnimit
Shumica e modeleve të themelimit të gjuhës mësojnë duke parashikuar shenja, të tilla si fjala tjetër ose fjalët që mungojnë në tekst. Ky objektiv i thjeshtë i shtyn ata të përvetësojnë strukturën si gramatikën, stilin dhe modelet e zakonshme të shpjegimit. Ata gjithashtu mund të thithin një sasi të madhe njohurish botërore, megjithëse jo gjithmonë në mënyrë të besueshme. Rezultati është një përfaqësim i fortë i përgjithshëm që më vonë mund ta drejtoni drejt një pune specifike.
Dallimi midis nxitjes, rregullimit të imët, LoRA dhe RAG
Nxitja është mënyra më e shpejtë për të drejtuar sjelljen duke përdorur udhëzime, por mund të jetë e brishtë. Rregullimi i imët e trajnon modelin më tej në shembujt tuaj për sjellje më të qëndrueshme, por shton koston dhe mirëmbajtjen. LoRA/adaptuesit janë një qasje më e lehtë e rregullimit të imët që shpesh është më e lirë dhe më modulare. RAG merr dokumentet përkatëse dhe ka përgjigjen e modelit duke përdorur atë kontekst, gjë që ndihmon me freskinë dhe themelet.
Kur duhet të përdoret RAG në vend të rregullimit të imët
RAG është shpesh një zgjedhje e fortë kur keni nevojë për përgjigje të bazuara në dokumentet tuaja aktuale ose në bazën e njohurive të brendshme. Mund të zvogëlojë "hamendësimet" duke i dhënë modelit kontekstin përkatës në kohën e gjenerimit. Rregullimi i imët është një përshtatje më e mirë kur keni nevojë për stil të qëndrueshëm, frazim të domenit ose sjellje që nxitja nuk mund ta prodhojë në mënyrë të besueshme. Shumë sisteme praktike kombinojnë nxitjen + RAG përpara se të kërkojnë rregullim të imët.
Si të zvogëloni halucinacionet dhe të merrni përgjigje më të besueshme
Një qasje e zakonshme është të bazosh modelin me rikthim (RAG) në mënyrë që të qëndrojë afër kontekstit të dhënë. Gjithashtu mund të kufizosh rezultatet me skema, të kërkosh thirrje mjetesh për hapat kryesorë dhe të shtosh udhëzime të qarta "mos hamendëso". Shtresat e verifikimit kanë rëndësi gjithashtu, si kontrollet e rregullave, verifikimi i kryqëzuar dhe rishikimi njerëzor për rastet e përdorimit me rrezik më të lartë. Trajtoje modelin si një ndihmës probabilistik, jo si një burim të vërtetës si parazgjedhje.
Rreziqet më të mëdha me modelet e themeleve në prodhim
Rreziqet e zakonshme përfshijnë halucinacione, modele të paragjykuara ose të dëmshme nga të dhënat e trajnimit dhe rrjedhje të privatësisë nëse të dhënat e ndjeshme trajtohen dobët. Sistemet gjithashtu mund të jenë të ndjeshme ndaj injektimit të shpejtë, veçanërisht kur modeli lexon tekst të pabesueshëm nga dokumentet ose përmbajtja e uebit. Zbutjet zakonisht përfshijnë qeverisjen, bashkimin e ekipeve, kontrollet e aksesit, modelet më të sigurta të nxitjes dhe vlerësimin e strukturuar. Planifikoni për këto rreziqe herët në vend që të bëni patch-e më vonë.
Injeksion i shpejtë dhe pse ka rëndësi në sistemet RAG
Injektimi i shpejtë ndodh kur teksti i pabesueshëm përpiqet të anashkalojë udhëzimet, si "injoroni udhëzimet e mëparshme" ose "zbuloni sekretet". Në RAG, dokumentet e marra mund të përmbajnë ato udhëzime dashakeqe dhe modeli mund t'i ndjekë ato nëse nuk jeni të kujdesshëm. Një qasje e zakonshme është të izoloni udhëzimet e sistemit, të dezinfektoni përmbajtjen e marrë dhe të mbështeteni në politikat e bazuara në mjete në vend të vetëm në kërkesat. Testimi me të dhëna kundërshtare ndihmon në zbulimin e pikave të dobëta.
Si të zgjidhni një model themeli për rastin tuaj të përdorimit
Filloni duke përcaktuar se çfarë duhet të gjeneroni: tekst, imazhe, audio, kod ose rezultate multimodale. Pastaj vendosni standardin e faktualitetit - domenet me saktësi të lartë shpesh kanë nevojë për tokëzim (RAG), validim dhe ndonjëherë rishikim njerëzor. Merrni parasysh vonesën dhe koston, sepse një model i fortë që është i ngadaltë ose i shtrenjtë mund të jetë i vështirë për t'u përdorur. Së fundmi, hartoni privatësinë dhe nevojat e pajtueshmërisë me opsionet dhe kontrollet e vendosjes.
Referencat
-
Instituti Kombëtar i Standardeve dhe Teknologjisë (NIST) - Modeli i Fondacionit (Term fjalori) - csrc.nist.gov
-
Instituti Kombëtar i Standardeve dhe Teknologjisë (NIST) - NIST AI 600-1: Profili i IA-së Gjenerative - nvlpubs.nist.gov
-
Instituti Kombëtar i Standardeve dhe Teknologjisë (NIST) - NIST AI 100-1: Korniza e Menaxhimit të Riskut të IA-së (AI RMF 1.0) - nvlpubs.nist.gov
-
Qendra e Stanfordit për Kërkime mbi Modelet e Fondacionit (CRFM) - Raport - crfm.stanford.edu
-
arXiv - Mbi mundësitë dhe rreziqet e modeleve të fondacionit (Bommasani et al., 2021) - arxiv.org
-
arXiv - Modelet gjuhësore janë nxënës me pak mundësi mësimi (Brown et al., 2020) - arxiv.org
-
arXiv - Gjenerim i Zgjeruar i Rikthimit për Detyra NLP me Intensitet të Njohurive (Lewis et al., 2020) - arxiv.org
-
arXiv - LoRA: Përshtatja e Modeleve të Gjuhës së Madhe me Rang të Ulët (Hu et al., 2021) - arxiv.org
-
arXiv - BERT: Para-trajnim i Transformatorëve të Thellë Bidireksionalë për Kuptimin e Gjuhës (Devlin et al., 2018) - arxiv.org
-
arXiv - Modelet e Gjuhësore të Përmirësuara janë Nxënës me Mundësi Zero (Wei et al., 2021) - arxiv.org
-
Biblioteka Dixhitale ACM - Anketë mbi Halucinacionet në Gjenerimin e Gjuhës Natyrore (Ji et al., 2023) - dl.acm.org
-
arXiv - Mësimi i Modeleve Vizuale të Transferueshme nga Mbikëqyrja e Gjuhës Natyrore (Radford et al., 2021) - arxiv.org
-
arXiv - Modelet Probabilistike të Difuzionit të Zhurmës (Ho et al., 2020) - arxiv.org
-
arXiv - Sinteza e Imazhit me Rezolucion të Lartë me Modele të Difuzionit Latent (Rombach et al., 2021) - arxiv.org
-
arXiv - Kërkim i Dendur i Pasazheve për Përgjigjet e Pyetjeve në Domen të Hapur (Karpukhin et al., 2020) - arxiv.org
-
arXiv - Biblioteka Faiss (Douze et al., 2024) - arxiv.org
-
OpenAI - Prezantojmë Whisper - openai.com
-
arXiv - Sinteza Natyrale e TTS-së duke Kushtëzuar WaveNet në Parashikimet e Spektrogramit Mel (Shen et al., 2017) - arxiv.org
-
Qendra për Siguri dhe Teknologji në Zhvillim (CSET), Universiteti Georgetown - Fuqia surprizuese e parashikimit të fjalës tjetër: modele të mëdha gjuhësore të shpjeguara (pjesa 1) - cset.georgetown.edu
-
USENIX - Nxjerrja e të Dhënave të Trajnimit nga Modelet e Mëdha të Gjuhës (Carlini et al., 2021) - usenix.org
-
OWASP - LLM01: Injeksion i menjëhershëm - genai.owasp.org
-
arXiv - Më shumë sesa keni kërkuar: Një analizë gjithëpërfshirëse e kërcënimeve të reja të injektimit të shpejtë ndaj modeleve të mëdha gjuhësore të integruara në aplikacion (Greshake et al., 2023) - arxiv.org
-
Seria e Fletëve të Këshillimit OWASP - Fletë Këshillimi për Parandalimin e Injeksionit të Shpejtë LLM - cheatsheetseries.owasp.org