Si funksionon përmirësimi i inteligjencës artificiale

Si funksionon përmirësimi i inteligjencës artificiale?

Përgjigje e shkurtër: Përmirësimi i inteligjencës artificiale funksionon duke trajnuar një model në imazhe të çiftëzuara me rezolucion të ulët dhe të lartë, dhe më pas duke e përdorur atë për të parashikuar pikselë shtesë të besueshëm gjatë përmirësimit. Nëse modeli ka parë tekstura ose fytyra të ngjashme në trajnim, ai mund të shtojë detaje bindëse; nëse jo, ai mund të "halucinojë" artefakte të tilla si aureola, lëkurë të dylltë ose shkrepje në video.

Përmbledhjet kryesore:

Parashikimi : Modeli gjeneron detaje të besueshme, jo një rindërtim të garantuar të realitetit.

Zgjedhja e modelit : CNN-të kanë tendencë të jenë më të qëndrueshme; GAN-të mund të duken më të mprehta, por rrezikojnë të shpikin veçori.

Kontrollet e artefakteve : Kushtojini vëmendje aureolave, teksturave të përsëritura, "pothuajse shkronjave" dhe fytyrave plastike.

Stabiliteti i videos : Përdorni metoda kohore ose do të shihni shkëlqim dhe zhvendosje nga njëra kornizë në tjetrën.

Përdorim me rrezik të lartë : Nëse saktësia ka rëndësi, zbuloni përpunimin dhe trajtojini rezultatet si ilustruese.

Si funksionon përmirësimi i inteligjencës artificiale? Infografik.

Me siguri e keni parë: një imazh i vogël dhe krokante shndërrohet në diçka mjaftueshëm të qartë për ta printuar, transmetuar ose hedhur në një prezantim pa u dridhur. Ndihet si mashtrim. Dhe - në kuptimin më të mirë - në një farë mënyre është 😅

Pra, mënyra se si funksionon përmirësimi i inteligjencës artificiale (IA Upscaling) reduktohet në diçka më specifike sesa "kompjuteri përmirëson detajet" (me dorë të valëzuar) dhe më afër "një model parashikon një strukturë të besueshme me rezolucion të lartë bazuar në modelet që ka mësuar nga shumë shembuj" ( Deep Learning for Image Super-resolution: A Survey ). Ky hap parashikimi është e gjithë loja - dhe kjo është arsyeja pse përmirësimi i inteligjencës artificiale mund të duket mahnitës... ose pak plastik... ose sikur macja juaj të ketë rritur mustaqe shtesë.

Artikuj që mund t'ju pëlqejnë të lexoni pas këtij:

🔗 Si funksionon inteligjenca artificiale
Mësoni bazat e modeleve, të dhënave dhe konkluzioneve në IA.

🔗 Si mëson inteligjenca artificiale
Shikoni se si të dhënat e trajnimit dhe reagimet përmirësojnë performancën e modelit me kalimin e kohës.

🔗 Si zbulon anomalitë IA
Kuptoni linjat bazë të modeleve dhe si inteligjenca artificiale sinjalizon shpejt sjelljen e pazakontë.

🔗 Si parashikon IA trendet
Eksploroni metodat e parashikimit që dallojnë sinjalet dhe parashikojnë kërkesën e ardhshme.


Si funksionon përmirësimi i inteligjencës artificiale: ideja kryesore, me fjalë të përditshme 🧩

Zmadhimi do të thotë rritje e rezolucionit: më shumë piksel, imazh më i madh. Zmadhimi tradicional (si bikubiku) në thelb i zgjat pikselët dhe i zbut tranzicionet ( interpolimi bikubik ). Është në rregull, por nuk mund të shpikë të reja - thjesht interpolon.

Përmirësimi i inteligjencës artificiale provon diçka më të guximshme (e njohur edhe si "super-rezolucion" në botën e kërkimit) ( Mësim i Thellë për Super-rezolucionin e Imazhit: Një Sondazh ):

  • Shikon hyrjen me rezolucion të ulët

  • Njeh modelet (skajet, teksturat, tiparet e fytyrës, vijat e tekstit, endjen e pëlhurës…)

  • duhet të duket një version me rezolucion më të lartë

  • Gjeneron të dhëna shtesë pikselësh që i përshtaten këtyre modeleve

Jo "rivendos realitetin në mënyrë të përsosur", më shumë si "bëj një hamendje shumë të besueshme" ( Rezolucioni i Imazhit me Super-Rezolucion Duke Përdorur Rrjete të Thella Konvolucionale (SRCNN) ). Nëse kjo tingëllon paksa e dyshimtë, nuk gaboheni - por është edhe arsyeja pse funksionon kaq mirë 😄

Dhe po, kjo do të thotë që përmirësimi i inteligjencës artificiale është në thelb halucinacion i kontrolluar… por në një mënyrë produktive që respekton pikselët.


Çfarë e bën një version të mirë të përmirësimit të inteligjencës artificiale? ✅🛠️

Nëse po gjykoni një përmirësues të inteligjencës artificiale (ose një parazgjedhje), ja çfarë ka më shumë rëndësi:

  • Rikuperimi i detajeve pa i tepruar me gatimin.
    Zmadhimi i mirë shton freski dhe strukturë, jo zhurmë krokante ose pore të rreme.

  • Disiplina në skaje.
    Linjat e pastra mbeten të pastra. Modelet e këqija bëjnë që skajet të lëkunden ose të dalin aureola.

  • Realizmi i teksturës.
    Flokët nuk duhet të bëhen një goditje me penel. Tulla nuk duhet të bëhet një stampë modeli që përsëritet.

  • Trajtimi i zhurmës dhe kompresimit.
    Shumë imazhe të përditshme modifikohen në formatin JPEG deri në vdekje. Një modifikim i mirë për shkallëzimin nuk e amplifikon këtë dëm ( Real-ESRGAN ).

  • Ndërgjegjësimi për fytyrën dhe tekstin
    Fytyrat dhe teksti janë vendet më të lehta për të dalluar gabimet. Modelet e mira i trajtojnë ato me butësi (ose kanë mënyra të specializuara).

  • Konsistencë nëpër kuadro (për video)
    Nëse detajet dridhen nga njëra kornizë në tjetrën, sytë tuaj do të bërtasin. Përmirësimi i shkallëzimit të videos jeton ose vdes nga stabiliteti kohor ( BasicVSR (CVPR 2021) ).

  • Kontrolle që kanë kuptim.
    Ju dëshironi rrëshqitës që lidhen me rezultate reale: heqja e zhurmës, heqja e turbullirave, heqja e objekteve, ruajtja e kokrrizave, mprehja… gjërat praktike.

Një rregull i qetë që vlen: përmirësimi "më i mirë" është shpesh ai që mezi e vëren. Thjesht duket sikur ke pasur një aparat fotografik më të mirë që në fillim 📷✨


Tabela Krahasuese: opsionet më të njohura të përmirësimit të inteligjencës artificiale (dhe për çfarë janë të mira) 📊🙂

Më poshtë është një krahasim praktik. Çmimet janë qëllimisht të paqarta sepse mjetet ndryshojnë në varësi të licencës, paketave, kostove të llogaritjes dhe të gjitha gjërave argëtuese.

Mjet / Qasje Më e mira për Atmosfera e çmimeve Pse funksionon (përafërsisht)
Pajisje për përmirësim të shkallëve të punës në stilin Topaz ( Topaz Photo , Topaz Video ) Foto, video, rrjedhë pune e lehtë Me pagesë Modele të forta të përgjithshme + shumë akordim, kanë tendencë të "funksionojnë"... kryesisht
Karakteristikat e tipit "Super Resolution" të Adobe ( Adobe Enhance > Super Resolution ) Fotografë që janë tashmë në atë ekosistem Abonim-y Rindërtim i detajuar i fortë, zakonisht konservator (më pak dramatik)
Variantet Real-ESRGAN / ESRGAN ( Real-ESRGAN , ESRGAN ) Bëje vetë, zhvillues, punë në grup Falas (por që kërkon kohë) I shkëlqyer në detajet e teksturës, mund të jetë pikant në fytyra nëse nuk jeni të kujdesshëm
Modalitetet e rritjes së shkallëzimit të bazuara në difuzion ( SR3 ) Punë krijuese, rezultate të stilizuara Të përziera Mund të krijojë detaje të mrekullueshme - gjithashtu mund të shpikë gjëra të pakuptimta, kështu që… po
Përmirësues të nivelit të lojërave (stili DLSS/FSR) ( NVIDIA DLSS , AMD FSR 2 ) Lojëra dhe renderime në kohë reale I paketuar Përdor të dhëna lëvizjeje dhe të dhëna paraprake të mësuara - fitore në performancë të qetë 🕹️
Shërbime për përshkallëzim të cloud-it Komoditet, fitore të shpejta Pagesë për përdorim I shpejtë + i shkallëzueshëm, por shkëmbeni kontroll dhe ndonjëherë hollësi
Përmirësues të inteligjencës artificiale të fokusuar në video ( BasicVSR , Topaz Video ) Pamje të vjetra, anime, arkiva Me pagesë Truke të përkohshme për të zvogëluar shkrepjen + modele të specializuara video
Përmirësim i shkallëzimit të telefonit/galerisë “të zgjuar” Përdorim i rastësishëm Përfshirë Modele të lehta të akorduara për rezultate të këndshme, jo për përsosmëri (ende të dobishme)

Rrëfim i çuditshëm i formatimit: "Paid-ish" po bën shumë punë në atë tabelë. Por e kuptoni idenë 😅


Sekreti i madh: modelet mësojnë një përputhje nga rezolucioni i ulët në atë të lartë 🧠➡️🖼️

Në zemër të shumicës së përmirësimeve të inteligjencës artificiale është një konfigurim i të mësuarit të mbikëqyrur ( Super-Rezolucioni i Imazhit Duke Përdorur Rrjete të Thella Konvolucionale (SRCNN) ):

  1. Filloni me imazhe me rezolucion të lartë ("e vërteta")

  2. Ulni numrin e mostrave në versione me rezolucion të ulët ("hyrja")

  3. Trajnoni një model për të rindërtuar rezolucionin origjinal të lartë nga ai i ulët

Me kalimin e kohës, modeli mëson korrelacione si:

  • “Ky lloj turbullimi rreth syrit zakonisht i përket qerpikëve”

  • "Ky grumbull pikselësh shpesh tregon tekst serif"

  • “Ky gradient skaji duket si një vijë në çati, jo si një zhurmë e rastësishme”

Nuk është memorizim i imazheve specifike (në kuptimin e thjeshtë), është mësim i strukturës statistikore ( Mësim i Thellë për Super-rezolucionin e Imazhit: Një Anketë ). Mendojeni si të mësoni gramatikën e teksturave dhe skajeve. Jo gramatikë poezie, më shumë si… gramatikë manuale IKEA 🪑📦 (metaforë e ngathët, por mjaftueshëm e ngushtë).


Çështjet kryesore: çfarë ndodh gjatë inferencës (kur përmirësohesh) ⚙️✨

Kur futni një imazh në një përditësues të inteligjencës artificiale, zakonisht ekziston një rrjedhë si kjo:

  • Parapërpunim

    • Konvertoni hapësirën e ngjyrave (ndonjëherë)

    • Normalizoni vlerat e pikselëve

    • Ndani imazhin në copa nëse është i madh (kontroll i realitetit VRAM 😭) ( Repo Real-ESRGAN (opsionet e pllakave) )

  • Nxjerrja e veçorive

    • Shtresat e hershme zbulojnë skajet, qoshet, gradientët

    • Shtresat më të thella zbulojnë modelet: teksturat, format, përbërësit e fytyrës

  • Rindërtim

    • Modeli gjeneron një hartë të veçorive me rezolucion më të lartë

    • Pastaj e konverton atë në daljen aktuale të pikselëve

  • Përpunimi pasues

    • Mprehje opsionale

    • Zvogëlim opsional i zhurmës

    • Shtypja opsionale e artefakteve (zile, halo, bllokim)

Një detaj delikat: shumë mjete i japin pllakave një pamje më të mirë, pastaj i përziejnë qepjet. Mjete të shkëlqyera fshehin kufijtë e pllakave. Mjetet mekanike lënë shenja të zbehta rrjete nëse i mbyllni sytë. Dhe po, do t'i mbyllni sytë, sepse njerëzve u pëlqen të inspektojnë papërsosmëritë më të vogla me një zmadhim prej 300%, si gremlinët e vegjël 🧌


Familjet kryesore të modeleve të përdorura për përmirësimin e inteligjencës artificiale (dhe pse ato duken të ndryshme) 🤖📚

1) Superrezolucion i bazuar në CNN (kari klasik i punës)

Rrjetet nervore konvolucionale janë të shkëlqyera në modelet lokale: skajet, teksturat, strukturat e vogla ( Super-Rezolucioni i Imazhit Duke Përdorur Rrjetet e Thella Konvolucionale (SRCNN) ).

  • Përparësitë: pak i shpejtë, i qëndrueshëm, më pak surpriza

  • Kundër: mund të duket pak "i përpunuar" nëse shtyhet fort

2) Përmirësim i bazuar në GAN (stili ESRGAN) 🎭

GAN-et (Rrjetet Kundërshtare Gjenerative) stërvisin një gjenerator për të prodhuar imazhe me rezolucion të lartë që një diskriminues nuk mund t'i dallojë nga ato reale ( Rrjetet Kundërshtare Gjenerative ).

  • Përparësitë: detaje të forta, teksturë mbresëlënëse

  • Kundër: mund të shpikë detaje që nuk ishin aty - ndonjëherë të gabuara, ndonjëherë të çuditshme ( SRGAN , ESRGAN )

Një GAN mund t'ju japë atë mprehtësi që të lë pa fjalë. Gjithashtu mund t'i japë subjektit të portretit tuaj një vetull shtesë. Pra… zgjidhni betejat tuaja 😬

3) Përmirësim i bazuar në difuzion (karta karakteristike krijuese) 🌫️➡️🖼️

Modelet e difuzionit çzhurmojnë hap pas hapi dhe mund të udhëzohen për të prodhuar detaje me rezolucion të lartë ( SR3 ).

  • Përparësitë: mund të jetë jashtëzakonisht i mirë në detaje të besueshme, veçanërisht për punën krijuese

  • Kundër: mund të largohet nga identiteti/struktura origjinale nëse cilësimet janë agresive ( SR3 )

Këtu fillon të përzihet "përmirësimi" me "riimagjinimin". Ndonjëherë kjo është pikërisht ajo që dëshironi. Ndonjëherë jo.

4) Përmirësim i videos me qëndrueshmëri kohore 🎞️

Përmirësimi i shkallëzimit të videos shpesh shton logjikë të ndërgjegjshme për lëvizjen:

  • Përdor kornizat fqinje për të stabilizuar detajet ( BasicVSR (CVPR 2021) )

  • Përpiqet të shmangë dridhjet dhe artefaktet zvarritëse

  • Shpesh kombinon super-rezolucionin me heqjen e zhurmës dhe heqjen e ndërthurjes ( Topaz Video )

Nëse përmirësimi i imazhit është si restaurimi i një pikture, përmirësimi i videos është si restaurimi i një libri pa e bërë hundën e personazhit të ndryshojë formë në çdo faqe. Gjë që është… më e vështirë nga ç’duket.


Pse përmirësimi i inteligjencës artificiale ndonjëherë duket i rremë (dhe si ta dalloni) 👀🚩

Përmirësimi i inteligjencës artificiale dështon në mënyra të dallueshme. Pasi t'i mësoni modelet, do t'i shihni kudo, si kur blini një makinë të re dhe papritur e vini re atë model në çdo rrugë 😵💫

E zakonshme tregon:

  • Depilim i lëkurës në fytyrë (shumë zhurmë + zbutje)

  • Aureola të mprehta tepër rreth skajeve (territori klasik i "tejkalimit") ( interpolim bikubik )

  • Tekstura të përsëritura (muret me tulla bëhen modele kopjimi-ngjitjeje)

  • Mikro-kontrast i fortë që bërtet "algoritëm"

  • Shtrembërim teksti ku shkronjat bëhen pothuajse shkronja (lloji më i keq)

  • Zhvendosje detajesh ku veçoritë e vogla ndryshojnë pak, veçanërisht në rrjedhat e punës së difuzionit ( SR3 )

Pjesa delikate: ndonjëherë këto objekte duken "më mirë" me një shikim. Trurit tënd i pëlqen mprehtësia. Por pas një çasti, ndihet... i çuditshëm.

Një taktikë e mirë është të zmadhosh dhe të kontrollosh nëse duket natyrale në distancë normale shikimi. Nëse duket mirë vetëm me zmadhim 400%, kjo nuk është fitore, është hobi 😅


Si funksionon përmirësimi i inteligjencës artificiale: ana e trajnimit, pa dhimbjen e kokës së matematikës 📉🙂

Trajnimi i modeleve me superrezolucion zakonisht përfshin:

Llojet tipike të humbjeve:

  • Humbja e pikselëve (L1/L2)
    Inkurajon saktësinë. Mund të prodhojë rezultate paksa të dobëta.

  • Humbja perceptuese
    krahason tipare më të thella (si "a duket e ngjashme") në vend të pikselëve të saktë ( Humbjet perceptuese (Johnson et al., 2016) ).

  • Humbja kundërshtare (GAN)
    inkurajon realizmin, ndonjëherë me koston e saktësisë së mirëfilltë ( SRGAN , Rrjetet Kontradiktore Gjenerative ).

Ka një tërheqje litari të vazhdueshme:

  • Bëjeni besnik ndaj origjinalit
    vs.

  • Bëjeni vizualisht të këndshëm

Mjete të ndryshme gjejnë vend në vende të ndryshme në atë spektër. Dhe mund të preferoni një të tillë në varësi të faktit nëse po restauroni foto familjare apo po përgatitni një poster ku "pamja e mirë" ka më shumë rëndësi sesa saktësia mjeko-ligjore.


Flukse pune praktike: foto, skanime të vjetra, anime dhe video 📸🧾🎥

Foto (portrete, peizazhe, pamje të produkteve)

Praktika më e mirë është zakonisht:

  • Së pari hiqni pak zhurmë (nëse është e nevojshme)

  • Luksoz me ambiente konservatore

  • Shtoni përsëri kokrriza nëse gjërat ndihen shumë të lëmuara (po, me të vërtetë)

Drithërat janë si kripa. Shumë e prishin darkën, por asnjëra nuk mund të ketë shije pak të zbehtë 🍟

Skanime të vjetra dhe imazhe shumë të kompresuara

Këto janë më të vështira sepse modeli mund t'i trajtojë blloqet e kompresimit si "teksturë".
Provoni:

  • Heqja ose zhbllokimi i artefakteve

  • Pastaj luksoze

  • Pastaj mprehje e dritës (jo shumë… e di, të gjithë e thonë këtë, por prapëseprapë)

Anime dhe art linear

Arti i vijave përfiton nga:

  • Modele që ruajnë skajet e pastra

  • Halucinacion i reduktuar i teksturës.
    Përmirësimi i shkallëzimit të anime-ve shpesh duket shkëlqyeshëm sepse format janë më të thjeshta dhe konsistente. (Me fat.)

Video

Videoja shton hapa shtesë:

  • Zhurmë

  • Deinterlace (për burime të caktuara)

  • Luksoze

  • Zbutja ose stabilizimi kohor ( BasicVSR (CVPR 2021) )

  • Rifutja opsionale e drithërave për kohezion

Nëse e anashkalon qëndrueshmërinë kohore, do të përjetosh atë shkëlqim detaji. Pasi ta vëresh, nuk mund ta heqësh qafe. Si një karrige që kërcet në një dhomë të qetë 😖


Zgjedhja e cilësimeve pa hamendësuar shumë (një fletë e vogël mashtrimi) 🎛️😵💫

Ja një mentalitet i mirë fillestar:

  • Nëse fytyrat duken plastike,
    zvogëloni zhurmën, zvogëloni mprehtësinë, provoni një model ose modalitet që ruan fytyrën.

  • Nëse teksturat duken shumë intensive,
    ulni rrëshqitësit për "përmirësimin e detajeve" ose "rikuperimin e detajeve", shtoni kokrriza delikate pas tyre.

  • Nëse skajet shkëlqejnë,
    ulni mprehjen, kontrolloni opsionet e shtypjes së halo-s.

  • Nëse imazhi duket shumë "me inteligjencë artificiale",
    veproni më konservatorisht. Ndonjëherë lëvizja më e mirë është thjesht… më pak.

Gjithashtu: mos e zmadho 8x vetëm sepse mundesh. Një 2x ose 4x i pastër është shpesh pika ideale. Përtej kësaj, po i kërkon modelit të shkruajë një histori fansash rreth pikselëve të tu 📖😂


Etika, autenticiteti dhe pyetja e sikletshme e "së vërtetës" 🧭😬

Përmirësimi i inteligjencës artificiale e zbeh një vijë ndarëse:

  • Restaurimi nënkupton rikthimin e asaj që ishte aty

  • Përmirësimi nënkupton shtimin e asaj që nuk ishte

Me fotot personale, zakonisht është në rregull (dhe e mrekullueshme). Me gazetarinë, provat ligjore, imazherinë mjekësore ose çdo gjë ku besnikëria ka rëndësi… duhet të jeni të kujdesshëm ( OSAC/NIST: Udhëzuesi Standard për Menaxhimin e Imazheve Dixhitale Forenzike , Udhëzimet SWGDE për Analizën e Imazheve Forenzike ).

Një rregull i thjeshtë:

  • Nëse rreziqet janë të larta, trajtojeni përmirësimin e inteligjencës artificiale si ilustrues , jo si përfundimtar.

Gjithashtu, zbulimi ka rëndësi në kontekstet profesionale. Jo sepse inteligjenca artificiale është e keqe, por sepse audienca meriton të dijë nëse detajet janë rindërtuar apo janë kapur. Kjo është thjesht… respekt.


Shënime përmbyllëse dhe një përmbledhje e shpejtë 🧡✅

Pra, mënyra se si funksionon përmirësimi i inteligjencës artificiale është kjo: modelet mësojnë se si detajet me rezolucion të lartë tentojnë të lidhen me modelet me rezolucion të ulët, pastaj parashikojnë pikselë shtesë të besueshëm gjatë përmirësimit ( Mësim i Thellë për Super-rezolucionin e Imazhit: Një Sondazh ). Në varësi të familjes së modelit (CNN, GAN, difuzion, video-temporal), ky parashikim mund të jetë konservator dhe besnik… ose i guximshëm dhe ndonjëherë i çrregullt 😅

Përmbledhje e shpejtë

Nëse do, më trego çfarë po përmirëson (fytyra, foto të vjetra, video, anime, skanime teksti) dhe unë do të sugjeroj një strategji cilësimesh që tenton të shmangë kurthet e zakonshme të "pamjes së inteligjencës artificiale" 🎯🙂


Pyetje të shpeshta

Përmirësimi i inteligjencës artificiale dhe si funksionon

Rritja e shkallëzimit me anë të inteligjencës artificiale (shpesh e quajtur "super-rezolucion") rrit rezolucionin e një imazhi duke parashikuar detajet me rezolucion të lartë që mungojnë nga modelet e mësuara gjatë trajnimit. Në vend që thjesht të shtrihen pikselët si interpolimi bikubik, një model studion skajet, teksturat, faqet dhe goditjet e ngjashme me tekstin, pastaj gjeneron të dhëna të reja pikselësh që përputhen me ato modele të mësuara. Është më pak "rivendosja e realitetit" dhe më shumë "bërja e një hamendësimi të besueshëm" që lexohet si i natyrshëm.

Zgjerimi i inteligjencës artificiale kundrejt ndryshimit bikubik ose atij tradicional të madhësisë

Metodat tradicionale të përmirësimit (si metoda bikubike) kryesisht interpolojnë midis pikselëve ekzistues, duke zbutur tranzicionet pa krijuar detaje të reja të vërteta. Përmirësimi i inteligjencës artificiale synon të rindërtojë strukturën e besueshme duke njohur sinjalet vizuale dhe duke parashikuar se si kanë tendencë të duken versionet me rezolucion të lartë të këtyre sinjaleve. Kjo është arsyeja pse rezultatet e inteligjencës artificiale mund të duken shumë më të mprehta, dhe gjithashtu pse ato mund të fusin artefakte ose të "shpikin" detaje që nuk ishin të pranishme në burim.

Pse fytyrat mund të duken si dylli ose tepër të lëmuara

Fytyrat e dyllta zakonisht vijnë nga heqja agresive e zhurmës dhe zbutja e shoqëruar me mprehje që heq strukturën natyrale të lëkurës. Shumë mjete e trajtojnë zhurmën dhe strukturën e imët në mënyrë të ngjashme, kështu që "pastrimi" i një imazhi mund të fshijë poret dhe detajet delikate. Një qasje e zakonshme është të zvogëlohet heqja e zhurmës dhe mprehja, të përdoret një modalitet i ruajtjes së fytyrës nëse është i disponueshëm, dhe më pas të rifutet një prekje e kokrrizave në mënyrë që rezultati të ndihet më pak plastik dhe më fotografik.

Artefakte të zakonshme të përmirësimit të inteligjencës artificiale për t'u vëzhguar

Treguesit tipikë përfshijnë aureola rreth skajeve, modele të përsëritura teksturash (si tulla kopjo-ngjit), mikro-kontrast të fortë dhe tekst që shndërrohet në "pothuajse shkronja". Në rrjedhat e punës të bazuara në difuzion, mund të shihni edhe zhvendosje të detajeve aty ku veçoritë e vogla ndryshojnë lehtë. Për videon, shkëlqimi dhe detajet zvarritëse nëpër kuadro janë flamuj të mëdhenj të kuq. Nëse duket mirë vetëm në zmadhim ekstrem, cilësimet ndoshta janë shumë agresive.

Si ndryshojnë rezultatet GAN, CNN dhe ata që zgjerojnë shkallët e difuzionit

Super-rezolucioni i bazuar në CNN tenton të jetë më i qëndrueshëm dhe më i parashikueshëm, por mund të duket "i përpunuar" nëse shtyhet fort. Opsionet e bazuara në GAN (në stilin ESRGAN) shpesh prodhojnë teksturë dhe mprehtësi më të theksuar, por ato mund të halucinojnë detaje të pasakta, veçanërisht në fytyra. Rritja e shkallëzimit e bazuar në difuzion mund të gjenerojë detaje të bukura dhe të besueshme, megjithatë ato mund të devijojnë nga struktura origjinale nëse cilësimet e udhëzimit ose të forcës janë shumë të forta.

Një strategji praktike cilësimesh për të shmangur një pamje "shumë AI"

Filloni në mënyrë konservative: përmirësoni shkallën 2× ose 4× përpara se të arrini te faktorët ekstremë. Nëse fytyrat duken plastike, pakësoni heqjen e zhurmës dhe mprehjen dhe provoni një modalitet të vetëdijes për fytyrën. Nëse teksturat bëhen shumë intensive, ulni përmirësimin e detajeve dhe merrni në konsideratë shtimin e kokrrizave delikate më pas. Nëse skajet shkëlqejnë, zvogëloni mprehjen dhe kontrolloni shtypjen e aureolës ose artefakteve. Në shumë kanale, "më pak" fiton sepse ruan realizmin e besueshëm.

Trajtimi i skanimeve të vjetra ose imazheve të kompresuara shumë në JPEG para përmirësimit të shkallës

Imazhet e kompresuara janë të ndërlikuara sepse modelet mund t'i trajtojnë artefaktet e bllokut si tekstura të vërteta dhe t'i amplifikojnë ato. Një rrjedhë pune e zakonshme është heqja ose zhbllokimi i artefakteve fillimisht, pastaj rritja e shkallës dhe më pas mprehja e lehtë vetëm nëse është e nevojshme. Për skanimet, pastrimi i butë mund ta ndihmojë modelin të përqendrohet në strukturën aktuale dhe jo në dëmtimin. Qëllimi është të zvogëlohen "sinjalet e rreme të strukturës" në mënyrë që rritësi të mos detyrohet të bëjë hamendësime të sigurta nga të dhënat e zhurmshme.

Pse përmirësimi i videos është më i vështirë se përmirësimi i fotove

Përmirësimi i shkallëzimit të videos duhet të jetë konsistent në të gjitha kuadrot, jo vetëm në një imazh statik. Nëse detajet dridhen nga kuadro në kuadro, rezultati bëhet shpejt shpërqendrues. Qasjet e fokusuara në video përdorin informacion kohor nga kuadrot fqinje për të stabilizuar rindërtimin dhe për të shmangur artefaktet vezulluese. Shumë rrjedha pune përfshijnë gjithashtu heqjen e zhurmës, heqjen e ndërthurjes për burime të caktuara dhe ri-futjen opsionale të kokrrizave në mënyrë që e gjithë sekuenca të ndihet kohezive dhe jo artificialisht e mprehtë.

Kur përmirësimi i inteligjencës artificiale nuk është i përshtatshëm ose është i rrezikshëm për t'u mbështetur në të

Përmirësimi i inteligjencës artificiale trajtohet më së miri si përmirësim, jo ​​si provë. Në kontekste me rrezik të lartë si gazetaria, provat ligjore, imazheria mjekësore ose puna mjeko-ligjore, gjenerimi i pikselëve "të besueshëm" mund të mashtrojë sepse mund të shtojë detaje që nuk janë kapur. Një kornizë më e sigurt është ta përdorni atë në mënyrë ilustruese dhe të zbuloni se një proces i inteligjencës artificiale ka rindërtuar detajet. Nëse besnikëria është kritike, ruani origjinalet dhe dokumentoni çdo hap dhe mjedis përpunimi.

Referencat

  1. arXiv - Mësim i Thellë për Super-rezolucionin e Imazhit: Një Sondazh - arxiv.org

  2. arXiv - Super-Rezolucioni i Imazhit Duke Përdorur Rrjete të Thella Konvolucionale (SRCNN) - arxiv.org

  3. arXiv - Real-ESRGAN - arxiv.org

  4. arXiv - ESRGAN - arxiv.org

  5. arXiv - SR3 - arxiv.org

  6. Zhvilluesi i NVIDIA - NVIDIA DLSS - developer.nvidia.com

  7. AMD GPUOpen - FidelityFX Super Resolution 2 - gpuopen.com

  8. Fondacioni i Vizionit Kompjuterik (CVF) me Qasje të Hapur - BasicVSR: Kërkimi i Komponentëve Thelbësorë në Super-Rezolucionin e Videos (CVPR 2021) - openaccess.thecvf.com

  9. arXiv - Rrjete Gjenerative Kundërshtare - arxiv.org

  10. arXiv - SRGAN - arxiv.org

  11. arXiv - Humbjet Perceptuale (Johnson et al., 2016) - arxiv.org

  12. GitHub - Repo Real-ESRGAN (opsionet e pllakave) - github.com

  13. Wikipedia - Interpolim bikubik - wikipedia.org

  14. Topaz Labs - Foto Topaz - topazlabs.com

  15. Topaz Labs - Video Topaz - topazlabs.com

  16. Qendra e Ndihmës së Adobe - Adobe Enhance > Super Resolution - helpx.adobe.com

  17. NIST / OSAC - Udhëzues Standard për Menaxhimin e Imazheve Dixhitale Forenzike (Versioni 1.0) - nist.gov

  18. SWGDE - Udhëzime për Analizën Forenzike të Imazheve - swgde.org

Gjeni IA-në më të fundit në Dyqanin Zyrtar të Asistentëve të IA-së

Rreth Nesh

Kthehu te blogu