Si do të ndikojë inteligjenca artificiale në rolin e inxhinierëve të të dhënave?

IA është e vendosur të transformojë rolet e inxhinierisë së të dhënave duke automatizuar detyra të përsëritura si hartimi dhe dokumentimi i SQL. Megjithatë, përgjegjësitë me përgjegjësi të lartë, siç është përcaktimi i kontratave të të dhënave dhe menaxhimi i cilësisë së të dhënave, do të kërkojnë ende ekspertizë njerëzore.

Cilat pjesë të inxhinierisë së të dhënave mund të automatizojë IA?

IA shkëlqen në automatizimin e detyrave si gjenerimi i kodit SQL, krijimi i skelave të modelit dbt dhe hartimi i skicave të dokumentacionit. Kjo i ndihmon inxhinierët të fillojnë projektet në mënyrë më efikase, por validimi njerëzor është ende i nevojshëm për të siguruar saktësinë.

A do të bëhen inxhinierët e të dhënave të vjetëruar me rritjen e inteligjencës artificiale?

Ndërkohë që disa detyra mund të automatizohen, roli i inxhinierëve të të dhënave po evoluon në vend që të zhduket. Inxhinierët do të përqendrohen më shumë në projektimin e sistemit, llogaridhënien dhe qeverisjen, duke i bërë ata më të vlefshëm pasi inteligjenca artificiale ndihmon në përmirësimin e detyrave themelore.

Pse mbikëqyrja njerëzore është ende e rëndësishme me inteligjencën artificiale në inxhinierinë e të dhënave?

Mbikëqyrja njerëzore është thelbësore sepse inxhinieria e të dhënave shpesh përfshin logjikë biznesi të paqartë dhe llogaridhënie për rezultatet. IA mund të ndihmojë në hartimin e zgjidhjeve, por nuk mund të menaxhojë plotësisht kompleksitetin e qeverisjes dhe pajtueshmërisë së të dhënave.

Cilat aftësi do të jenë thelbësore për inxhinierët e të dhënave ndërsa mjetet e inteligjencës artificiale zhvillohen?

Aftësitë kryesore do të përfshijnë projektimin e sistemit, inxhinierinë e cilësisë së të dhënave, përcaktimin e kontratave të të dhënave dhe komunikimin efektiv. Këto fusha janë kritike për të siguruar besueshmërinë dhe pajtueshmërinë, pasi inteligjenca artificiale merret me detyra më rutinë.

Si mund ta përmirësojë inteligjenca artificiale bashkëpunimin midis inxhinierëve të të dhënave dhe ekipeve të tjera?

IA mund të përmirësojë rezultatet teknike, duke u lejuar inxhinierëve të të dhënave të bashkëpunojnë në mënyrë më efektive me ekipet e produkteve, sigurisë dhe financave. Ky ndryshim u mundëson inxhinierëve të të dhënave të përqendrohen në diskutimin e standardeve dhe pritjeve të cilësisë në vend që vetëm në kodim.

Me çfarë sfidash përballet IA në inxhinierinë e të dhënave?

IA ka vështirësi në trajtimin e përkufizimeve të paqarta dhe në menaxhimin e marrëdhënieve komplekse në logjikën e biznesit. Pamundësia e saj për të kryer mendim kritik ose për të negociuar përkufizime do të thotë që inxhinierët njerëzorë mbeten të domosdoshëm.

Si duhet të qasen inxhinierët e të dhënave duke përdorur mjete të inteligjencës artificiale si GitHub Copilot?

Inxhinierët e të dhënave duhet të përdorin mjetet e inteligjencës artificiale si drafte për të përmirësuar punën e tyre, duke ruajtur njëkohësisht konventa të forta për validimin dhe qeverisjen. Kjo përfshin sigurimin që rezultatet të përmbushin standardet e cilësisë dhe të jenë në përputhje me politikat organizative.

A do t’i zëvendësojë inteligjenca artificiale inxhinierët e të dhënave? [Video dhe kuiz]

Përgjigje e shkurtër: IA nuk do t'i zëvendësojë inxhinierët e të dhënave plotësisht; ajo do të automatizojë punë të përsëritura siç janë hartimi i SQL, ndërtimi i skeleteve të tubacionit, testet dhe dokumentimi. Nëse roli juaj është kryesisht punë me pronësi të ulët dhe me kërkesa të kufizuara, është më i ekspozuar; nëse zotëroni besueshmërinë, përkufizimet, qeverisjen dhe reagimin ndaj incidenteve, IA ju bën kryesisht më të shpejtë.

Përmbledhjet kryesore:

Pronësia: Jepini përparësi llogaridhënies për rezultatet, jo vetëm prodhimit të shpejtë të kodit.

Cilësia: Ndërtoni teste, vëzhgueshmëri dhe kontrata në mënyrë që tubacionet të mbeten të besueshme.

Qeverisja: Mbajeni privatësinë, kontrollin e aksesit, ruajtjen dhe gjurmët e auditimit në pronësi të njeriut.

Rezistencë ndaj keqpërdorimit: Trajtojini rezultatet e inteligjencës artificiale si drafte; rishikojini ato për të shmangur gabimet e sigurta.

Ndërrimi i roleve: Shpenzoni më pak kohë duke shkruar standarde dhe më shumë kohë duke projektuar sisteme të qëndrueshme.

A do t’i zëvendësojë inteligjenca artificiale inxhinierët e të dhënave? Infografik

Nëse keni kaluar më shumë se pesë minuta duke punuar me ekipet e të dhënave, e keni dëgjuar refrenin - ndonjëherë të pëshpëritur, ndonjëherë të nisur gjatë një takimi si një kthesë e papritur në histori: A do t’i zëvendësojë inteligjenca artificiale Inxhinierët e të Dhënave?

Dhe… e kuptoj. IA mund të gjenerojë SQL, të ndërtojë tubacione, të shpjegojë gjurmët e pirgut, të hartojë modele dbt, madje të sugjerojë skema deposh me një besim shqetësues. GitHub Copilot për SQL Rreth modeleve dbt GitHub Copilot
Ndihet sikur shikon një pirun ngritës duke mësuar të xhonglojë. Mbresëlënëse, paksa alarmuese, dhe nuk je plotësisht i sigurt se çfarë do të thotë kjo për punën tënde 😅

Por e vërteta është më pak e rregullt se titulli. IA po e ndryshon absolutisht inxhinierinë e të dhënave. Po automatizon pjesët e mërzitshme dhe të përsëritshme. Po përshpejton momentet "e di çfarë dua, por nuk më kujtohet sintaksa". Gjithashtu, po krijon lloje të reja kaosi.

Pra, le ta shtrojmë siç duhet, pa optimizëm të tepruar apo panik për shkak të fatit të keq.

Artikuj që mund t'ju pëlqejnë të lexoni pas këtij:

🔗 A do t’i zëvendësojë inteligjenca artificiale radiologët?
Si ndryshon inteligjenca artificiale e imazheve rrjedhën e punës, saktësinë dhe rolet e ardhshme.

🔗 A do t’i zëvendësojë inteligjenca artificiale kontabilistët?
Shihni se cilat detyra të kontabilitetit automatizohen nga inteligjenca artificiale dhe cilat mbeten njerëzore.

🔗 A do t’i zëvendësojë inteligjenca artificiale bankierët e investimeve?
Kuptoni ndikimin e IA-së në marrëveshje, kërkime dhe marrëdhënie me klientët.

🔗 A do t’i zëvendësojë inteligjenca artificiale agjentët e sigurimeve?
Mësoni se si IA transformon sigurimin, shitjet dhe mbështetjen ndaj klientit.

Pse pyetja "IA zëvendëson Inxhinierët e të Dhënave" vazhdon të rishfaqet 😬

Frika vjen nga një vend shumë specifik: inxhinieria e të dhënave ka shumë punë të përsëritshme.

Shkrimi dhe riorganizimi i SQL-së
Ndërtimi i skripteve të gëlltitjes
Hartimi i fushave nga një skemë në tjetrën
Krijimi i testeve dhe dokumentacionit bazë
Debugging dështimet e tubacionit që janë… disi të parashikueshme

IA është jashtëzakonisht e mirë në modelet e përsëritshme. Dhe një pjesë e inxhinierisë së të dhënave është pikërisht kjo - modele të grumbulluara mbi modele. Sugjerime për kodin e GitHub Copilot.

Gjithashtu, ekosistemi i mjeteve tashmë po "fsheh" kompleksitetin:

Dokumentet e Fivetran për lidhësit e menaxhuar ELT
Llogaritja pa server AWS Lambda (llogaritja pa server)
Furnizim me një klikim i depove
e orkestrimit të shkallëzimit automatik të Apache Airflow
Kornizat e transformimit deklarativ Çfarë është dbt?

Pra, kur shfaqet IA, mund të duket sikur është pjesa e fundit. Nëse pirgu është tashmë i abstraktuar dhe IA mund të shkruajë kodin ngjitës… çfarë mbetet? 🤷

Por ja ku qëndron çështja që njerëzit e anashkalojnë: inxhinieria e të dhënave nuk është kryesisht të shkruash me dorë. Shkrimi me dorë është pjesa e lehtë. Pjesa e vështirë është ta bësh realitetin e errët, politik dhe në ndryshim të biznesit të sillet si një sistem i besueshëm.

Dhe inteligjenca artificiale ende përballet me atë errësirë. Edhe njerëzit përballen me vështirësi - ata thjesht improvizojnë më mirë.

Çfarë bëjnë në të vërtetë inxhinierët e të dhënave gjithë ditën (e vërteta jo e këndshme) 🧱

Le të jemi të sinqertë - titulli i punës "Inxhinier i të Dhënave" tingëllon sikur po ndërtoni motorë raketash nga matematika e pastër. Në praktikë, po ndërtoni besim.

Një ditë tipike është më pak "shpikje algoritmesh të reja" dhe më shumë:

Negocimi me ekipet e nivelit të lartë rreth përkufizimeve të të dhënave (i dhimbshëm, por i domosdoshëm)
Hetimi i arsyes pse një metrikë ndryshoi (dhe nëse është e vërtetë)
Trajtimi i ndryshimit të skemës dhe surprizave "dikush shtoi një kolonë në mesnatë"
Sigurimi që tubacionet janë idempotente, të rikuperueshme, të vëzhgueshme
Krijimi i kangjellave mbrojtëse në mënyrë që analistët e rrjedhës së poshtme të mos ndërtojnë aksidentalisht panele kontrolli pa kuptim
Menaxhimi i kostove në mënyrë që depoja juaj të mos shndërrohet në një zjarr të madh parash 🔥
Sigurimi i aksesit, auditimi, pajtueshmëria, politikat e ruajtjes Parimet e GDPR (Komisioni Evropian) Kufizimi i ruajtjes (ICO)
Ndërtimi i produkteve të të dhënave që njerëzit mund t'i përdorin pa ju dërguar mesazh privat, 20 pyetje

Një pjesë e madhe e punës është sociale dhe operacionale:

"Kush e zotëron këtë tavolinë?"
"A është ende i vlefshëm ky përkufizim?"
"Pse CRM po eksporton kopje identike?"
"A mund t'ua dërgojmë këtë metrikë drejtuesve pa u turpëruar?" 😭

IA mund të ndihmojë me disa pjesë të kësaj, sigurisht. Por zëvendësimi i saj i plotë është… një teprim.

Çfarë e bën një version të fortë të një roli në inxhinierinë e të dhënave? ✅

Ky seksion ka rëndësi sepse diskutimet për zëvendësimin zakonisht supozojnë se inxhinierët e të dhënave janë kryesisht "ndërtues të tubacioneve". Kjo është si të supozojmë se shefat e kuzhinës kryesisht "presin perime". Është pjesë e punës, por nuk është puna.

Një version i fortë i një inxhinieri të dhënash zakonisht do të thotë se ata mund të bëjnë shumicën e këtyre:

Dizajn për ndryshim
. Të dhënat ndryshojnë. Ekipet ndryshojnë. Mjetet ndryshojnë. Një inxhinier i mirë ndërton sisteme që nuk shemben sa herë që realiteti teshtin 🤧
Përcaktoni kontratat dhe pritjet
Çfarë do të thotë "klient"? Çfarë do të thotë "aktiv"? Çfarë ndodh kur një rresht mbërrin me vonesë? Kontratat parandalojnë kaosin më shumë sesa kodi i sofistikuar. Standardi i Kontratave të të Dhënave të Hapura (ODCS) ODCS (GitHub)
Ndërtoni vëzhgueshmëri në gjithçka
Jo vetëm "a funksionoi", por "a funksionoi saktë". Freski, anomali të vëllimit, shpërthime zero, ndryshime shpërndarjeje. Vëzhgueshmëria e të dhënave (Dynatrace) Çfarë është vëzhgueshmëria e të dhënave?
Bëni kompromise si një i rritur:
Shpejtësia kundrejt saktësisë, kostoja kundrejt vonesës, fleksibiliteti kundrejt thjeshtësisë. Nuk ka një kanal të përsosur, vetëm kanale me të cilat mund të jetoni.
Përkthejini nevojat e biznesit në sisteme të qëndrueshme.
Njerëzit kërkojnë metrika, por ajo që u nevojitet është një produkt të dhënash. IA mund të hartojë kodin, por nuk mund t'i dijë në mënyrë magjike minat tokësore të biznesit.
Mbajini të dhënat të fshehta
Komplimenti më i lartë për një platformë të dhënash është se askush nuk flet për to. Të dhënat pa ngjarje janë të dhëna të mira. Ashtu si hidraulika. I vini re vetëm kur ato prishen 🚽

Nëse po i bëni këto gjëra, pyetja "A do t'i zëvendësojë inteligjenca artificiale inxhinierët e të dhënave?" fillon të tingëllojë... paksa e çuditshme. IA mund të zëvendësojë detyrat, jo pronësinë.

Ku IA tashmë po i ndihmon inxhinierët e të dhënave (dhe kjo është vërtet e shkëlqyer) 🤖✨

IA nuk është thjesht marketing. E përdorur mirë, është një shumëzues legjitim i forcës.

1) Punë më e shpejtë e SQL dhe transformimit

Hartimi i bashkimeve komplekse
Shkrimi i funksioneve të dritares për të cilat nuk do të dëshironit të mendonit
Shndërrimi i logjikës së gjuhës së thjeshtë në skelete pyetjesh
Rifaktorizimi i pyetjeve të shëmtuara në CTE të lexueshme GitHub Copilot për SQL

Kjo është shumë e rëndësishme sepse zvogëlon efektin e "faqes bosh". Ju ende duhet ta validoni, por filloni me 70% në vend të 0%.

2) Debugging dhe breadcrumbs shkaku rrënjësor

IA është e mirë në:

Shpjegimi i mesazheve të gabimit
Sugjerim se ku të shikoni
Rekomandimi i hapave të tipit "kontrolloni mospërputhjen e skemës" GitHub Copilot
Është si të kesh një inxhinier të ri të palodhur që nuk fle kurrë dhe ndonjëherë gënjen me besim 😅

3) Dokumentacioni dhe pasurimi i katalogut të të dhënave

Gjeneruar automatikisht:

Përshkrimet e kolonave
Përmbledhjet e modeleve
Shpjegime të prejardhjes
"Për çfarë përdoret kjo tabelë?" harton dokumentacionin e dbt-së

Nuk është perfekt, por e thyen mallkimin e tubacioneve të padokumentuara.

4) Testimi i skelave dhe kontrollet

IA mund të propozojë:

Testet bazë null
Kontrollet e unikalitetit
Ide për integritetin referues
Pohime të stilit "Kjo metrikë nuk duhet të ulet kurrë" teste të të dhënave dbt Pritjet e Mëdha: Pritjet

Përsëri - ju prapë vendosni se çfarë ka rëndësi, por kjo përshpejton pjesët rutinë.

5) Kodi i "ngjitësit" të tubacionit

Shabllone konfigurimi, skela YAML, drafte DAG orkestrimi. Këto gjëra janë përsëritëse dhe IA ha përsëritëse për mëngjes 🥣 Apache Airflow DAG.

Ku inteligjenca artificiale ende ka vështirësi (dhe ky është thelbi i saj) 🧠🧩

Kjo është pjesa që ka më shumë rëndësi, sepse i përgjigjet pyetjes së zëvendësimit me një strukturë të vërtetë.

1) Paqartësi dhe përkufizime që ndryshojnë

Logjika e biznesit rrallë është e qartë. Njerëzit ndryshojnë mendje në mes të fjalisë. "Përdorues aktiv" bëhet "përdorues aktiv pagues" bëhet "përdorues aktiv pagues duke përjashtuar rimbursimet përveç ndonjëherë"... e dini si është.

IA nuk mund ta zotërojë këtë paqartësi. Ajo vetëm mund të hamendësojë.

2) Përgjegjshmëria dhe rreziku

Kur një tubacion prishet dhe paneli ekzekutiv tregon gjëra të pakuptimta, dikush duhet të:

triazh
komunikoni ndikimin
rregulloje
parandaloni përsëritjen
shkruaj postmortemin
vendosni nëse biznesi mund t'u besojë ende shifrave të javës së kaluar

IA mund të ndihmojë, por nuk mund të jetë përgjegjëse në një mënyrë kuptimplote. Organizatat nuk funksionojnë sipas energjive - ato funksionojnë sipas përgjegjësisë.

3) Të menduarit sistematik

Platformat e të dhënave janë ekosisteme: gëlltitja, ruajtja, transformimet, orkestrimi, qeverisja, kontrollet e kostove, SLA-të. Një ndryshim në një shtresë ndikon negativisht. Konceptet e Apache Airflow

Inteligjenca Artificiale mund të propozojë optimizime lokale që krijojnë probleme globale. Është si të rregullosh një derë që kërcet duke e hequr atë 😬

4) Siguria, privatësia, pajtueshmëria

Këtu vdesin fantazitë e zëvendësimit.

Kontrollet e aksesit
Siguria në nivel rreshti Politikat e qasjes në rreshta Snowflake Siguria në nivel rreshti BigQuery
Trajtimi i PII-së që trajton Kornizën e Privatësisë të NIST-it
Rregullat e ruajtjes Kufizimi i ruajtjes (ICO) Udhëzimet e BE-së për ruajtjen
Gjurmët e auditimit NIST SP 800-92 (menaxhimi i regjistrave) CIS Control 8 (Menaxhimi i regjistrave të auditimit)
Kufizimet e rezidencës së të dhënave

IA mund të hartojë politika, por zbatimi i tyre në mënyrë të sigurt është inxhinieri e vërtetë.

5) "Të panjohurat e panjohura"

Incidentet e të dhënave shpesh janë të paparashikueshme:

Një API i shitësit ndryshon në heshtje semantikën
Një supozim i zonës kohore ndryshon
Një mbushje prapa kopjon një ndarje
Një mekanizëm ripërpjekjeje shkakton shkrime të dyfishta
Një veçori e re e produktit prezanton modele të reja ngjarjesh

IA është më e dobët kur situata nuk është një model i njohur.

Tabela Krahasuese: çfarë po zvogëlon çfarë, në praktikë 🧾🤔

Më poshtë është një pikëpamje praktike. Jo "mjete që zëvendësojnë njerëzit", por mjete dhe qasje që zvogëlojnë detyra të caktuara.

Mjet / qasje	Audienca	Atmosfera e çmimeve	Pse funksionon
Kopilotët e kodit të IA-së (ndihmësit SQL + Python) Kopiloti i GitHub	Inxhinierë që shkruajnë shumë kod	Nga pak falas në pak me pagesë	I shkëlqyer në skela, rindërtim, sintaksë… ndonjëherë i vetëkënaqur në një mënyrë shumë specifike
Lidhës të menaxhuar ELT Fivetran	Ekipet e lodhura nga ndërtimi i gëlltitjes	Abonim-y	Heq dhimbjen e gëlltitjes me porosi, por thyen në mënyra të reja argëtuese
Platformat e vëzhgimit të të dhënave Vëzhgimi i të dhënave (Dynatrace)	Kushdo që zotëron SLA-të	Ndërmarrje e mesme deri në ndërmarrje	Kap anomalitë herët - si alarmet e tymit për tubacionet 🔔
Kornizat e transformimit (modelim deklarativ) dbt	Hibridet e Analitikës + DE	Zakonisht mjet + llogaritje	E bën logjikën modulare dhe të testueshme, më pak të ndërlikuar
Katalogët e të dhënave + shtresat semantike dbt Shtresa Semantike	Organizata me konfuzion metrik	Varet, në praktikë	Përcakton "të vërtetën" një herë - zvogëlon debatet e pafundme metrike
Orkestrimi me shabllone Apache Airflow	Ekipet me mendje të orientuar drejt platformës	Kostoja e operacioneve të hapura +	Standardizon rrjedhat e punës; më pak DAG me figura dëbore
Gjenerimi i dokumentacionit dbt me ndihmën e inteligjencës artificiale	Ekipet që urrejnë shkrimin e dokumenteve	I lirë deri në mesatar	Krijon dokumente "mjaftueshëm të mira" në mënyrë që njohuritë të mos zhduken
Politikat e qeverisjes së automatizuar Korniza e Privatësisë e NIST-it	Mjedise të rregulluara	Ndërmarrje-y	Ndihmon në zbatimin e rregullave - por prapëseprapë ka nevojë për njerëz që t'i hartojnë ato

Vini re se çfarë mungon: një rresht që thotë "shtypni butonin për të hequr inxhinierët e të dhënave". Po... ai rresht nuk ekziston 🙃

Pra… a do t’i zëvendësojë inteligjenca artificiale Inxhinierët e të Dhënave, apo thjesht do ta ndryshojë rolin? 🛠️

Ja përgjigjja jo-dramatike: IA do të zëvendësojë pjesë të rrjedhës së punës, jo profesionin.

Por do ta rikonfigurojë rolin. Dhe nëse e injoroni këtë, do ta ndjeni shtrëngimin.

Çfarë ndryshimesh:

Më pak kohë për të shkruar standarde standarde
Më pak kohë për kërkimin e dokumenteve
Më shumë kohë duke shqyrtuar, vlerësuar, projektuar
Më shumë kohë për përcaktimin e kontratave dhe pritjeve të cilësisë Standardi i Kontratave të të Dhënave të Hapura (ODCS)
Më shumë kohë duke bashkëpunuar me produktet, sigurinë dhe financat

Ky është ndryshimi delikat: inxhinieria e të dhënave bëhet më pak e lidhur me "ndërtimin e tubacioneve" dhe më shumë me "ndërtimin e një sistemi të besueshëm të produkteve të të dhënave"

Dhe në një kthesë të qetë, kjo është më e vlefshme, jo më pak.

Gjithashtu - dhe do ta them këtë edhe nëse tingëllon dramatike - IA rrit numrin e njerëzve që mund të prodhojnë artefakte të të dhënave, gjë që rrit nevojën për dikë që ta mbajë të gjithë gjënë të shëndoshë. Më shumë rezultate do të thotë më shumë konfuzion i mundshëm. GitHub Copilot

Është sikur t’u japësh të gjithëve nga një makinë shpimi. Shkëlqyeshëm! Tani dikush duhet të zbatojë rregullin “ju lutem mos shponi në tubin e ujit” 🪠

Grumbulli i ri i aftësive që mbetet i vlefshëm (edhe me inteligjencën artificiale kudo) 🧠⚙️

Nëse dëshironi një listë kontrolli praktike “të qëndrueshme për të ardhmen”, duket kështu:

Mentaliteti i dizajnit të sistemit

Modelimi i të dhënave që i mbijeton ndryshimit
Kompromise në grup kundrejt transmetimit
Mendimi mbi vonesën, koston, besueshmërinë

Inxhinieri e cilësisë së të dhënave

Kontratat, validimet, zbulimi i anomalive Standardi i Kontratës së të Dhënave të Hapura (ODCS) Vëzhgueshmëria e të dhënave (Dynatrace)
SLA-të, SLO-të, zakonet e reagimit ndaj incidenteve
Analiza e shkakut rrënjësor me disiplinë (jo me humor)

Qeverisja dhe arkitektura e besimit

Modelet e qasjes
Auditueshmëria NIST SP 800-92 (menaxhimi i regjistrave)
Korniza e Privatësisë NIST
Udhëzimet e BE-së për menaxhimin e ciklit jetësor të të dhënave

Të menduarit në platformë

Shabllone të ripërdorshme, shtigje të arta
Modele të standardizuara për gëlltitje, transformime, testime Fivetran dbt
Vegla vetëshërbimi që nuk shkrihen

Komunikimi (po, me të vërtetë)

Shkrimi i dokumenteve të qarta
Përputhja e përkufizimeve
Të thuash "jo" me edukatë, por me vendosmëri
Duke shpjeguar kompromiset pa tingëlluar si robot 🤖

Nëse mund t’i bësh këto, pyetja “A do t’i zëvendësojë inteligjenca artificiale inxhinierët e të dhënave?” bëhet më pak kërcënuese. IA bëhet ekzoskeleti yt, jo zëvendësimi yt.

Skenarë realistë ku disa role të inxhinierisë së të dhënave tkurren 📉

Në rregull, një verifikim i shpejtë i realitetit, sepse nuk është vetëm diell dhe emoji konfeti 🎉

Disa role janë më të ekspozuara:

Role të pastra vetëm për gëlltitje ku gjithçka është lidhëse standarde Lidhës Fivetran
Ekipet që kryejnë kryesisht raportime të përsëritura me nuanca minimale të domenit
Organizata ku inxhinieria e të dhënave trajtohet si "majmunë SQL" (e ashpër, por e vërtetë)
Role me pak përgjegjësi ku puna është vetëm bileta dhe kopjim-ngjitje

IA plus mjetet e menaxhuara mund t'i zvogëlojnë këto nevoja.

Por edhe atje, zëvendësimi zakonisht duket si:

Më pak njerëz që bëjnë të njëjtën punë përsëritëse
Më shumë theks në pronësinë dhe besueshmërinë e platformës
Një ndryshim drejt "një person mund të mbështesë më shumë tubacione"

Pra, po - modelet e numërimit të punonjësve mund të ndryshojnë. Rolet evoluojnë. Titujt ndryshojnë. Kjo pjesë është reale.

Megjithatë, versioni i rolit me përgjegjësi të lartë dhe besim të lartë mbetet ende.

Përmbledhje përmbyllëse 🧾✅

A do t’i zëvendësojë inteligjenca artificiale inxhinierët e të dhënave? Jo në mënyrën e pastër dhe të plotë që njerëzit e imagjinojnë.

IA do të:

automatizoni detyrat e përsëritura
përshpejtoni kodimin, debugging-un dhe dokumentimin GitHub Copilot për dokumentimin e SQL dbt
uljen e kostos së prodhimit të tubacioneve

Por inxhinieria e të dhënave ka të bëjë në thelb me:

përgjegjësi
dizajni i sistemit
besim, cilësi dhe qeverisje Standardi i Kontratës së të Dhënave të Hapura (ODCS) Korniza e Privatësisë NIST
përkthimi i realitetit të errët të biznesit në produkte të besueshme të të dhënave

IA mund të ndihmojë me këtë… por nuk e “zotëron” atë.

Nëse je inxhinier të dhënash, lëvizja është e thjeshtë (jo e lehtë, por e thjeshtë):
mbështetu te pronësia, cilësia, të menduarit mbi platformën dhe komunikimi. Lëre inteligjencën artificiale të merret me standardet standarde, ndërsa ti të merresh me pjesët që kanë rëndësi.

Dhe po - ndonjëherë kjo do të thotë të jesh i rrituri në dhomë. Jo joshës. Megjithatë, mjaft i fuqishëm 😄

A do t’i zëvendësojë inteligjenca artificiale Inxhinierët e të Dhënave?
Do të zëvendësojë disa detyra, do të riorganizojë nivelet e punës dhe do t’i bëjë inxhinierët më të mirë të të dhënave edhe më të vlefshëm. Kjo është historia e vërtetë.

Shembull nga bota reale: Ndërtimi i një rrjedhe pune për shqyrtimin e tubacionit të të dhënave të asistuar nga inteligjenca artificiale 🛠️

Skenari

Imagjinoni një kompani të vogël të tregtisë elektronike me një inxhinier të dhënash, dy analistë dhe një problem shumë të njohur: paneli i financave vazhdon të prishet sa herë që ofruesi i pagesave ndryshon emrin e një fushe.

Ekipi nuk dëshiron që IA të “zotërojë” rrjedhën e informacionit. Kjo do të ishte e rrezikshme. Në vend të kësaj, ata e përdorin IA-në si asistente të draftit të parë për punë rutinë, por të rëndësishme: shkrimin e skeleteve të modelit dbt, sugjerimin e testeve, hartimin e dokumentacionit dhe krijimin e një liste kontrolli për shqyrtimin e kodit.

Inxhinieri i të dhënave njerëzore ende zotëron projektin përfundimtar, përkufizimet e të dhënave, rregullat e aksesit dhe vendosjen e prodhimit. IA thjesht përshpejton segmentin kompleks të mesëm.

Çfarë nevojitet për rrjedhën e punës

Përpara se të përdorë inteligjencën artificiale, ekipi i jep asaj kontekst të mjaftueshëm për të qenë i dobishëm:

Skema ekzistuese e tabelës së pagesave
Përkufizimet e metrikës së financave të synuara, të tilla si "të ardhurat neto", "shuma e rimbursimit" dhe "pagesa e paguar"
Konventat e emërtimit për modelet dbt
Shembuj të testeve të miratuara
Një kontratë e shkurtër e të dhënave për rrjedhën e pagesave
Rregullat për trajtimin e të dhënave personale personale, pagesave të dështuara, dublikatave dhe të dhënave që mbërrijnë me vonesë
Një mostër e incidenteve të kaluara, duke përfshirë çfarë shkoi keq dhe si u rregullua

Çelësi nuk është "t'i kërkosh Inteligjencës Artificiale të ndërtojë një tubacion". Kjo është shumë e paqartë.

Qasja më e fortë është: "Këtu janë rregullat tona, këtu është skema, këtu është sjellja e pritur. Hartoni diçka që mund ta shqyrtojmë."

Shembull udhëzimi

Ju po ndihmoni në hartimin e një modeli dbt për të dhënat tona të pagesave. Përdorni skemën dhe rregullat më poshtë për të krijuar një model të kalimit të parë, testet e sugjeruara dbt dhe shënimet e dokumentacionit.

Modeli duhet të llogarisë të ardhurat ditore të shlyera sipas order_id dhe payment_provider. Përjashto pagesat e dështuara, përjashto transaksionet e testimit dhe zbrit rimbursimet vetëm kur refund_status = "konfirmuar".

Mos shpikni kolona. Nëse mungon një kolonë e kërkuar, renditeni atë nën "Pyetje për shqyrtim njerëzor" në vend që të bëni hamendje.

Gjithashtu sugjeroni teste për unikalitetin, vlerat zero, vlerat e pranuara dhe arsyeshmërinë e të ardhurave. Shënoni çdo logjikë që mund të ndikojë në raportimin financiar.

Si ta testoni

Një test i arsyeshëm është i vogël dhe qëllimisht i zakonshëm:

Jepini IA-së një skemë pagese të njohur si të mirë dhe kontrolloni nëse ajo shmang shpikjen e fushave.
Jepi një skemë me një kolonë që mungon refund_status dhe shiko nëse bën ndonjë pyetje në vend që të hamendësojë.
Ekzekutoni SQL-në e gjeneruar kundrejt një grupi të dhënash të fazës së përgatitjes, jo prodhimit.
Krahasoni rezultatin me 20 të dhëna pagesash të kontrolluara manualisht.
Kërkojini një analisti dhe inxhinierit të të dhënave të rishikojnë përkufizimet para bashkimit.
Shtoni testet e pranuara në CI në mënyrë që tubacioni të vazhdojë të kontrollojë veten pas vendosjes.

Gjëja e rëndësishme është të testoni inteligjencën artificiale në mënyrat e dështimit që ju frikësohen më shumë: kolona të sajuara, logjikë e gabuar e të ardhurave, mungesë e trajtimit të rimbursimit dhe rreshta të dyfishta të heshtura.

Rezultati

Rezultati ilustrues: bazuar në përcaktimin e kohës së tre detyrave shembullore të ndryshimit të tubacionit para dhe pas përdorimit të këtij fluksi pune.

Përpara se të përdorte inteligjencën artificiale, inxhinieri shpenzonte rreth 5 orë e 30 minuta për çdo ndryshim: afërsisht 2 orë duke shkruar SQL, 1 orë duke krijuar teste, 45 minuta duke shkruar dokumente dhe pjesën tjetër duke kontrolluar rastet kryesore me financën.

Meqë inteligjenca artificiale u përdor vetëm për draftet e para, i njëjti lloj ndryshimi zgjati rreth 2 orë e 10 minuta. Kursimi më i madh erdhi nga përgatitja e testeve dhe draftet e dokumentacionit, të cilat ranë nga 1 orë e 45 minuta në rreth 25 minuta.

Hapi i shqyrtimit njerëzor zgjati rreth 45 minuta dhe nuk duhet të hiqet.

Në testin me tre detyra, IA sugjeroi 18 kontrolle. Inxhinieri pranoi 11, redaktoi 5 dhe refuzoi 2 sepse ata supozuan rregulla biznesi që nuk ishin të vërteta. Ky numër i refuzimeve ka rëndësi: ai vërteton se rrjedha e punës ka nevojë për rishikim, jo besim të verbër.

Çfarë mund të shkojë keq

IA mund ta bëjë një tubacion të duket më i plotë nga ç'është në të vërtetë.

Pikat e zakonshme të dështimit përfshijnë:

Shpikja e kolonave që tingëllojnë të besueshme
Trajtimi i rimbursimeve, rimbursimeve dhe pagesave të dështuara si e njëjta gjë
Probleme me zonën kohore që mungojnë në të ardhurat ditore
Sugjerimi i testeve të përgjithshme që nuk kapin gabimet financiare
Shkrimi i dokumentacionit që tingëllon i sigurt, por fsheh pasigurinë
Harrimi i rregullave të privatësisë kur të dhënat e mostrës përmbajnë detaje të klientit

Një rregull i mirë: IA mund të hartojë modelin, por një njeri duhet të miratojë përkufizimet, logjikën e parave, kontrollin e aksesit dhe publikimin e prodhimit.

Përgatitje praktike për të marrë me vete

Versioni i vlefshëm i IA-së në inxhinierinë e të dhënave nuk është "zëvendësimi i inxhinierit të të dhënave". Është "hiq faqen bosh, pastaj rishikoje me kujdes".

Kjo do të thotë SQL më i shpejtë, teste më të shpejta dhe dokumentacion më i mirë që në fazën e parë, ndërsa inxhinieri ende zotëron pjesën që ka më shumë rëndësi: nëse të dhënat janë të sakta, të besueshme, të sigurta dhe të shpjegueshme.

Pyetje të shpeshta

A do t’i zëvendësojë plotësisht inteligjenca artificiale inxhinierët e të dhënave?

Në shumicën e organizatave, IA ka më shumë gjasa të marrë përsipër detyra specifike sesa të fshijë plotësisht rolin. Mund të përshpejtojë hartimin e SQL, ndërtimin e kanaleve të punës, kalimin e parë të dokumentacionit dhe krijimin e testeve bazë. Por inxhinieria e të dhënave mbart gjithashtu pronësi dhe llogaridhënie, plus punën e parëndësishme të bërjes që realiteti i çrregullt i biznesit të sillet si një sistem i besueshëm. Këto pjesë ende kanë nevojë për njerëz për të vendosur se si duket "e drejta" dhe për të marrë përgjegjësi kur gjërat prishen.

Cilat pjesë të inxhinierisë së të dhënave po automatizon tashmë IA?

IA performon më mirë në punë të përsëritshme: hartimin dhe ripërpunimin e SQL-së, gjenerimin e skeleteve të modelit dbt, shpjegimin e gabimeve të zakonshme dhe prodhimin e skicave të dokumentacionit. Gjithashtu mund të ndërtojë teste si kontrolle boshe ose unike dhe të gjenerojë kod "ngjitës" të shabllonit për mjetet e orkestrimit. Fitorja është momenti - ju filloni më afër një zgjidhjeje funksionale - por prapëseprapë duhet të validoni saktësinë dhe të siguroheni që ajo i përshtatet mjedisit tuaj.

Nëse IA mund të shkruajë SQL dhe tubacione, çfarë u mbetet inxhinierëve të të dhënave?

Shumë: përcaktimi i kontratave të të dhënave, trajtimi i devijimit të skemave dhe sigurimi që kanalet janë idempotente, të vëzhgueshme dhe të rikuperueshme. Inxhinierët e të dhënave shpenzojnë kohë duke hetuar ndryshimet metrike, duke ndërtuar parmakë mbrojtës për përdoruesit e mëtejshëm dhe duke menaxhuar kompromiset e kostos dhe besueshmërisë. Puna shpesh varet nga ndërtimi i besimit dhe mbajtja e platformës së të dhënave "të qetë", që do të thotë mjaftueshëm e qëndrueshme sa askush të mos mendojë për të çdo ditë.

Si e ndryshon inteligjenca artificiale punën e përditshme të një inxhinieri të dhënash?

Zakonisht shkurton kohën standarde dhe "kohën e kërkimit", kështu që ju shpenzoni më pak kohë duke shtypur dhe më shumë kohë duke shqyrtuar, vlerësuar dhe dizajnuar. Ky ndryshim e shtyn rolin drejt përcaktimit të pritjeve, standardeve të cilësisë dhe modeleve të ripërdorshme në vend të kodimit manual të gjithçkaje. Në praktikë, ka të ngjarë të bëni më shumë punë partneriteti me produktin, sigurinë dhe financat - sepse rezultati teknik bëhet më i lehtë për t'u krijuar, por më i vështirë për t'u menaxhuar.

Pse IA ka vështirësi me përkufizime të paqarta biznesi si "përdorues aktiv"?

Sepse logjika e biznesit nuk është statike ose e saktë - ajo ndryshon në mes të projektit dhe ndryshon në varësi të palëve të interesuara. IA mund të hartojë një interpretim, por nuk mund ta zotërojë vendimin kur përkufizimet evoluojnë ose dalin në pah konflikte. Inxhinieria e të dhënave shpesh kërkon negociata, dokumentim të supozimeve dhe shndërrim të kërkesave të paqarta në kontrata të qëndrueshme. Kjo punë e "përshtatjes njerëzore" është një arsye kryesore pse roli nuk zhduket edhe ndërsa përmirësohet përdorimi i mjeteve.

A mund ta trajtojë inteligjenca artificiale në mënyrë të sigurt qeverisjen e të dhënave, privatësinë dhe punën e pajtueshmërisë?

IA mund të ndihmojë në hartimin e politikave ose të sugjerojë qasje, por zbatimi i sigurt kërkon ende inxhinieri të vërtetë dhe mbikëqyrje të kujdesshme. Qeverisja përfshin kontrollet e aksesit, trajtimin e PII-ve, rregullat e ruajtjes, gjurmët e auditimit dhe nganjëherë kufizimet e vendbanimit. Këto janë fusha me rrezik të lartë ku "pothuajse e drejtë" nuk është e pranueshme. Njerëzit duhet të hartojnë rregullat, të verifikojnë zbatimin dhe të mbeten përgjegjës për rezultatet e pajtueshmërisë.

Cilat aftësi mbeten të vlefshme për inxhinierët e të dhënave ndërsa përmirësohet IA?

Aftësitë që i bëjnë sistemet elastike: të menduarit në projektimin e sistemit, inxhinieria e cilësisë së të dhënave dhe standardizimi i orientuar drejt platformës. Kontratat, vëzhgueshmëria, zakonet e reagimit ndaj incidenteve dhe analiza e disiplinuar e shkaqeve rrënjësore bëhen edhe më të rëndësishme kur më shumë njerëz mund të gjenerojnë shpejt artefakte të të dhënave. Komunikimi gjithashtu bëhet një dallues - harmonizimi i përkufizimeve, shkrimi i dokumenteve të qarta dhe shpjegimi i kompromiseve pa drama është një pjesë e madhe e ruajtjes së besueshmërisë së të dhënave.

Cilat role të inxhinierisë së të dhënave janë më të rrezikuara nga inteligjenca artificiale dhe mjetet e menaxhuara?

Rolet e përqendruara ngushtësisht në gëlltitjen e përsëritur ose në kanalet standarde të raportimit janë më të ekspozuara, veçanërisht kur lidhësit e menaxhuar ELT mbulojnë shumicën e burimeve. Puna me përgjegjësi të ulët dhe e bazuar në bileta mund të tkurret sepse inteligjenca artificiale dhe abstraksioni zvogëlojnë përpjekjen për çdo kanal. Por kjo zakonisht duket si më pak njerëz që kryejnë detyra të përsëritura, jo "pa inxhinierë të dhënash". Rolet me përgjegjësi të lartë të përqendruara në besueshmëri, cilësi dhe besim mbeten të qëndrueshme.

Si duhet të përdor mjete si GitHub Copilot ose dbt me IA pa krijuar kaos?

Trajtojeni rezultatin e IA-së si një draft, jo si një vendim. Përdoreni atë për të gjeneruar skelete pyetjesh, për të përmirësuar lexueshmërinë ose për të ndërtuar teste dhe dokumente DBT, pastaj validojeni kundrejt të dhënave reale dhe rasteve të skajshme. Kombinojeni atë me konventa të forta: kontrata, standarde emërtimi, kontrolle vëzhgueshmërie dhe praktika rishikimi. Qëllimi është një ofrim më i shpejtë pa sakrifikuar besueshmërinë, kontrollin e kostos ose qeverisjen.

Referencat

Komisioni Evropian - Mbrojtja e të dhënave e shpjeguar: Parimet e GDPR-së - commission.europa.eu
Zyra e Komisionerit të Informacionit (ICO) - Kufizimi i ruajtjes - ico.org.uk
Komisioni Evropian - Sa kohë mund të ruhen të dhënat dhe a është e nevojshme të përditësohen ato? - commission.europa.eu
Instituti Kombëtar i Standardeve dhe Teknologjisë (NIST) - Korniza e Privatësisë - nist.gov
Qendra e Burimeve të Sigurisë Kompjuterike NIST (CSRC) - SP 800-92: Udhëzues për Menaxhimin e Regjistrave të Sigurisë Kompjuterike - csrc.nist.gov
Qendra për Sigurinë në Internet (CIS) - Menaxhimi i Regjistrit të Auditimit (Kontrollet CIS) - cisecurity.org
Dokumentacioni i Snowflake - Politikat e aksesit në rreshta - docs.snowflake.com
Dokumentacioni i Google Cloud - Siguria në nivel rreshti e BigQuery - docs.cloud.google.com
BITOL - Standardi i Kontratës së të Dhënave të Hapura (ODCS) v3.1.0 - bitol-io.github.io
BITOL (GitHub) - Standardi i Kontratës së të Dhënave të Hapura - github.com
Apache Airflow - Dokumentacion (i qëndrueshëm) - airflow.apache.org
Apache Airflow - DAG (konceptet kryesore) - airflow.apache.org
Dokumentacioni i Laboratorëve dbt - Çfarë është dbt? - docs.getdbt.com
Dokumentacioni i Laboratorëve dbt - Rreth modeleve dbt - docs.getdbt.com
Dokumentacioni i Laboratorëve dbt - Dokumentacion - docs.getdbt.com
Dokumentacioni i Laboratorëve dbt - Testet e të dhënave - docs.getdbt.com
Dokumentacioni i Laboratorëve dbt - Shtresa Semantike e dbt - docs.getdbt.com
Dokumentacioni i Fivetran - Si të filloni - fivetran.com
Fivetran - Lidhës - fivetran.com
Dokumentacioni i AWS - Udhëzuesi i Zhvilluesit të AWS Lambda - docs.aws.amazon.com
GitHub - Pilot i Bashkëpunëtorit të GitHub - github.com
Dokumentet e GitHub - Marrja e sugjerimeve të kodit në IDE-në tuaj me GitHub Copilot - docs.github.com
Microsoft Learn - GitHub Copilot për SQL (zgjerim VS Code) - learn.microsoft.com
Dokumentacioni i Dynatrace - Vëzhgueshmëria e të dhënave - docs.dynatrace.com
DataGalaxy - Çfarë është vëzhgueshmëria e të dhënave? - datagalaxy.com
Dokumentacioni i Pritjeve të Mëdha - Përmbledhje e Pritjeve - docs.greatexpectations.io

Gjeni IA-në më të fundit në Dyqanin Zyrtar të Asistentëve të IA-së

Rreth Nesh

Kthehu te blogu