Çfarë duhet të kem parasysh në lidhje me pozitivet e rreme me detektorët IA?

Rezultatet pozitive të rreme mund të ndodhin kur shkrimi formal ose teknik, anglishtja jo amtare ose tekstet tepër të pastra shënohen si të ngjashme me inteligjencën artificiale. Është e rëndësishme të konsiderohet rezultati i një detektor si një sinjal për shqyrtim dhe jo si një përfundim përfundimtar.

A ka stile specifike shkrimi me të cilat detektorët e inteligjencës artificiale kanë vështirësi?

Po, detektorët e inteligjencës artificiale shpesh kanë vështirësi me shkrime shumë formale, teknike ose të bazuara në shabllone, pasi këto stile mund të duken statistikisht të ngjashme me përmbajtjen e gjeneruar nga inteligjenca artificiale. Ndryshimet në stilet e shkrimit mund të çojnë në vlerësime të pasakta.

Çfarë e bën një detektor AI të besueshëm?

Një detektor i besueshëm i inteligjencës artificiale minimizon pozitivet e rreme, ofron shpjegime të qarta për rezultatet e tij dhe tregon transparencë. Ai duhet të prodhojë rezultate të qëndrueshme në zhanre të ndryshme shkrimi dhe të mbetet efektiv edhe me redaktimet njerëzore të tekstit.

Si i interpretoj rezultatet e ndryshme të detektorëve të inteligjencës artificiale?

Rezultatet duhen parë si sinjale rreziku dhe jo si gjykime përfundimtare. Rezultatet më të ulëta në përgjithësi tregojnë shkrim të ngjashëm me njeriun, ndërsa rezultatet më të larta sugjerojnë modele të ngjashme me inteligjencën artificiale. Rezultatet e nivelit të mesëm mund të jenë të paqarta, prandaj merrni në konsideratë kontekst shtesë.

A mund t'u besoj detektorëve të inteligjencës artificiale për vlerësime me rrezik të lartë?

Ndërkohë që detektorët e inteligjencës artificiale mund të ofrojnë njohuri të dobishme, ato nuk janë perfekte dhe nuk duhet të mbështetemi vetëm tek ato për vlerësime me rrezik të lartë. Është thelbësore të kombinoni gjetjet e tyre me gjykimin tuaj dhe shqyrtimin shtesë të përmbajtjes.

Si e përmirëson të kuptuarit e zbulimit të inteligjencës artificiale shkrimin tim?

Duke kuptuar zbulimin e inteligjencës artificiale, mund të përqendroheni në krijimin e përmbajtjes më autentike dhe të larmishme. Ky vetëdijesim ju ndihmon të shmangni grackat e zakonshme që mund të çojnë në keqinterpretime nga mjetet e zbulimit, duke përmirësuar në fund të fundit cilësinë e shkrimit tuaj.

Si funksionojnë detektorët IA? [Video dhe Kuiz]

Përgjigje e shkurtër: Detektorët e inteligjencës artificiale nuk “vërtetojnë” se kush e shkroi diçka; ata vlerësojnë se sa afër përputhet një fragment me modelet e njohura të modelit gjuhësor. Shumica mbështeten në një përzierje klasifikuesish, sinjalesh parashikueshmërie (ngatërresa/shpërthimi), stilometrie dhe, në raste më të rralla, kontrolle filigranësh. Kur mostra është e shkurtër, shumë formale, teknike ose e shkruar nga një autor i gjuhës angleze (ESL), trajtojeni rezultatin si një sinjal për rishikim - jo si një vendim.

Përmbledhjet kryesore:

Probabilitet, jo provë: Trajtojini përqindjet si sinjale rreziku të "ngjashmërisë me inteligjencën artificiale", jo si siguri.

Pozitivë të rremë: Shkrimi formal, teknik, i shabllonizuar ose jo në gjuhë amtare shpesh identifikohet gabimisht.

Përzierje metodash: Mjetet kombinojnë klasifikuesit, ngatërresën/shpërthimin, stilometrinë dhe kontrollet e pazakonta të filigranëve.

Transparenca: Preferoni detektorë që përfshijnë sipërfaqe, karakteristika dhe pasiguri - jo vetëm një numër të vetëm.

Kontestueshmëria: Mbani në dispozicion draftet/shënimet dhe përpunoni provat për mosmarrëveshjet dhe apelimet.

Si funksionojnë detektorët IA? Infografik

Artikuj që mund t'ju pëlqejnë të lexoni pas këtij:

🔗 Cili është detektori më i mirë i AI-së?
Mjetet kryesore të zbulimit të IA-së të krahasuara për saktësinë, veçoritë dhe rastet e përdorimit.

🔗 A janë të besueshëm detektorët e inteligjencës artificiale?
Shpjegon besueshmërinë, pozitivët e rremë dhe pse rezultatet shpesh ndryshojnë.

🔗 A mund ta zbulojë Turnitin inteligjencën artificiale?
Udhëzues i plotë për zbulimin e inteligjencës artificiale Turnitin, kufizimet dhe praktikat më të mira.

🔗 A është i saktë detektori i inteligjencës artificiale QuillBot?
Rishikimi i detajuar i saktësisë, pikave të forta, të dobëta dhe testeve të botës reale.

1) Ideja e shpejtë - çfarë bën në të vërtetë një detektor me inteligjencë artificiale ⚙️

Shumica e detektorëve të inteligjencës artificiale nuk po “kapin inteligjencën artificiale” siç kap një rrjetë që kap një peshk. Ata po bëjnë diçka më prozaike:

Ata vlerësojnë probabilitetin që një pjesë e tekstit të duket sikur ka ardhur nga një model gjuhësor (ose është ndihmuar shumë nga një i tillë). (Një studim mbi zbulimin e tekstit të gjeneruar nga LLM; OpenAI)
Ata e krahasojnë tekstin tuaj me modelet e vërejtura në të dhënat e trajnimit (shkrimi njerëzor kundrejt shkrimit të gjeneruar nga modeli). (Një studim mbi zbulimin e tekstit të gjeneruar nga LLM)
Ata nxjerrin një rezultat (shpesh një përqindje) që duket përfundimtar… por zakonisht nuk është. (Udhëzuesit Turnitin)

Le të jemi të sinqertë - ndërfaqja e përdoruesit do të thotë diçka si "92% AI" dhe truri juaj do të thotë "epo, mendoj se ky është një fakt". Nuk është një fakt. Është hamendësimi i një modeleje për gjurmët e gishtërinjve të një modeleje tjetër. Gjë që është paksa qesharake, si qentë që nuhasin qentë 🐕🐕

2) Si Funksionojnë Detektorët e IA-së: "motorët më të zakonshëm të zbulimit" 🔍

Detektorët zakonisht përdorin një (ose një përzierje) të këtyre qasjeve: (Një studim mbi zbulimin e tekstit të gjeneruar nga LLM)

A) Modelet e klasifikuesit (më të zakonshmet)

Një klasifikues trajnohet në shembuj të etiketuar:

Mostrat e shkruara nga njeriu
Mostrat e gjeneruara nga inteligjenca artificiale
Ndonjëherë mostra "hibride" (tekst i modifikuar nga njeriu me inteligjencë artificiale)

Pastaj mëson modele që ndajnë grupet. Kjo është qasja klasike e të mësuarit automatik dhe mund të jetë çuditërisht e mirë… derisa të mos jetë më. (Një studim mbi zbulimin e tekstit të gjeneruar nga LLM)

B) Vlerësimi i hutimit dhe "shpërthimit" 📈

Disa detektorë llogarisin se sa “i parashikueshëm” është teksti.

Ngatërresa: përafërsisht, sa i befasuar është një model gjuhësor nga fjala tjetër. (Universiteti i Bostonit - Postimet e Ngatërresës)
Një konfuzion më i ulët mund të sugjerojë që teksti është shumë i parashikueshëm (gjë që mund të ndodhë me rezultatet e inteligjencës artificiale). (DetectGPT)
“Burstiness” përpiqet të masë se sa variacion ka në kompleksitetin dhe ritmin e fjalive. (GPTZero)

Kjo qasje është e thjeshtë dhe e shpejtë. Gjithashtu, ngatërrohet lehtë, sepse njerëzit mund të shkruajnë edhe në mënyrë të parashikueshme (përshëndetje email-e të korporatave). (OpenAI)

C) Stilometria (gjurmë gishtash shkrimi) ✍️

Stilometria shqyrton modele si:

gjatësia mesatare e fjalisë
stili i pikësimit
frekuenca e fjalëve të funksionit (the, and, but…)
shumëllojshmëri fjalori
rezultatet e lexueshmërisë

Është si "analiza e shkrimit të dorës", përveç tekstit. Ndonjëherë ndihmon. Ndonjëherë është si të diagnostikosh një ftohje duke parë këpucët e dikujt. (Stilometria dhe shkenca mjeko-ligjore: Një përmbledhje e literaturës; Fjalët Funksionale në Atribuimin e Autorësisë)

D) Zbulimi i filigranit (kur ekziston) 🧩

Disa ofrues modelesh mund të përfshijnë modele delikate ("shenja uji") në tekstin e gjeneruar. Nëse një detektor e njeh skemën e shenjës së ujit, ai mund të përpiqet ta verifikojë atë. (Një shenjë uji për modele të mëdha gjuhësore; Teksti SynthID)

Por… jo të gjitha modelet kanë filigran, jo të gjitha rezultatet e ruajnë filigranin pas redaktimeve, dhe jo të gjithë detektorët kanë qasje në sekretin e produktit. Pra, nuk është një zgjidhje universale. (Mbi Besueshmërinë e Filigranëve për Modelet e Gjuhës së Madhe; OpenAI)

3) Çfarë e bën një version të mirë të një detektori AI ✅

Një detektor “i mirë” (sipas përvojës sime duke testuar një mori prej tyre krah për krah për rrjedha pune editoriale) nuk është ai që bërtet më fort. Është ai që sillet me përgjegjësi.

Ja çfarë e bën një detektor AI të fortë:

Besim i kalibruar: një 70% duhet të nënkuptojë diçka të qëndrueshme, jo lëvizje dore. (Një studim mbi zbulimin e tekstit të gjeneruar nga LLM)
Pozitivitete të rreme të ulëta: nuk duhet të shënojë anglishten jo-amtare, shkrimet ligjore ose manualet teknike si "IA" vetëm sepse janë të pastra. (Stanford HAI; Liang et al. (arXiv))
Limite transparente: duhet të pranojë pasigurinë dhe të tregojë diapazone, jo të pretendojë se është i gjithëdijshëm. (OpenAI; Turnitin)
Ndërgjegjësimi për domenin: detektorët e trajnuar në blogje të rastësishme shpesh kanë vështirësi me tekstin akademik dhe anasjelltas. (Një studim mbi zbulimin e tekstit të gjeneruar nga LLM)
Trajtimi i tekstit të shkurtër: mjetet e mira shmangin vlerësimet tepër të sigurta në mostra të vogla (një paragraf nuk është një univers). (OpenAI; Turnitin)
Ndjeshmëria ndaj rishikimeve: duhet të përballojë redaktimin njerëzor pa u shembur menjëherë në rezultate pa kuptim. (Një studim mbi zbulimin e tekstit të gjeneruar nga LLM)

Më të mirët që kam parë kanë tendencë të jenë paksa modestë. Më të këqijtë bëjnë sikur po lexojnë mendjet 😬

4) Tabela Krahasuese - "llojet" e zakonshme të detektorëve të inteligjencës artificiale dhe ku shkëlqejnë ato 🧾

Më poshtë është një krahasim praktik. Këto nuk janë marka - janë kategoritë kryesore me të cilat do të hasni. (Një anketë mbi zbulimin e tekstit të gjeneruar nga LLM)

Lloji i mjetit (i përafërt)	Publiku më i mirë	Ndjesia e çmimit	Pse funksionon (ndonjëherë)
Kontrolluesi i Përzierjes Lite	Mësues, verifikime të shpejta	Sikur i lirë	Sinjal i shpejtë mbi parashikueshmërinë - por mund të jetë i paqëndrueshëm…
Klasifikuesi Skanues Pro	Redaktorë, Burime Njerëzore, pajtueshmëri	Abonim	Mëson modele nga të dhënat e etiketuara - mirë në tekst me gjatësi mesatare
Analizuesi i stilometrisë	Studiues, ekspertë të mjekësisë ligjore	$$$ ose vend i veçantë	Krahason gjurmët e gishtërinjve të shkrimit - të çuditshme, por të dobishme në formë të gjatë
Gjetësi i filigranëve	Platformat, ekipet e brendshme	Shpesh i paketuar	I fortë kur ekziston filigrani - nëse nuk ekziston, në thelb është duke u mbështetur në supet
Suitë Ndërmarrjesh Hibride	Organizata të mëdha	Për vend, kontrata	Kombinon sinjale të shumëfishta - mbulim më i mirë, më shumë butona për t'u akorduar (dhe më shumë mënyra për të keqkonfiguruar, oops)

Vini re rubrikën "ndjesia e çmimit". Po, kjo nuk është shkencore. Por është e sinqertë 😄

5) Sinjalet kryesore që kërkojnë detektorët - "treguesit" 🧠

Ja çfarë përpiqen të matin shumë detektorë nën kapuç:

Parashikueshmëria (probabiliteti i simboleve)

Modelet gjuhësore gjenerojnë tekst duke parashikuar tokenët e mundshëm të ardhshëm. Kjo tenton të krijojë:

tranzicione më të buta
më pak zgjedhje fjalësh të habitshme
më pak tangjente të çuditshme (përveç nëse kërkohet)
ton i qëndrueshëm (Universiteti i Bostonit - Postimet e Perplexity; DetectGPT)

Njerëzit, nga ana tjetër, shpesh bëjnë më shumë lëvizje zig-zage. Ne e kundërshtojmë veten, shtojmë komente anësore të rastësishme, përdorim metafora paksa të çuditshme - si krahasimi i një detektori AI me një bukëpjekës që gjykon poezinë. Kjo metaforë është e keqe, por e kuptoni.

Përsëritja dhe modelet e strukturës

Shkrimi i inteligjencës artificiale mund të tregojë përsëritje delikate:

skela fjalish të përsëritura ("Në përfundim...", "Përveç kësaj...", "Për më tepër...")
gjatësi të ngjashme paragrafësh
ritëm i qëndrueshëm (Një studim mbi zbulimin e tekstit të gjeneruar nga LLM)

Por gjithashtu - shumë njerëz shkruajnë kështu, veçanërisht në shkollë ose në mjedise të korporatave. Pra, përsëritja është një e dhënë, jo provë.

Qartësia e tepërt dhe proza "tepër e pastër" ✨

Kjo është e veçantë. Disa detektorë e trajtojnë në mënyrë implicite "shkrimin shumë të pastër" si të dyshimtë. (OpenAI)

Gjë që është e pakëndshme sepse:

Shkrimtarët e mirë ekzistojnë
redaktorët ekzistojnë
kontrolli i drejtshkrimit ekziston

Pra, nëse po mendoni se si funksionojnë detektorët me inteligjencë artificiale, një pjesë e përgjigjes është: ndonjëherë ata shpërblejnë ashpërsinë. Gjë që është… pak a shumë e kundërta.

Dendësia semantike dhe frazimi gjenerik

Detektorët mund të sinjalizojnë tekstin që duket si:

tepër i përgjithshëm
pak detaje specifike të jetuara
i mbushur me deklarata të balancuara dhe neutrale (Një studim mbi zbulimin e tekstit të gjeneruar nga LLM)

IA shpesh prodhon përmbajtje që tingëllon e arsyeshme, por paksa e modifikuar. Si një dhomë hoteli që duket bukur, por nuk ka asnjë personalitet 🛏️

6) Qasja e klasifikuesit - si trajnohet (dhe pse prishet) 🧪

Një detektor klasifikues zakonisht trajnohet si më poshtë:

Mblidhni një set të dhënash me tekst njerëzor (ese, artikuj, forume, etj.)
Gjeneroni tekst të IA-së (shpjegime, stile, gjatësi të shumta)
Etiketoni mostrat
Trajnoni një model për t'i ndarë ato duke përdorur veçori ose ngulitje
Validojeni atë në të dhënat e mbajtura
Dërgoje… dhe pastaj realiteti e godet në fytyrë (Një studim mbi zbulimin e tekstit të gjeneruar nga LLM)

Pse realiteti e godet atë:

Zhvendosja e domenit: të dhënat e trajnimit nuk përputhen me shkrimin e përdoruesit real
Ndryshimi i modelit: modelet e gjeneratës së re nuk sillen si ato në të dhënat
Efektet e redaktimit: redaktimet njerëzore mund të heqin modelet e dukshme, por të mbajnë ato delikate
Variacioni gjuhësor: dialektet, shkrimi ESL dhe stilet formale keqinterpretohen (Një studim mbi zbulimin e tekstit të gjeneruar nga LLM; Liang et al. (arXiv))

Kam parë detektorë që ishin "të shkëlqyer" në setin e tyre demo, pastaj që dështuan në shkrimin e vërtetë në vendin e punës. Është si të stërvitësh një qen nuhatës vetëm me një markë biskotash dhe të presësh që ai të gjejë çdo ushqim të lehtë në botë 🍪

7) Hutim dhe shpërthim - rruga e shkurtër matematikore 📉

Kjo familje detektorësh tenton të mbështetet në vlerësimin e modelit gjuhësor:

Ata e kalojnë tekstin tuaj përmes një modeli që vlerëson se sa e mundshme është çdo shenjë tjetër.
Ata llogarisin "surprizën" e përgjithshme (ngatërresën). (Universiteti i Bostonit - Postimet e Ngatërresës)
Ata mund të shtojnë metrika variacioni ("shpërthim") për të parë nëse ritmi ndihet njerëzor. (GPTZero)

Pse ndonjëherë funksionon:

Teksti i papërpunuar i AI mund të jetë jashtëzakonisht i qetë dhe statistikisht i parashikueshëm (DetectGPT)

Pse dështon:

Mostrat e shkurtra janë të zhurmshme
Shkrimi formal është i parashikueshëm
Shkrimi teknik është i parashikueshëm
Shkrimi jo-amtar mund të jetë i parashikueshëm
Teksti i AI-së i redaktuar shumë mund të duket si njerëzor (OpenAI; Turnitin)

Pra, mënyra se si funksionojnë detektorët e inteligjencës artificiale ndonjëherë i ngjan një pistolete shpejtësie që ngatërron biçikletat dhe motoçikletat. E njëjta rrugë, motorë të ndryshëm 🚲🏍️

8) Filigranët - ideja e "gjurmës së gishtit në bojë" 🖋️

Vendosja e filigranit duket si zgjidhja e pastër: shënoni tekstin e IA-së në kohën e gjenerimit, pastaj zbulojeni atë më vonë. (Një filigran për modele të mëdha gjuhësore; Teksti SynthID)

Në praktikë, filigranët mund të jenë të brishtë:

parafrazimi mund t'i dobësojë ato
përkthimi mund t'i prishë ato
citimi i pjesshëm mund t'i heqë ato
Përzierja e burimeve të shumëfishta mund ta turbullojë modelin (Mbi Besueshmërinë e Filigranëve për Modelet e Gjuhës së Madhe)

Gjithashtu, zbulimi i filigranit funksionon vetëm nëse:

përdoret një filigran
Detektori e di se si ta kontrollojë atë
teksti nuk është transformuar shumë (OpenAI; SynthID Text)

Pra, filigranët mund të jenë të fuqishëm, por ato nuk janë një distinktiv universal policie.

9) Rezultatet pozitive të rreme dhe pse ndodhin (pjesa e dhimbshme) 😬

Kjo meriton një seksion më vete sepse është vendi ku zhvillohen më shumë polemika.

Shkaktarët e zakonshëm të pozitivitetit të rremë:

Ton shumë formal (akademik, ligjor, shkrim mbi pajtueshmërinë)
Anglisht jo-amtare (strukturat më të thjeshta të fjalive mund të duken "si modele")
Shkrim i bazuar në shabllone (letra motivimi, SOP, raporte laboratorike)
Shembuj të shkurtër teksti (sinjal i pamjaftueshëm)
Kufizime tematike (disa tema detyrojnë shprehje të përsëritura) (Liang et al. (arXiv); Turnitin)

Nëse ke parë ndonjëherë dikë të kritikohet për shkrim shumë të mirë… po. Kjo ndodh. Dhe është brutale.

Një rezultat detektor duhet të trajtohet si më poshtë:

një alarm tymi, jo një vendim gjykate 🔥
Të thotë "ndoshta kontroll", jo "çështja është mbyllur". (OpenAI; Turnitin)

10) Si t’i interpretosh rezultatet e detektorit si një i rritur 🧠🙂

Ja një mënyrë praktike për të lexuar rezultatet:

Nëse mjeti jep një përqindje të vetme

Trajtojeni si një sinjal të përafërt rreziku:

0-30%: ka të ngjarë të jetë bërë nga njerëz ose shumë i modifikuar
30-70%: zonë e paqartë - mos supozo asgjë
70-100%: më shumë gjasa modele të ngjashme me IA-në, por prapë jo provë (Udhëzuesit Turnitin)

Edhe rezultatet e larta mund të jenë të gabuara, veçanërisht për:

shkrim i standardizuar
zhanre të caktuara (përmbledhje, përkufizime)
Shkrim në ESL (Liang et al. (arXiv))

Kërkoni shpjegime, jo vetëm numra

Detektorët më të mirë ofrojnë:

hapësira të theksuara
shënime të veçanta (parashikueshmëria, përsëritja, etj.)
intervale besimi ose gjuhë pasigurie (Një studim mbi zbulimin e tekstit të gjeneruar nga LLM)

Nëse një mjet refuzon të shpjegojë diçka dhe thjesht të vendos një numër në ballë… unë nuk i besoj. As ti nuk duhet ta besosh.

11) Si funksionojnë detektorët e inteligjencës artificiale: një model i thjeshtë mendor 🧠🧩

Nëse dëshironi një rezultat të pastër, përdorni këtë model mendor:

Detektorët e inteligjencës artificiale kërkojnë modele statistikore dhe stilistike të zakonshme në tekstin e gjeneruar nga makina. (Një studim mbi zbulimin e tekstit të gjeneruar nga LLM)
Ata i krahasojnë këto modele me atë që kanë mësuar nga shembujt e trajnimit. (Një studim mbi zbulimin e tekstit të gjeneruar nga LLM)
Ata nxjerrin një hamendje të ngjashme me probabilitetin, jo një histori origjine faktike. (OpenAI)
Supozimi është i ndjeshëm ndaj zhanrit, temës, gjatësisë, redaktimeve dhe të dhënave të trajnimit të detektorit. (Një studim mbi zbulimin e tekstit të gjeneruar nga LLM)

Me fjalë të tjera, mënyra se si funksionojnë detektorët e inteligjencës artificiale është se ata “gjykojnë ngjashmërinë”, jo autorësinë. Njësoj si të thuash që dikush ngjan me kushëririn e tij. Kjo nuk është e njëjta gjë me një test ADN-je… dhe madje edhe testet e ADN-së kanë raste të dobëta.

12) Këshilla praktike për të zvogëluar flamujt aksidentalë (pa luajtur lojëra) ✍️✅

Jo “si të mashtrosh detektorët”. Më shumë si të shkruash në një mënyrë që pasqyron autorësinë e vërtetë dhe shmang keqinterpretimet e çuditshme.

Shtoni specifikime konkrete: emrat e koncepteve që keni përdorur në të vërtetë, hapat që keni ndërmarrë, kompromiset që keni marrë në konsideratë
Përdorni variacion natyror: përzieni fjali të shkurtra dhe të gjata (siç bëjnë njerëzit kur mendojnë)
Përfshi kufizime reale: afatet kohore, mjetet e përdorura, çfarë shkoi keq, çfarë do të bënit ndryshe
Shmangni përdorimin e tepërt të formulimeve në shabllon: zëvendësoni fjalën "Për më tepër" me diçka që do ta thoshit në të vërtetë
Mbani drafte dhe shënime: nëse ka ndonjëherë një mosmarrëveshje, provat e procesit kanë më shumë rëndësi sesa ndjenjat e brendshme

Në të vërtetë, mbrojtja më e mirë është thjesht… të jesh i sinqertë. Në mënyrë jo të përkryer të sinqertë, jo të sinqertë nga një “broshurë perfekte”.

Shënime Përfundimtare 🧠✨

Detektorët e inteligjencës artificiale mund të jenë të vlefshëm, por ato nuk janë makina të së vërtetës. Ato janë përputhës modelesh të trajnuar mbi të dhëna të papërsosura, që punojnë në një botë ku stilet e shkrimit mbivendosen vazhdimisht. (OpenAI; Një studim mbi zbulimin e tekstit të gjeneruar nga LLM)

Shkurtimisht:

Detektorët mbështeten në klasifikues, konfuzion/shpërthim, stilometri dhe ndonjëherë filigrane 🧩 (Një studim mbi zbulimin e tekstit të gjeneruar nga LLM)
Ata vlerësojnë "ngjashmërinë me inteligjencën artificiale", jo sigurinë (OpenAI)
Rezultatet e rreme pozitive ndodhin shumë në shkrimet formale, teknike ose jo-amtare 😬 (Liang et al. (arXiv); Turnitin)
Përdorni rezultatet e detektorit si një nxitje për shqyrtim, jo si një vendim (Turnitin)

Dhe po… nëse dikush pyet përsëri, Si Funksionojnë Detektorët e IA-së, mund t’i përgjigjeni: “Ata hamendësojnë bazuar në modele - ndonjëherë të zgjuara, ndonjëherë të çuditshme, gjithmonë të kufizuara.”

Shembull nga bota reale: Rishikimi i një eseje studentore të shënuar pa u nxituar për të gjykuar 🧑🏫

Skenari

Imagjinoni një mësues shkrimi në universitet që merr një ese historie prej 1,200 fjalësh të cilën një detektor i inteligjencës artificiale e shënon si "86% probabilitet për inteligjencë artificiale". Eseja është formale, e strukturuar bukur dhe mbështetet në fraza të përsëritura si "kjo sugjeron që" dhe "mund të argumentohet". Në shikim të parë, mund të duket e dyshimtë.

Por studenti është një shkrimtar i gjuhës angleze (ESL), përdori një model eseje të rreptë nga klasa dhe e redaktoi draftin me një program kontrolli gramatikor. Me fjalë të tjera, ky është pikërisht lloji i rastit ku një rezultat detektor duhet të shkaktojë rishikim, jo ndëshkim.

Qëllimi nuk është të “kapet” studenti. Qëllimi është të vendoset nëse rezultati mbështetet nga prova të tjera.

Çfarë i duhet recensuesit

Përpara se të japë ndonjë gjykim, tutori mbledh:

Raporti i detektorit, duke përfshirë pasazhet e theksuara nëse janë të disponueshme
Përmbledhja e esesë dhe rubrika e vlerësimit
Historia e draftit të studentit, shënimet, skica ose bibliografia
Çdo mjet i lejuar për mbështetjen e shkrimit i listuar në politikën e kursit
Një ose dy shembuj shkrimi më të hershëm nga i njëjti student, nëse politika e lejon
Një shpjegim i shkurtër nga studenti rreth procesit të shkrimit të tij/saj

Kjo ka rëndësi sepse detektori sheh vetëm tekstin përfundimtar. Nuk e di nëse studenti ka kaluar katër ditë duke hartuar, ka përdorur një shabllon, ka kopjuar formulimin e orës së mësimit, ka përkthyer shënime apo e ka rishikuar me reagime.

Shembull udhëzimi

Një mësues privat mund të përdorë këtë udhëzim rishikimi kur vlerëson rastin:

Rishikojeni këtë ese si një kontroll të procesit të shkrimit, jo si provë të përdorimit të inteligjencës artificiale. Krahasoni pikat kryesore të detektorit me shënimet e studentit, historinë e draftit, listën e burimeve dhe mostrën e mëparshme të shkrimit. Identifikoni cilat pasazhe janë vërtet të dyshimta dhe cilat mund të jenë thjesht formale, të shabllonizuara ose të ndikuara nga ESL. Ndani provat në tre grupe: sinjali i detektorit, provat e procesit të shkrimit dhe gjykimi njerëzor. Mos rekomandoni masa disiplinore nëse nuk ka prova të qarta mbështetëse përtej rezultatit të detektorit.

Si ta testoni

Një proces i drejtë shqyrtimi mund të përdorë tre kontrolle të thjeshta:

Kërkojini studentit të shpjegojë dy paragrafë me gojë.
Nëse ata mund ta shpjegojnë argumentin, burimet dhe pse e kanë formuluar në atë mënyrë, kjo është provë e vlefshme e procesit.
Krahasoni pjesët e shënuara me shabllonin e eseut.
Nëse detektori nxjerr në pah kryesisht frazat në stilin e shabllonit, rezultati mund të jetë duke reaguar ndaj strukturës dhe jo ndaj autorësisë.
Rishikoni vetëm pjesë më të gjata, jo fragmente të vogla
. Një paragraf i vetëm mund të jetë i zhurmshëm. Një mostër prej 600-900 fjalësh zakonisht jep një sinjal më kuptimplotë sesa tre fjali të izoluara.

Rezultati

Rezultati ilustrues: Në një ushtrim rishikimi me pesë ese, një tutor e kohëzon procesin para dhe pas përdorimit të këtij fluksi pune.

Përpara rrjedhës së punës, çdo ese e shënuar zgjaste rreth 35 minuta për t’u shqyrtuar, sepse tutori duhej të vendoste se çfarë të kontrollonte nga e para.

Pas përdorimit të rrjedhës së punës, çdo shqyrtim zgjati rreth 18 minuta:

5 minuta për të lexuar pikat kryesore të detektorit
6 minuta për të kontrolluar draftet, shënimet dhe burimet
4 minuta për të krahasuar shkrimet e mëparshme ose gjuhën e shabllonit
3 minuta për të shkruar një shënim të shkurtër përmbledhës

Kjo është një kursim i vlerësuar prej 17 minutash për ese, ose 85 minuta në pesë ese të shënuara. Metrika është e lehtë për t'u verifikuar: llogaritni kohën e çdo shqyrtimi, numëroni sa raste kishin nevojë për përshkallëzim dhe regjistroni nëse vendimi përfundimtar mbështetej vetëm në rezultatin e detektorit apo në provat mbështetëse.

Një masë më e mirë suksesi nuk është "sa studentë u kapën". Por sa rezultate të dyshimta u rishikuan vazhdimisht, me prova të qarta dhe më pak supozime të nxituara.

Çfarë mund të shkojë keq

Gabimi më i madh është trajtimi i përqindjes së detektorit si vendim. “86% AI e mundshme” tingëllon zyrtarisht, por prapëseprapë mund të jetë gabim.

Gabime të tjera të zakonshme përfshijnë:

Kontrollimi vetëm i esesë përfundimtare dhe injorimi i drafteve
Penalizimi i shkrimit të lëmuar ESL sepse duket "shumë i rrjedhshëm"
Përdorimi i një detektori sikur të ishte një mjet mjeko-ligjor
Ekzekutimi i fragmenteve të vogla dhe trajtimi i rezultatit si i besueshëm
Mosthënia e studentëve se çfarë provash mund të ofrojnë
Duke harruar se mjetet gramatikore, shabllonet dhe reagimet mund të ndryshojnë stilin

Një proces i mirë shqyrtimi duhet të mbrojë edhe privatësinë. Studentëve nuk duhet t'u kërkohet të ngarkojnë shënime private, mesazhe personale ose dokumente të palidhura, përveç nëse politika e lejon qartë këtë.

Përgatitje praktike për të marrë me vete

Përdorni detektorët e inteligjencës artificiale si një mjet triazhimi, jo si një makinë të vërtetës. Një proces i fortë kombinon rezultatin me draftet, kontrollet e burimeve, historinë e shkrimit, shpjegimin e studentëve dhe gjykimin njerëzor. Kjo u jep shkollave, redaktorëve dhe recensentëve diçka shumë më të vlefshme sesa një përqindje e frikshme: një vendim që ata mund ta mbrojnë me besim.

Pyetje të shpeshta

Si funksionojnë detektorët e inteligjencës artificiale në praktikë?

Shumica e detektorëve të inteligjencës artificiale nuk e “vërtetojnë” autorësinë. Ata vlerësojnë se sa afër teksti juaj ngjan me modelet e prodhuara zakonisht nga modelet gjuhësore, pastaj nxjerrin një rezultat të ngjashëm me probabilitetin. Në brendësi, ata mund të përdorin modele klasifikuese, vlerësime parashikueshmërie në stilin e ngatërresës, veçori stilometrike ose kontrolle filigranësh. Rezultati trajtohet më së miri si një sinjal rreziku, jo si një vendim përfundimtar.

Çfarë sinjalesh kërkojnë detektorët e inteligjencës artificiale në shkrim?

Sinjalet e zakonshme përfshijnë parashikueshmërinë (sa i “surprizuar” është një model nga fjalët tuaja të ardhshme), përsëritjen në skelat e fjalive, ritmin jashtëzakonisht të qëndrueshëm dhe frazimin e përgjithshëm me detaje të ulëta konkrete. Disa mjete shqyrtojnë gjithashtu shënjuesit e stilometrisë si gjatësia e fjalisë, zakonet e pikësimit dhe frekuenca e fjalëve funksionale. Këto sinjale mund të mbivendosen me shkrimin njerëzor, veçanërisht në zhanret formale, akademike ose teknike.

Pse detektorët e inteligjencës artificiale e identifikojnë shkrimin njerëzor si inteligjencë artificiale?

Rezultatet pozitive të rreme ndodhin kur shkrimi njerëzor duket statistikisht "i qetë" ose si shabllon. Toni formal, formulimi në stilin e përputhshmërisë, shpjegimet teknike, shembujt e shkurtër dhe anglishtja jo-amtare mund të keqinterpretohen si të ngjashme me inteligjencën artificiale sepse zvogëlojnë ndryshueshmërinë. Kjo është arsyeja pse një paragraf i pastër dhe i redaktuar mirë mund të shkaktojë një rezultat të lartë. Një detektor po krahason ngjashmërinë, jo po konfirmon origjinën.

A janë të besueshëm detektorët e konfuzionit dhe të "shpërthimit"?

Metodat e bazuara në konfuzion mund të funksionojnë kur teksti është i papërpunuar, një rezultat shumë i parashikueshëm i inteligjencës artificiale. Por ato janë të brishta: pasazhet e shkurtra janë të zhurmshme dhe shumë zhanre legjitime njerëzore janë natyrshëm të parashikueshme (përmbledhje, përkufizime, email-e të korporatave, manuale). Redaktimi dhe përsosja gjithashtu mund ta ndryshojnë rezultatin në mënyrë dramatike. Këto mjete i përshtaten klasifikimit të shpejtë, jo vendimeve me rrezik të lartë më vete.

Cili është ndryshimi midis detektorëve të klasifikuesve dhe mjeteve të stilometrisë?

Detektorët e klasifikuesit mësojnë nga grupet e të dhënave të etiketuara të tekstit njerëzor kundrejt atij të inteligjencës artificiale (dhe ndonjëherë hibrid) dhe parashikojnë se cilës kategori teksti juaj i ngjan më shumë. Mjetet e stilometrisë përqendrohen në "gjurmët e gishtërinjve" të shkrimit, si modelet e zgjedhjes së fjalëve, fjalët funksionale dhe sinjalet e lexueshmërisë, të cilat mund të jenë më informuese në analizën e gjatë. Të dyja qasjet vuajnë nga zhvendosja e domenit dhe mund të kenë vështirësi kur stili ose tema e shkrimit ndryshon nga të dhënat e tyre të trajnimit.

A e zgjidhin filigranët zbulimin e inteligjencës artificiale përgjithmonë?

Filigranët mund të jenë të fortë kur një model i përdor ato dhe detektori e njeh skemën e filigranit. Në realitet, jo të gjithë filigranët e ofruesve, dhe transformimet e zakonshme - parafrazimi, përkthimi, citimi i pjesshëm ose përzierja e burimeve - mund ta dobësojnë ose prishin modelin. Zbulimi i filigranit është i fuqishëm në rastet e ngushta ku i gjithë zinxhiri është në vijë, por nuk është mbulim universal.

Si duhet ta interpretoj një rezultat “X% AI”?

Trajtojeni një përqindje të vetme si një tregues të përafërt të "ngjashmërisë me IA-në", jo si provë të autorësisë nga IA. Rezultatet e intervalit mesatar janë veçanërisht të paqarta, dhe madje edhe rezultatet e larta mund të jenë të gabuara në shkrimin standardizuar ose formal. Mjete më të mira ofrojnë shpjegime si hapësira të theksuara, shënime për veçoritë dhe gjuhë pasigurie. Nëse një detektor nuk e shpjegon veten, mos e trajtoni numrin si autoritativ.

Çfarë e bën një detektor të inteligjencës artificiale të mirë për shkollat ose rrjedhat e punës editoriale?

Një detektor i fortë është i kalibruar, minimizon pozitivet e rreme dhe komunikon qartë kufijtë. Ai duhet të shmangë pretendimet tepër të sigurta në mostra të shkurtra, të trajtojë fusha të ndryshme (akademike kundrejt blogut kundrejt teknike) dhe të mbetet i qëndrueshëm kur njerëzit rishikojnë tekstin. Mjetet më të përgjegjshme sillen me përulësi: ato ofrojnë prova dhe pasiguri në vend që të veprojnë si lexues mendjesh.

Si mund t’i zvogëloj sinjalizimet aksidentale të inteligjencës artificiale pa e “luajtur” sistemin?

Përqendrohuni te sinjalet autentike të autorësisë në vend të trukeve. Shtoni specifikime konkrete (hapat që keni ndërmarrë, kufizimet, kompromiset), ndryshoni ritmin e fjalive natyrshëm dhe shmangni tranzicionet tepër të modeluara që normalisht nuk do t'i përdorni. Mbani drafte, shënime dhe historikun e rishikimeve - provat e procesit shpesh kanë më shumë rëndësi sesa një rezultat detektor në mosmarrëveshje. Qëllimi është qartësia me personalitet, jo proza e përsosur e broshurës.

Referencat

Shoqata për Gjuhësinë Kompjuterike (Antologjia ACL) - Një Anketë mbi Zbulimin e Tekstit të Gjeneruar nga LLM - aclanthology.org
OpenAI - Klasifikues i ri i IA-së për të treguar tekstin e shkruar nga IA - openai.com
Udhëzuesit e Turnitin - Zbulimi i shkrimit me anë të inteligjencës artificiale në pamjen klasike të raportit - guides.turnitin.com
Udhëzuesit e Turnitin - Modeli i zbulimit të shkrimit me anë të inteligjencës artificiale - guides.turnitin.com
Turnitin - Kuptimi i pozitivëve të rremë brenda aftësive tona të zbulimit të shkrimit me inteligjencë artificiale - turnitin.com
arXiv - DetectGPT - arxiv.org
Universiteti i Bostonit - Postimet e Ngatërresës - cs.bu.edu
GPTZero - Ngatërresa dhe shpërthimi: çfarë është? - gptzero.me
PubMed Central (NCBI) - Stilometria dhe shkenca mjeko-ligjore: Një përmbledhje e literaturës - ncbi.nlm.nih.gov
Shoqata për Gjuhësinë Kompjuterike (Antologjia ACL) - Fjalët Funksionale në Atribuim Autor - aclanthology.org
arXiv - Një Filigran për Modele të Mëdha Gjuhësore - arxiv.org
Google AI për Zhvilluesit - Tekst SynthID - ai.google.dev
arXiv - Mbi Besueshmërinë e Filigranëve për Modelet e Mëdha të Gjuhës - arxiv.org
OpenAI - Të kuptuarit e burimit të asaj që shohim dhe dëgjojmë në internet - openai.com
Stanford HAI - Detektorët e IA-së të anshëm kundër shkrimtarëve jo-autorë të anglishtes - hai.stanford.edu
arXiv - Liang etj. - arxiv.org

Gjeni IA-në më të fundit në Dyqanin Zyrtar të Asistentëve të IA-së

Rreth Nesh

Kthehu te blogu