Škoda Karoq
Categorii: știri IT

Companiile AI colectează date de pe site-urile mass-media, contrar interdicțiilor directe

Perplexity, care își descrie produsul ca un „motor de căutare gratuit cu inteligență artificială”, a fost criticat în ultimele zile. La scurt timp după ce Forbes a acuzat-o că și-a furat articolul și l-a republicat pe mai multe platforme, Wired a raportat că Perplexity ignoră Robot Exclusion Protocol, sau robots.txt, și își elimină articolele de pe site-ul său și din alte publicații Condé Nast. Site-ul tehnic The Shortcut a acuzat și compania AI că și-a eliminat articolele. Acum, Reuters a dezvăluit că Perplexity nu este singura companie de inteligență artificială care ocolește fișierele robots.txt și scoate site-uri web pentru conținut pe care apoi îl folosește pentru a-și antrena tehnologia.

Reuters a raportat că a văzut o scrisoare adresată editorilor de la TollBit, un startup care îi pune în legătură cu firme de inteligență artificială, astfel încât acestea să poată încheia acorduri de licență, avertizându-i că „agenți de inteligență artificială din diverse surse (nu doar de la o companie) au decis să ocolească. protocolul robots.txt pentru a primi conținut de pe site-uri.” Fișierul robots.txt conține instrucțiuni pentru roboții de căutare paginile pe care le pot accesa sau nu. Dezvoltatorii web folosesc acest protocol din 1994, dar aderarea la acesta este complet voluntară.

Nicio companie nu a fost numită în scrisoarea lui TollBit, dar Business Insider spune că a aflat că OpenAI și Anthropic -- creatorii chatbot-urilor ChatGPT și respectiv Claude -- ocolesc și semnalele robots.txt. Ambele companii au declarat anterior că respectă instrucțiunile „nu accesați cu crawlere” pe care site-urile le plasează în fișierele robots.txt.

În timpul investigației sale, Wired a descoperit că o mașină de pe un server Amazon „operat cu siguranță de Perplexity” ocolește instrucțiunile robots.txt ale site-ului său web. Pentru a confirma că Perplexity își curățează conținutul, Wired a alimentat titlurile instrumentelor companiei din articolele sale sau sfaturi scurte care descriu poveștile lor. Instrumentul a produs rezultate care au parafrazat cu acuratețe articolele ei „cu atribuire minimă”. Și uneori chiar a creat rezumate inexacte pentru articole – Wired spune că chatbot-ul a susținut în mod fals că raportează despre un anumit ofițer de poliție din California care a comis o crimă într-un caz.

Într-un interviu pentru Fast Company, CEO-ul Perplexity, Aravind Srinivas, a declarat publicației că compania sa „nu ignoră Protocolul de excludere a roboților și apoi minte în legătură cu asta”. Totuși, asta nu înseamnă că nu beneficiază de roboții care ignoră protocolul. Srinivas a explicat că compania folosește roboți de căutare de la terți în plus față de ai săi și că botul identificat de Wired a fost unul dintre aceștia. Când Fast Company a întrebat dacă Perplexity a spus furnizorului de crawler să nu mai acceseze cu crawlere site-ul Wired, el a spus: „Este complicat”.

Srinivas a apărat practicile companiei sale, spunând publicației că protocolul de excludere a botului „nu este o bază legală” și sugerând că editorii și companiile ca el ar putea fi nevoite să stabilească un nou tip de relație. El a mai sugerat că Wired a folosit în mod deliberat indicii pentru a face chatbot-ul Perplexity să se comporte astfel, astfel încât utilizatorii obișnuiți să nu obțină aceleași rezultate. În ceea ce privește constatările inexacte pe care instrumentul le-a generat, Srinivas a spus: „Nu am spus niciodată că chatbot-ul Perplexity este inexact: „Nu am spus niciodată că nu am avut halucinații”.

Citeste si:

Distribuie
Julia Alexandrova

Coffeeman. Fotograf. Scriu despre știință și spațiu. Cred că e prea devreme pentru noi să întâlnim extratereștri. Urmaresc dezvoltarea roboticii, pentru orice eventualitate...

Lasă un comentariu

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate*