Phi-3-mini este o descoperire Microsoft în domeniul inteligenței artificiale?

Model de inteligență artificială Phi de Microsoft - mic, ieftin si nu sufera de „halucinatii”. Aceasta este ceea ce spun ei despre noul model de limbă, despre care se preconizează că va avea un viitor mare.

GPT este absolut grozav, dar, în același timp, este teribil de scump și nu poate fi perfect pentru toată lumea. Din acestea și multe alte motive Microsoft experimentează cu modele AI mult mai mici. Se spune că Phi-3-mini chiar face de rușine munca inginerilor OpenAI.

Interesant de asemenea: Tranzistoarele viitorului: ne așteaptă o nouă eră a cipurilor

CONŢINUT

1. ChatGPT nu este un panaceu

2. Despre ce se știe Microsoft Phi

3. Cum se utilizează Phi-3-mini?

4. Microsoft Va înlocui Phi modelele de tip ChatGPT?

5. Phi-3 de la Microsoft intelege doar engleza

ChatGPT nu este un panaceu

ChatGPT este o invenție care este finanțată, organizată și îmbunătățită Microsoft. De fapt, nu aparține Microsoft, și compania OpenAI, care Microsoft nu deține (ea este investitorul principal, deși nu cel mai mare). Modelul de limbaj GPT a dat Microsoft un avantaj uriaș față de restul marilor corporații tehnologice care se grăbesc acum să ajungă din urmă. Cu toate acestea, există un număr mare de probleme cu GPT, dintre care multe nu pot fi rezolvate încă.

În primul rând, acesta este un model de limbaj foarte intensiv în resurse. Orientat pe web Microsoft Copilot sau ChatGPT OpenAI generează costuri operaționale foarte mari pentru Microsoft. Aceasta este o caracteristică nu numai a GPT, ci și a tuturor modelelor de limbaj majore. În plus, GPT, ca și concurenții săi, este predispus la „halucinații”, adică poate genera răspunsuri la întrebări care conțin informații false sau înșelătoare. Cu cât un astfel de model absoarbe mai multe date, cu atât tinde să genereze conținut similar. Prin urmare, halucinațiile și declarațiile false nu sunt un mit scos dintr-un deget digital. Utilizatorii observă adesea că modelele mari de limbaj comit adesea greșeli, oferă date inexacte și operează pe fapte inexistente.

Ambele probleme sunt foarte grave, motiv pentru care OpenAI, Microsoft, Meta, Google și alții lucrează la dezvoltarea nu numai a tehnologiei Large Language Model, ci și a Small Language Model, care în practică poate produce rezultate mult mai bune.

Asistentul unui contabil digital nu trebuie să știe multe despre fizica cuantică. Poate fi mult mai mic și mai puțin complex (și, prin urmare, mai ieftin), iar antrenându-se doar pe datele necesare scopului său, ar trebui teoretic să halucineze mai puțin. Deși, acest lucru este mai ușor de spus decât de făcut. Tehnologia GenAI este încă o aventură IT sălbatică. Și, deși lucrările progresează într-un ritm fără precedent, este totuși dificil să faci progrese practic în probleme fundamentale. Dar compania Microsoft a anunțat recent o astfel de descoperire. Vorbim despre un model de limbaj mic Microsoft Phi.

Interesant de asemenea: Cum se luptă Taiwan, China și SUA pentru dominația tehnologică: marele război cu cipuri

Despre ce se știe Microsoft Phi

În primul rând, trebuie remarcat faptul că experimentul a fost realizat fără participarea companiei OpenAI. Adică este dezvoltarea inginerilor Microsoft.

- Publicitate -

Modele Microsoft Phi este o serie de modele de limbaj mic (SLM) care obțin rezultate excepționale într-o varietate de teste. Primul model, Phi-1, a avut 1,3 miliarde de parametri și a obținut cele mai bune rezultate de codare Python dintre SLM-urile existente.

Dezvoltatorii s-au concentrat apoi pe înțelegerea și gândirea limbajului, creând modelul Phi-1.5, care avea și 1,3 miliarde de parametri și a arătat performanțe comparabile cu modelele cu parametri de cinci ori mai mari.

Phi-2 este un model de 2,7 miliarde de parametri care demonstrează capacități remarcabile de raționament și înțelegere a limbajului, performând la nivelul celor mai bune modele de bază cu 13 miliarde de parametri. Phi-2 iese în evidență față de alte modele datorită inovațiilor sale în scalarea modelelor și antrenamentul de curatare a datelor.

Este disponibil în catalogul de modele Azure AI Studio, care facilitează cercetarea și dezvoltarea în domeniul modelelor de limbaj. Phi-2 a fost lansat în decembrie 2023. Dezvoltatorii asigură că funcționează la fel de bine ca Mistral sau llama 2 de la Meta. Și Phi-3 funcționează chiar mai bine decât versiunea anterioară.

Cu toate acestea, modelul Phi-3 care tocmai a fost anunțat este complet nou în calitate. Cel puțin asta poți judeca din informațiile furnizate Microsoft. Potrivit companiei, conform indicatorilor tuturor benchmark-urilor cunoscute, Phi-3 are performanțe mai bune decât orice alt model de dimensiune similară, inclusiv analiza limbajului, munca de programare sau munca matematică.

Phi-3-mini, cea mai mică versiune a acestui model, tocmai a devenit disponibilă tuturor părților interesate. Adică este disponibil din 23 aprilie. Phi-3-mini are 3,8 miliarde de parametri și, conform măsurătorilor Microsoft, de două ori mai eficient decât orice alt model de aceeași dimensiune. Poate fi găsit în catalogul modelelor AI ale serviciului cloud Microsoft Azure, platforma de modele de învățare automată Hugging Face și Ollama, un cadru pentru rularea modelelor pe un computer local.

După cum pretinde el Microsoft, Phi-3-mini nu necesită cipuri puternice Nvidia. Modelul poate funcționa pe cipuri de computer obișnuite. Sau se potrivește chiar și pe un telefon care nu este conectat la internet.

Mai puțină putere înseamnă, de asemenea, că modelele nu vor fi la fel de precise. Phi-3 nu va fi potrivit pentru medici sau contabili fiscali, dar va ajuta în sarcini mai simple. De exemplu, pentru direcționarea publicității sau pentru a rezuma recenzii de pe Internet.

Deoarece modelele mai mici necesită mai puțină procesare, acestea vor fi mai ieftine pentru companiile private. Adică în Microsoft vor fi mai mulți clienți care ar dori să implice AI în munca lor, dar l-au considerat prea scump. Cu toate acestea, nu este încă clar cât vor costa.

Nu se știe încă când vor apărea modelele mici și mijlocii. Dar acesta din urmă va fi mai puternic și mai scump. Deși se știe deja că Phi-3-small va avea 7 miliarde de parametri, iar Phi-3-medium va avea până la 14 miliarde de parametri.

- Publicitate -

Citeste si:

Cum se utilizează Phi-3-mini?

GPT-4 Turbo necesită cipuri AI puternice, care sunt încă foarte scumpe. Modelul de vorbire mică Phi-3 poate funcționa offline, fără cloud, chiar și cu un cip pe un telefon mobil.

Phi-3 nu este un produs pentru utilizatorii finali, ci o tehnologie pe care dezvoltatorii o vor putea folosi și implementa în aplicațiile lor - atât bazate pe cloud, adică localizate la distanță, cât și cele care funcționează local și offline. Este de așteptat să funcționeze fără probleme cu dispozitivele și componentele acestora, cum ar fi telefoanele mobile, mașinile și sistemele lor de infotainment sau chiar senzorii IoT. În unele scenarii, această tehnologie poate fi neprețuită.

Microsoft chiar dă un exemplu concret pentru a nu fi nevoiți să ne încordăm imaginația. Imaginați-vă un fermier care își inspectează culturile și vede semne de boală pe frunze, tulpini și ramuri. Fiind departe de stalpi de telecomunicații, va trebui doar să-și scoată telefonul, să facă o poză a avariei, să o pună într-o aplicație care folosește tehnologia Phi-3 - iar modelul va analiza rapid și offline fotografia și va da sfaturi cu privire la cum să lupți mai exact cu această boală.

După cum explică el Microsoft, cheia succesului GPT a fost utilizarea unor cantități masive de date pentru antrenament. Cu seturi de date atât de mari, calitatea ridicată a datelor este exclusă. Între timp, la antrenamentul modelului Phi, a fost folosită abordarea OpenAI exact opusă. În loc să înghesui modelul cu informații, accentul s-a pus pe învățarea progresivă și aprofundată.

În loc să folosească date brute de Internet, cercetătorii Microsoft a creat setul de date TinyStories, generând milioane de povești „bebe” în miniatură. Aceste povești au fost folosite pentru a antrena modele de limbaj foarte mici. Apoi, cercetătorii au mers mai departe prin crearea setului de date CodeTextbook, care a folosit date atent selectate, disponibile public, care au fost filtrate pentru valoarea educațională și calitatea conținutului. Aceste date au fost apoi filtrate de mai multe ori și reintroduse într-un model de limbaj mare (LLM) pentru o sinteză ulterioară.

Toate acestea au făcut posibilă crearea unei game de date suficiente pentru a antrena un SLM mai capabil. În plus, în dezvoltarea modelului Phi-3 a fost utilizată o abordare pe mai multe niveluri a managementului și atenuării riscurilor, inclusiv evaluarea, testarea și ajustările manuale. Drept urmare, așa cum susține el Microsoft, dezvoltatorii care folosesc familia de modele Phi-3 pot profita de setul de instrumente disponibil în Azure AI pentru a construi aplicații mai sigure și mai fiabile.

Citeste si: Teleportarea din punct de vedere științific și viitorul ei

Microsoft Va înlocui Phi modelele de tip ChatGPT?

Deloc. Modelele lingvistice mici (SLM), chiar și atunci când sunt instruite pe date de înaltă calitate, au limitările lor și nu sunt concepute pentru învățarea profundă. Modelele de limbaj mari (LLM) depășesc SLM-urile în raționamentul complex datorită dimensiunii și puterii lor de calcul. LLM-urile sunt și vor continua să fie deosebit de utile în domenii precum descoperirea de medicamente, unde trebuie să căutați prin colecții vaste de lucrări științifice și să analizați modele complexe. Pe de altă parte, SLM poate fi folosit pentru sarcini mai simple, cum ar fi rezumarea punctelor principale ale unui document text lung, crearea de conținut sau alimentarea chatbot-urilor de serviciu pentru clienți.

Microsoft, a spus ea, folosește deja seturi de modele hibride în interior, unde LLM preia conducerea, direcționând anumite interogări care necesită mai puțină putere de calcul către SLM, în timp ce acesta gestionează el însuși alte interogări mai complexe. Phi este poziționat pentru calcularea pe dispozitive, fără a utiliza cloud-ul. Cu toate acestea, va exista în continuare un decalaj între modelele de limbaj mici și nivelul de inteligență care poate fi obținut cu modele mari în cloud. Acest decalaj, datorită dezvoltării continue a LLM, este puțin probabil să dispară în curând.

Phi-3 nu a fost încă verificat de către părți independente externe. Microsoft uneori se vorbește despre eficiență sau eficiență energetică de 25 de ori mai mare în cazuri extreme, în comparație cu concurenții, ceea ce sună destul de fabulos. Deși, pe de altă parte, nu se poate uita că acești ani au trecut Microsoft ne-a înțărcat puțin de faptul că este un lider clar în inovațiile IT și poate de aceea nu prea credem. Programe bazate pe inteligență artificială care răspund instantaneu și rulează offline în loc să genereze? Aceasta ar fi un punct culminant demn al actualei revoluții. Din păcate, există o problemă cheie.

Citeste si: Totul despre cipul Neuralink Telepathy: ce este și cum funcționează

Phi-3 de la Microsoft intelege doar engleza

Phi-3 nu a înghițit petaocteții aruncați în el în masă. Pregătirea atentă și scrupuloasă a modelului implică o problemă minoră. Phi-3 a fost instruit cu informații în engleză și încă nu are idee despre nicio altă limbă. Nu doar ucraineană, ci și germană, spaniolă, franceză sau chineză. Desigur, acest lucru îi reduce considerabil atractivitatea pentru majoritatea utilizatorilor din întreaga lume.

Dar în Microsoft asigurat că se lucrează la dezvoltarea și îmbunătățirea acestuia. Deși nu trebuie să vă înșelați prin faptul că piața ucraineană este o prioritate pentru oricare dintre marile corporații. Prin urmare, va trebui să așteptăm foarte mult timp pentru sprijinul limbii ucrainene. Dar acest fapt nu i-a oprit niciodată pe entuziaști și pe cei care vor să țină pasul cu progresul.

Citeste si:

Mai multe de la autor

Inscrie-te

0 Comentarii

Recenzii încorporate

Vezi toate comentariile

Alte articole