Într-o conferință, acum disponibilă online, Bill Dally, cercetător șef al NVIDIA, descrie o schimbare tectonică în modul în care se obține performanța calculatoarelor în era post-Legislația lui Moore. Fiecare nou procesor necesită ingeniozitate și efort pentru a inventa și valida ingrediente noi, a spus el într-un discurs recent la Hot Chips, o întâlnire anuală a inginerilor de cipuri și sisteme. Acest lucru este radical diferit față de acum o generație, când inginerii se bazau în esență pe fizica unor cipuri din ce în ce mai mici și mai rapide.
Echipa de peste 300 de persoane pe care Dally o conduce în cadrul NVIDIA Research a contribuit la obținerea unei îmbunătățiri de 1.000 de ori mai mari a performanțelor unui singur GPU în ceea ce privește inferența AI în ultimul deceniu (a se vedea graficul de mai jos). Este o creștere uluitoare pe care IEEE Spectrum a fost primul care a numit-o „Legea lui Huang”, după numele fondatorului și directorului executiv al NVIDIA, Jensen Huang. Eticheta a fost ulterior popularizată de un articol din Wall Street Journal.
Avansul a fost un răspuns la creșterea la fel de fenomenală a modelelor lingvistice de mari dimensiuni utilizate pentru inteligența artificială generativă, care cresc cu un ordin de mărime în fiecare an. „Acest lucru a stabilit ritmul pentru noi în industria hardware, deoarece simțim că trebuie să răspundem acestei cereri”, a declarat Dally.
În discursul său, Dally a detaliat elementele care au dus la creșterea de 1.000 de ori. Cel mai mare dintre toate, un câștig de șaisprezece ori, a venit din găsirea unor modalități mai simple de a reprezenta numerele pe care calculatoarele le folosesc pentru a-și face calculele.
Cea mai recentă arhitectură NVIDIA Hopper cu motorul său Transformer Engine utilizează un amestec dinamic de matematică pe opt și 16 biți în virgulă mobilă și numere întregi. Aceasta este adaptată la nevoile modelelor generative de inteligență artificială de astăzi. Dally a detaliat atât creșterile de performanță, cât și economiile de energie pe care le oferă noua matematică.
În mod separat, echipa sa a contribuit la obținerea unui salt de 12,5 ori mai mare prin crearea unor instrucțiuni avansate care îi spun GPU-ului cum să își organizeze activitatea. Aceste comenzi complexe ajută la executarea mai multor sarcini cu mai puțină energie. Ca urmare, computerele pot fi „la fel de eficiente ca și acceleratoarele dedicate, dar păstrează toată programabilitatea GPU-urilor”, a spus el.
În plus, arhitectura NVIDIA Ampere a adăugat sparsitatea structurală, o modalitate inovatoare de a simplifica ponderile din modelele de inteligență artificială fără a compromite acuratețea modelului. Tehnica a adus o altă creștere de 2 ori a performanței și promite progrese și în viitor, a spus el. Dally a descris modul în care interconexiunile NVLink între GPU-urile dintr-un sistem și rețelele NVIDIA între sisteme contribuie la creșterea de 1.000 de ori a performanței unui singur GPU.
Deși NVIDIA a migrat GPU-urile de la noduri de semiconductori de 28 nm la noduri de semiconductori de 5 nm de-a lungul deceniului, această tehnologie a reprezentat doar 2,5 ori din câștigurile totale, a remarcat Dally.
Aceasta este o schimbare uriașă față de proiectarea computerelor de acum o generație, conform legii lui Moore, o observație conform căreia performanța ar trebui să se dubleze la fiecare doi ani, pe măsură ce cipurile devin tot mai mici și mai rapide.
Aceste câștiguri au fost descrise în parte prin scalarea Denard, în esență o formulă de fizică definită într-o lucrare din 1974, scrisă în colaborare cu Robert Denard, cercetător la IBM. Din păcate, fizica micșorării s-a lovit de limite naturale, cum ar fi cantitatea de căldură pe care dispozitivele tot mai mici și mai rapide o puteau tolera.
Dally și-a exprimat încrederea că legea lui Huang va continua, în ciuda scăderii câștigurilor aduse de legea lui Moore.
De exemplu, el a subliniat mai multe oportunități pentru viitoarele progrese în ceea ce privește simplificarea în continuare a modului de reprezentare a numerelor, crearea unei mai mari diversități în modelele de inteligență artificială și proiectarea unor circuite de memorie și de comunicații mai bune.
Deoarece fiecare nouă generație de cipuri și sisteme necesită noi inovații, „este o perioadă distractivă pentru a fi inginer de calculatoare”, a spus el.
Dally crede că noua dinamică în proiectarea calculatoarelor le oferă inginerilor NVIDIA cele trei oportunități pe care și le doresc cel mai mult: să facă parte dintr-o echipă câștigătoare, să lucreze cu oameni inteligenți și să lucreze la proiecte care au impact.
Leave a Review