web analytics

Nucleele noilor procesoare suferă de erori hardware mai mari

Lucrurile se înrăutățesc, nu se îmbunătățesc

Parteneri

O prezentare recentă a inginerului Google, Peter Hochschild, a dezvăluit că designul cipurilor este în declin și că există erori hardware mai mari decât se așteptau, care „s-au manifestat sporadic, la mult timp după instalare și pe anumite nuclee individuale, mai degrabă decât pe cipuri întregi sau pe o familie de componente”.

Cercetătorii Google care au examinat aceste erori de execuție coruptă silențioase (CEE) au ajuns la concluzia că „nucleele mercuriene” erau de vină pentru procesoarele care, ocazional, calculau greșit, în diferite circumstanțe, într-un mod care sfida predicțiile.

Erorile nu au fost rezultatul unor greșeli de proiectare a arhitecturii cipurilor și nu sunt detectate în timpul testelor de fabricație. Mai degrabă, teoretizează inginerii de la Google, erorile au apărut pentru că am împins producția de semiconductori până la un punct în care defecțiunile au devenit mai frecvente, iar noi nu dispunem de instrumentele necesare pentru a le identifica în avans.

Într-o lucrare intitulată „Cores that don’t count” (nuclee care nu contează), Hochschild și colegii săi Paul Turner, Jeffrey Mogul, Rama Govindaraju, Parthasarathy Ranganathan, David Culler și Amin Vahdat citează mai multe motive plauzibile pentru care lipsa de fiabilitate a nucleelor de calculatoare abia acum primește atenție, inclusiv flote de servere mai mari care fac mai vizibile problemele rare, o atenție sporită acordată fiabilității generale și îmbunătățiri în dezvoltarea de software care reduc rata de erori de software.

„Dar noi credem că există o cauză mai fundamentală: dimensiunile tot mai mici ale caracteristicilor care se apropie de limitele de scalare CMOS, împreună cu o complexitate tot mai mare în proiectarea arhitecturală”, afirmă cercetătorii, menționând că metodele de verificare existente sunt nepotrivite pentru a detecta defectele care apar sporadic sau din cauza deteriorării fizice după implementare.

Riscurile reprezentate de nucleele care se comportă greșit includ nu numai blocări, pe care modelul existent de gestionare a erorilor de tip „fail-stop” le poate lua în considerare, ci și calcule incorecte și pierderi de date, care pot trece neobservate și reprezintă un risc deosebit la scară largă.

Hochschild a povestit un caz în care hardware-ul Google a efectuat un atac ransomware cu erori automate – care nu este atât de stimulant din punct de vedere sexual pe cât pare.

„Unul dintre nucleele noastre mercurial a corupt criptarea. A făcut-o în așa fel încât numai el putea decripta ceea ce criptase în mod greșit”.