Durant les últimes dècades, la humanitat ha experimentat una gran millora en la qüalitat de vida gràcies a la ràpida evolució dels circuits integrats (IC). Aquesta carrera sense precedents, acompanyada d¿un gran impacte econòmic, s¿ha basat en la producció de sistemes de processat complexes a partir de components molt fiables. No obstant, la hipòtesi fonamental de components quasi-ideals, que ha estat certa en les generacions CMOS passades, sembla que avui arriba a la seva fi. De fet, a mesura que la tecnologia MOSFET es miniaturitza a nivells de nanoescala s¿apropa a limits físics fonamentals i comença a experimentar nivells més alts de variabilitat, degradació de característiques i taxes de defectes de producció. Per altra banda, circuits integrats amb un nombre de transistors cada vegada més gran requereixen una reducció en la taxa de fallades per dispositiu per tal de mantenir un nivell de fiabilitat global constant. Com a resultat, cada vegada és més important el desenvolupament d¿arquitectures de circuit capaçes de proporcioniar computació fiable i tolerar alhora nivells de variabilitat i defectes més grans.L¿objectiu principal d¿aquesta tesi és proposar i analitzar noves arquitectures tolerants a fallades basades en la redundància per a les tecnologies futures. La nostra investigació es fonamenta en els principis de la redundància establerts per von Neumann en els anys 1950 i els extén en tres noves dimensions:1. Heterogeneitat: La majoria de treballs sobre arquitectures tolerants a fallades basades en la redundància assumeixen un nivell de variabilitat homogeni en les rèpliques tal com es fa en el treball original de von Neumann. En canvi, nosaltres explorem les possibilitats de la redundància quan es té en compte la heterogeneïtat entre les rèpliques. En aquest sentit, proposem mecanismes de compensació que sel¿leccionen els pesos adequats per a maximitzar la fiabilitat global.2. Asincronia: Cadascuna de les rèpliques d¿un sistema redundant pot tenir associat un temps de processat diferent degut a la variabilitat i la degradació; especialment en les futures tecnologies. Si dissenyem el nostre sistema per a treballar de manera asíncrona localment aleshores podem considerar diferents polítiques de votació. En funció de quantes rèpliques rebem abans de prendre una decisió aleshores podem obtenir diferents balanços entre el temps de processat i la fiabilitat. Nosaltres proposem un mecanisme per proporcionar aquestes facilitats i analitzem el seu funcionament.3. Jerarquia: Finalment explorem les possibilitats de la redundància aplicada a diverses capes de jerarquia en sistemes de processat complexes. Nosaltres proposem distribuir la redundància a diversos nivells de jerarquia i analitzem els beneficis obtinguts.Especulant en l¿escenari de les futures tecnologies de circuits integrats, estenem el concepte de redundància a la màxima expressió a través de l¿estudi d¿arquitectures de nano-dispositius reals. La majoria d¿arquitectures redundants fins ara no enfronten el problema de la computació a tera-escala i les tendències de la nano-tecnologia. Des de que von Neumann va aplicar per primer cop la redundància en circuits electrònics, ningú fins ara havia tractat temes tan comuns en la nanoelectrònica com la degradació i les imperfeccions en les interconneccions des del punt de vista de la redundància. En aquesta tesi adrecem de manera àmplia la fiabilitat de sistemes de processat digitals en les properes generacions tecnològiques.
During the last decades, human beings have experienced a significant enhancement in the quality of life thanks in large part to the fast evolution of Integrated Circuits (IC). This unprecedented technological race, along with its significant economic impact, has been grounded on the production of complex processing systems from highly reliable compounding devices. However, the fundamental assumption of nearly ideal devices, which has been true within the past CMOS technology generations, today seems to be coming to an end. In fact, as MOSFET technology scales into nanoscale regime it approaches to fundamental physical limits and starts experiencing higher levels of variability, performance degradation, and higher rates of manufacturing defects. On the other hand, ICs with increasing number of transistors require a decrease in the failure rate per device in order to maintain the overall chip reliability. As a result, it is becoming increasingly important today the development of circuit architectures capable of providing reliable computation while tolerating high levels of variability and defect rates.
The main objective of this thesis is to analyze and propose new fault-tolerant architectures based on redundancy for future technologies. Our research is founded on the principles of redundancy established by von Neumann in the 1950s and extends them to three new dimensions:
1. Heterogeneity: Most of the works on fault-tolerant architectures based on redundancy assume homogeneous variability in the replicas like von Neumann's original work. Instead, we explore the possibilities of redundancy when heterogeneity between replicas is taken into account. In this sense, we propose compensating mechanisms that select the weighting of the redundant information to maximize the overall reliability.
2. Asynchrony: Each of the replicas of a redundant system may have associated different processing delays due to variability and degradation; especially in future nanotechnologies. If we design our system to work locally in asynchronous mode then we may consider different voting policies to deal with the redundant information. Depending on how many replicas we collect before taking a decision we can obtain different trade-off between processing delay and reliability. We propose a mechanism for providing these facilities and analyze and simulate its operation.
3. Hierarchy: Finally, we explore the possibilities of redundancy applied at different hierarchy layers of complex processing systems. We propose to distribute redundancy across the various hierarchy layers and analyze the benefits that can be obtained.
Drawing on the scenario of future ICs technologies, we push the concept of redundancy to its fullest expression through the study of realistic nano-device architectures. Most of the redundant architectures considered so far do not face properly the era of Terascale Computing and the nanotechnology trends. Since von Neumann applied for the first time redundancy at electronic circuits, never until now effects as common in nanoelectronics as degradation and interconnection failures have been treated directly from the standpoint of redundancy. In this thesis we address in a comprehensive manner the reliability of digital processing systems in the upcoming technology generations.
Premi extraordinari doctorat 2013-2014