Современные интегральные схемы, такие как центральные процессоры, графические ускорители и чипы для искусственного интеллекта, могут содержать микроскопические дефекты, которые возникают при производстве или в процессе эксплуатации. Эти дефекты часто приводят к сбоям в работе вычислительных систем, например, к зависаниям или синему экрану. В некоторых случаях процессоры продолжают работать, но выдают неверные результаты вычислений. Например, они могут неправильно складывать числа: вместо 2+2 выдать 5. Программные системы не фиксируют эти ошибки, записывая неверные результаты как правильные.
Проблема стала особенно актуальной из-за массовых проверок серверного оборудования, проведенных крупными технологическими компаниями. Исследования показали, что примерно один из тысячи процессоров способен генерировать такие скрытые ошибки. В крупных дата-центрах это может приводить к сотням ошибочных вычислений ежедневно. Подобные риски есть и в пользовательских компьютерах, хотя последствия ошибок там менее значительны.
Научные и инженерные сообщества активно работают над решением этой проблемы. Полное устранение дефектов на этапе производства экономически нецелесообразно, так как это значительно увеличивает стоимость интегральных схем. Поэтому разрабатываются альтернативные методы, включая системы мониторинга состояния чипов в дата-центрах и специализированное программное обеспечение для перепроверки результатов вычислений.