Почему эпоха ИИ заставляет редизайн всей вычислительной основы

Хотите более умное понимание в вашем почтовом ящике? Подпишитесь на наши еженедельные информационные бюллетени, чтобы получить только то, что имеет значение для искусственного интеллекта предприятия, данных и лидеров безопасности. Подписаться сейчас

В последние несколько десятилетий почти невообразимые достижения в вычислении производительности и эффективности, обеспечиваемых законом Мура и подкрепленным масштабированием товарного оборудования и слабо связанным программным обеспечением. Эта архитектура предоставила онлайн -сервисы на миллиарды во всем мире и поставила практически все человеческие знания в наших кончиках пальцев.

Но следующая вычислительная революция потребует гораздо больше. Выполнение обещания ИИ требует пошагового изменения возможностей, намного превышающих достижения в интернет-эре. Чтобы достичь этого, мы, как отрасль, должны вернуться к некоторым основаниям, которые привели к предыдущему преобразованию и внедряют инновации, чтобы переосмыслить весь технологический стек. Давайте рассмотрим силы, движущие это потрясением, и рассмотрим, как должна выглядеть эта архитектура.

От товарного оборудования до специализированного вычисления

В течение десятилетий доминирующей тенденцией в вычислениях была демократизация вычислений посредством масштабирования архитектур, основанных на почти идентичных товарных серверах. Эта единообразия позволила для гибкой размещения рабочей нагрузки и эффективного использования ресурсов. Требования искусственного интеллекта, в значительной степени зависящие от предсказуемых математических операций на массовых наборах данных, меняют эту тенденцию.

В настоящее время мы наблюдаем решающий сдвиг в сторону специализированного оборудования, включая ASICS, графические процессоры и подразделения по обработке тензоров (TPU), которые обеспечивают заказы на улучшение производительности на доллар и за ватт по сравнению с CPU общего назначения. Это пролиферация доменных вычислительных единиц, оптимизированных для более узких задач, будет иметь решающее значение для продвижения продолжающихся быстрых достижений в области искусственного интеллекта.

За пределами Ethernet: рост специализированных соединений

Эти специализированные системы часто требуют общения «все-все», с пропускной способностью терабит на секунду и наносекундными задержками, которые приближаются к локальной скорости памяти. Сегодняшние сети, в основном основанные на коммутаторах Commodity Ethernet и протоколах TCP/IP, плохо оснащены этими крайними требованиями.

В результате, чтобы масштабировать рабочую нагрузку Gen AI в обширных кластерах специализированных ускорителей, мы видим рост специализированных взаимодействий, таких как ICI для TPU и NVLink для графических процессоров. Эти специально построенные сети определяют приоритеты прямых трансфертов памяти в память и используют выделенное оборудование для ускорения обмена информацией между процессорами, эффективно обходя накладные расходы на традиционные многослойные сетевые стеки.

Этот шаг в направлении строго интегрированного, ориентированного на вычислительные сети будет иметь важное значение для преодоления узких мест связи и эффективного масштабирования AI следующего поколения.

Разбивая стену памяти

В течение десятилетий прирост производительности в вычислениях опередил рост полосы пропускания памяти. В то время как такие методы, как кэширование и сложенное SRAM, частично смягчили это, интенсивный характер ИИ, интенсивный данных, только усугубляет проблему.

Нео кислого необходимого кормления все более мощные вычислительные блоки привели к памяти с высокой пропускной способностью (HBM), которая складывает DRAM непосредственно на пакет процессора, чтобы повысить пропускную способность и уменьшить задержку. Тем не менее, даже HBM сталкивается с фундаментальными ограничениями: физический периметр чипа ограничивает общий поток данных, а перемещение массивных наборов данных на скоростностях Terabit создает значительные энергетические ограничения.

Эти ограничения подчеркивают критическую потребность в подключении с более высокой пропускной способностью и подчеркивают срочность для прорывов в обработке и архитектуре памяти. Без этих инноваций наши мощные вычислительные ресурсы будут сидеть на холостом ходу, ожидая данных, что значительно ограничивает эффективность и масштаб.

От серверных ферм до систем высокой плотности

Сегодняшние модели передового машинного обучения (ML) часто полагаются на тщательно организованные расчеты в течение десятков до сотен тысяч идентичных вычислительных элементов, потребляющих огромную власть. Эта плотная связь и мелкозернистая синхронизация на микросекундном уровне предъявляют новые требования. В отличие от систем, которые охватывают неоднородность, вычисления ML требуют однородных элементов; Смешивание поколений будет узким местом быстрее. Пути связи также должны быть заранее спланированы и высокоэффективны, поскольку задержки в одном элементе могут задержать весь процесс.

Эти крайние требования к координации и власти способствуют необходимости беспрецедентной плотности вычислений. Минимизация физического расстояния между процессорами становится необходимым для уменьшения задержки и энергопотребления, прокладывая путь для нового класса сверхплозных систем ИИ.

Это стремление к чрезвычайной плотности и тесно скоординированной вычислениям в основном изменяет оптимальный дизайн инфраструктуры, требуя радикального переосмысления физических макетов и динамического управления питанием для предотвращения узких мест производительности и максимизации эффективности.

Новый подход к устойчивости к ошибкам

Традиционная толерантность к разлому зависит от избыточности среди слабо связанных систем для достижения высокого времени безотказной работы. ML Computing требует другого подхода.

Во-первых, масштаб вычислений слишком дорогим. Во -вторых, модельное обучение является тесно синхронизированным процессом, где один сбой может каскад для тысяч процессоров. Наконец, усовершенствованное оборудование ML часто подталкивает к границе текущей технологии, что потенциально приводит к более высокой частоте отказов.

Вместо этого появляющаяся стратегия включает в себя частые контрольно-пропускные пункты-сохранение состояния вычислений-в сочетании с мониторингом в реальном времени, быстрого распределения запасных ресурсов и быстрых перезапуска. Базовый аппаратный и сетевой дизайн должен обеспечить быстрое обнаружение сбоев и замену компонентов для обеспечения производительности.

Более устойчивый подход к власти

Сегодня и с нетерпением жду, доступ к питанию является ключевым узким местом для масштабирования вычислительного искусства. В то время как традиционный дизайн системы фокусируется на максимальной производительности на чип, мы должны перейти к сквозному дизайну, сфокусированной на доставленных, а также масштабных производительности на ватт. Этот подход жизненно важен, потому что он рассматривает все компоненты системы — вычислительные, сеть, память, доставку питания, охлаждение и устойчивость к разломам — беспрепятственно совместно для поддержания производительности. Оптимизация компонентов в изоляции сильно ограничивает общую эффективность системы.

Поскольку мы стремимся к повышению производительности, отдельные чипы требуют большей мощности, часто превышающей охлаждающую способность традиционных центров обработки данных с воздушным охлаждением. Это требует сдвига в сторону более энергоемких, но, в конечном счете, более эффективных решениях с жидким охлаждением и фундаментальной модернизации инфраструктуры охлаждения центра обработки данных.

Помимо охлаждения, обычные избыточные источники энергии, такие как двойные коммунальные каналы и дизельные генераторы, создают существенные финансовые затраты и медленную доставку. Вместо этого мы должны объединить различные источники питания и хранилище в масштабе с несколькими гигаваттами, управляемыми контроллерами микросетей в реальном времени. Используя гибкость рабочей нагрузки ИИ и географическое распределение, мы можем предоставить большую возможность без дорогих систем резервного копирования, необходимых всего несколько часов в год.

Эта развивающаяся модель мощности обеспечивает реакцию в режиме реального времени на доступность мощности-от выключения вычислений во время нехватки до передовых методов, таких как масштабирование частоты для рабочих нагрузок, которые могут переносить снижение производительности. Все это требует телеметрии и активации в реальном времени на уровнях, недоступных в настоящее время.

Безопасность и конфиденциальность: запека

Критический урок из интернет -эры заключается в том, что безопасность и конфиденциальность не могут быть эффективно прикреплены к существующей архитектуре. Угрозы со стороны плохих актеров будут расти более сложными, требуя защиты пользовательских данных и запатентованной интеллектуальной собственности, которая будет встроена в структуру инфраструктуры ML. Одним из важных наблюдений является то, что ИИ, в конце концов, улучшит возможности злоумышленников. Это, в свою очередь, означает, что мы должны убедиться, что ИИ одновременно переказывает нашу защиту.

Это включает в себя сквозное шифрование данных, надежное отслеживание линии данных с проверкой журналов доступа, оборудованные границы безопасности для защиты конфиденциальных вычислений и сложных систем управления ключами. Интеграция этих гарантий с нуля будет иметь важное значение для защиты пользователей и поддержания их доверия. Мониторинг в режиме реального времени того, что, вероятно, будет лепабитами/сек телеметрии и ведения журнала, будет ключом к выявлению и нейтрализации векторов атаки иглы в ходе, в том числе из инсайдерских угроз.

Скорость как стратегический императив

Ритм обновлений аппаратного обеспечения резко изменился. В отличие от инкрементной эволюции традиционной инфраструктуры за расточим, развертывание суперкомпьютеров ML требует принципиально другого подхода. Это связано с тем, что Compute ML не легко запускается при гетерогенных развертываниях; Код Compute, алгоритмы и компилятор должны быть специально настроены для каждого нового генерации оборудования, чтобы полностью использовать свои возможности. Скорость инноваций также беспрецедентна, что часто обеспечивает два или более в годовом исчислении из года в годовом исчислении от нового оборудования.

Следовательно, вместо дополнительных обновлений требуется массовый и одновременный развертывание гомогенного оборудования, часто во всех центрах обработки данных. Благодаря ежегодным обновлениям аппаратного обеспечения, обеспечивающих улучшение производительности целочисленного фактора, способность быстро выдерживать эти колоссальные двигатели ИИ имеют первостепенное значение.

Цель должна заключаться в сжатии сроков от проектирования до полного эксплуатационного развертывания чипов 100 000 человек, что обеспечивает повышение эффективности при поддержке алгоритмических прорывов. Это требует радикального ускорения и автоматизации каждого этапа, требуя производственной модели для этих инфраструктур. От архитектуры до мониторинга и ремонта, каждый шаг должен быть оптимизирован и автоматизирован для использования каждой генерации оборудования в беспрецедентном масштабе.

Встреча с момента: коллективные усилия для инфраструктуры ИИ следующего поколения

Рост Gen AI отмечает не только эволюцию, но и революцию, которая требует радикальной переосмысления нашей компьютерной инфраструктуры. Проблемы, предстоящие — в специализированном оборудовании, взаимосвязанных сетях и устойчивых операциях — являются значительными, но также является преобразующим потенциалом искусственного интеллекта, который он позволит.

Легко видеть, что наша полученная вычислительная инфраструктура будет неузнаваем в течение нескольких лет вперед, что означает, что мы не можем просто улучшить чертежи, которые мы уже разработали. Вместо этого мы должны коллективно, от исследований к промышленности, приступить к попытке пересмотреть требования ИИ вычислить из первых принципов, создав новый план для базовой глобальной инфраструктуры. Это, в свою очередь, приведет к принципиально новым возможностям, от медицины до образования до бизнеса, в беспрецедентном масштабе и эффективности.

Amin Vahdat является VP и GM для машинного обучения, систем и облачного AI в Google Cloud.

Источник

От товарного оборудования до специализированного вычисления

За пределами Ethernet: рост специализированных соединений

Разбивая стену памяти

От серверных ферм до систем высокой плотности

Новый подход к устойчивости к ошибкам

Более устойчивый подход к власти

Безопасность и конфиденциальность: запека

Скорость как стратегический императив

Встреча с момента: коллективные усилия для инфраструктуры ИИ следующего поколения

Модель нового видения от Cohere работает на двух графических процессорах, бьет VLM высшего уровня по визуальным задачам

Почему лучшие разработчики завтрашнего дня не будут просто кодировать — они будут курировать, координировать и командовать ИИ

Рекомендуем

Оставить комментарий Отменить ответ