우리의 AI 습관은 이미 데이터 센터 구축 방식을 변화시키고 있습니다. • The Register
홈페이지홈페이지 > 블로그 > 우리의 AI 습관은 이미 데이터 센터 구축 방식을 변화시키고 있습니다. • The Register

우리의 AI 습관은 이미 데이터 센터 구축 방식을 변화시키고 있습니다. • The Register

Jun 29, 2023

분석 AI 인프라를 보호하고 배포하기 위한 미친 돌진으로 인해 데이터 센터 운영자는 시설을 구축하고 운영하는 방식을 재평가해야 합니다.

일반적인 데이터 센터에서는 컴퓨팅, 네트워킹 및 스토리지 시스템이 가득한 랙을 통해 차가운 ​​공기가 유입됩니다. 뒤쪽에서 가열된 공기는 시설의 냉각 인프라에 의해 포착되어 배출됩니다.

이 패러다임은 6~10kW 랙에서는 잘 작동하지만 GPT-4와 같은 AI 모델을 훈련하는 데 사용되는 종류의 시스템을 배포하기 시작하면 무너지기 시작합니다. 최신 GPU 노드는 전체 랙의 전력을 쉽게 소비할 수 있습니다. 그리고 이로 인해 데이터 센터 운영자는 심각한 설계 변경을 해야 합니다.

Tesla는 이를 가장 최근에 깨달은 것으로 보입니다. 이번 주 초에 보고한 바와 같이, 미국 전기 자동차 제조업체는 "최초의 데이터 센터"를 구축하는 데 도움을 줄 사람들을 찾고 있습니다.

최근 채용 공고를 통해 회사는 "테슬라 최초의 데이터 센터의 엔드투엔드 설계 및 엔지니어링을 주도하고 핵심 멤버 중 한 명이 될 데이터센터 수석 엔지니어링 프로그램 관리자를 찾고 있다"고 밝혔습니다. 엔지니어링 팀이요."

이 사람은 새로운 데이터 센터 건설을 감독하는 책임도 맡게 됩니다. 이는 Tesla가 CEO Elon Musk의 소셜 네트워크 인수 이후 트위터가 포기한 새크라멘토의 데이터 센터 임대를 최근 인수했다고 주장하는 The Information의 보고서와 관련이 없을 수 있음을 시사합니다.

회사가 "최초의 데이터 센터"라는 말이 무엇을 의미하는지 정확히 명확하지 않지만 Tesla에 문의했지만 아직 답변을 듣지 못했습니다. 이는 작년 Hot Chips에서 선보인 맞춤형 Dojo AI 가속기와 관련이 있을 수 있습니다. .

회사는 자율주행 소프트웨어 개발을 가속화하기 위해 지금부터 2024년 말까지 이 프로젝트에 10억 달러 이상을 투자할 계획입니다. 지난 7월 머스크는 전체 시스템이 BF16 성능으로 추정되는 100엑사플롭스를 초과할 수 있다고 밝혔습니다.

이는 Tesla가 물건을 보관할 수 있는 곳과 조명을 켜고 모든 지점을 떠있게 할 누군가를 찾아야 한다는 것을 의미합니다. 그리고 Dojo 가속기에 대해 우리가 알고 있는 바에 따르면, AI 가속기를 계속 작동시키기 위해 적절한 전력과 냉각을 제공할 수 있는 시설을 설계하고 관리하는 것은 다소 악몽이 될 수 있습니다.

Dojo는 Tesla가 전적으로 자체 개발한 구성 가능한 슈퍼컴퓨터입니다. 컴퓨팅, 네트워킹, IO부터 명령어 세트 아키텍처, 전원 공급, 패키징 및 냉각에 이르기까지 모든 것이 Tesla의 기계 학습 알고리즘을 가속화한다는 명시적인 목적으로 맞춤 제작되었습니다.

이 시스템의 기본 빌딩 블록은 Tesla의 D1 칩렛입니다. 이들 중 25개는 TSMC의 System-On-Wafer 기술을 사용하여 Dojo Training 타일에 함께 패키징됩니다. 전체적으로 반 입방피트 시스템은 11GB SRAM, 9TB/s 패브릭 연결을 갖추고 있으며 9페타플롭스의 BF16 성능을 관리할 수 있습니다. 당사의 자매 사이트인 The Next Platform에서 대규모 AI 가속기에 대한 전체 분석을 확인할 수 있습니다.

물론 이러한 모든 성능을 컴팩트한 폼 팩터에 담는 것은 1exaFLOPS Dojo V1 시스템을 구성하는 6개의 가속기는 물론이고 단일 15kW 가속기에 어떻게 전력을 공급하고 냉각시키는가와 같은 몇 가지 고유한 과제를 제시합니다. 그리고 그것은 단지 가속기입니다. 또한 가속기를 통해 데이터 흐름을 공급하고 조정하는 데 사용되는 모든 지원 시스템에 전원을 공급하고 냉각해야 합니다.

그런 다음 고속 메쉬 문제가 있는데, 이는 이러한 타일을 배치할 수 있는 방법 측면에서 엄청나게 까다로울 수 있습니다. 이러한 속도에서는 더 가까이 포장할수록 좋지만 열 부하도 더 커집니다. 따라서 Tesla가 완전히 독특한 것을 선호하여 전통적인 랙을 사용한다는 아이디어를 완전히 버렸다고 해도 놀라운 일이 아닙니다.

이 겸손한 독수리는 개인적으로 예전의 거칠고 엉뚱한 슈퍼컴퓨팅 디자인으로 돌아가는 것을 보고 싶어합니다. 슈퍼컴퓨터는 예전에는 이상하고 재미있었습니다. 나를 믿지 못합니까? Thinking Machine의 CM-1이나 Cray-2를 찾아보세요. 정말 보기 좋은 기계들이었어요.