AI 모델은 왜 GPU 하나에 담기지 않을까

GPU는 왜 ‘혼자’ 일하지 않는가

AI 관련 글을 보다 보면 대부분 이렇게 말한다.
“더 빠른 GPU가 필요하다.”

그런데 AI 인프라 구조를 조금만 깊게 들여다보면,
생각이 완전히 달라진다.

오늘날 AI 데이터센터의 실제 성능을 결정하는 것은
GPU 하나의 연산 능력이 아니라,GPU들이 얼마나 잘 연결되어 있느냐다.

GPU 성능은 남아도는데연산 속도가 기대만큼 나오지 않는 경우가 생각보다 많다.
이유는 단순하다. GPU가 느린 게 아니라, 서로 기다리고 있기 때문이다.

이 글에서는

왜 AI는 GPU를 하나씩 쓰지 않는지
왜 인터커넥트가 연산 성능 그 자체가 되었는지
NVLink / NVSwitch가 AI 구조를 어떻게 바꿔놓았는지

구조 관점에서 정리해본다.

1️⃣ GPU를 여러 개 써야 하는 이유

AI 모델은 더 이상
GPU 한 장으로 감당할 수 있는 크기가 아니다.

최신 대형 언어 모델과 생성형 AI는

파라미터 수 수백억~수천억 개
단일 GPU 메모리에 모델 전체를 담을 수 없음
연산 자체도 여러 GPU에 나눠야만 가능

👉 모델이 자연스럽게 분산 구조를 요구한다.

실제 AI 연산은 보통 이런 흐름으로 진행된다.

모델을 여러 조각으로 나누고
여러 GPU가 동시에 계산하고
중간 결과를 계속 주고받으며
하나의 결과로 합산한다

이 과정을 이해하면서 가장 인상 깊었던 점은, GPU 간 데이터 이동이 느려지는 순간
모든 GPU가 동시에 멈춘다는 사실이었다.

📌 이때 연결이 느리면 GPU는 계산을 못 해서 멈추는 게 아니라,
서로를 기다리느라 놀게 된다.

2️⃣ PCIe 구조의 한계

초기의 GPU 서버는 CPU를 중심으로 GPU를 PCIe로 연결했다.

이 구조는 직관적이지만, AI 연산에는 명확한 한계가 있다.

PCIe는

CPU ↔ GPU 통신에는 적합하지만
GPU ↔ GPU 직접 통신에는 비효율적이다

실제 데이터 흐름은 이렇게 된다.

GPU A → CPU → GPU B

👉 불필요한 경로
👉 대기 시간 증가
👉 병목 발생

이 구조에서는 GPU를 많이 꽂을수록 성능이 좋아지기보다,
오히려 효율이 떨어진다.

GPU 성능은 충분한데 연결이 발목을 잡는 상황이 만들어진다.

3️⃣ 인터커넥트는 ‘데이터 고속도로’다 🚄

이 문제를 해결하기 위해 등장한 것이 GPU 전용 고속 인터커넥트다.

대표적인 예가 NVIDIA의 NVLink / NVSwitch다.

이 구조의 핵심은 단순하다.

CPU를 거치지 않고
GPU끼리 직접
초고속으로 데이터 교환

GPU A ↔ GPU B ↔ GPU C

이 순간부터 GPU 여러 개는개별 부품이 아니라
하나의 거대한 연산 덩어리처럼 동작한다.

📌 실제 GPU 클러스터 구조를 단순화해 표현한 이미지
(연결 구조 이해를 돕기 위한 예시)

출처 : AI 생성 이미지

4️⃣ NVLink / NVSwitch가 바꾼 것

NVLink는 GPU 간 직접 통신 통로다. NVSwitch는 여러 GPU를 완전 연결 구조로 묶어준다.

이 조합이 만들어낸 변화는 분명하다.

GPU 수가 늘어날수록
연산 성능도 거의 비례해 증가
대규모 모델 학습이 현실화

👉 GPU 1개 = 연산 장치
👉 GPU 8개 = 하나의 연산 시스템

이 구조를 이해하고 나면 GPU 스펙만 비교하는 분석이
왜 점점 의미 없어지는지도 보인다.

📌 이 구조에서는 연결 속도 = 연산 성능이다.

아무리 GPU가 빨라도 인터커넥트가 느리면
전체 시스템 성능은 그 수준에 갇힌다.

🎥 아래 영상은 AI 데이터센터의 경쟁은 더 빠른 GPU보다 더 잘 연결된 GPU 구조에서 갈린다.
NVLink가 왜 필수 인프라가 되었는지 짧게 이해할 수 있는 영상이다.

5️⃣ 인터커넥트는 GPU의 ‘확장성’이다

AI 인프라는 계속 커진다.

더 큰 모델
더 많은 파라미터
더 긴 컨텍스트

이 모든 요구는 GPU를 더 많이 묶는 방식으로만 해결 가능하다.

그리고 그 확장을 가능하게 만드는 것이 바로 인터커넥트다.

그래서 인터커넥트는 옵션이 아니라 AI 인프라의 필수 조건이 되었다.

🔎 정리: 왜 연결이 곧 성능인가

AI 연산은 단순히 계산만 하는 구조가 아니다.

계산 → 전달 → 계산 → 전달
이 과정이 끊임없이 반복된다.

연산 속도는 GPU가
전체 효율은 인터커넥트가 결정한다

👉 GPU가 엔진이라면
👉 인터커넥트는 변속기이자 도로다.

도로가 막히면 엔진이 아무리 좋아도 앞으로 나아갈 수 없다.

그래서 오늘날 AI 데이터센터의 경쟁은
단순한 GPU 성능 싸움이 아니라,

GPU + HBM + 인터커넥트
이 세 요소를 얼마나 잘 결합했느냐의 싸움이 되었다.

🔗 관련 기업 공식 사이트 (참고용)

🇺🇸 NVIDIA (NVLink / NVSwitch)

https://www.nvidia.com

GPU 자체보다
GPU를 하나의 시스템으로 묶는 구조를 만든 회사
NVLink, NVSwitch는
AI 데이터센터 내부 표준 인터커넥트로 자리 잡음
“GPU 회사”라기보다
AI 연산 인프라 아키텍처 회사에 가까움

🇺🇸 Broadcom (AI 데이터센터 스위치의 핵심)

https://www.broadcom.com

AI 데이터센터 내부 네트워크 스위치 칩의 절대 강자
GPU ↔ GPU, 서버 ↔ 서버 간
초고속 데이터 이동을 실제로 처리하는 하드웨어 공급
NVLink가 GPU 내부라면,
Broadcom은 랙·데이터센터 단위 연결의 핵심

📌 “인터커넥트 = 네트워크” 관점에서 절대 빠지면 안 되는 회사

🇺🇸 Arista Networks (AI 데이터센터 네트워크)

https://www.arista.com

AI 데이터센터 전용
고속 이더넷 네트워크 장비 전문 기업
GPU 클러스터 확장 시
지연(latency) 최소화에 특화된 스위치·소프트웨어 제공
대형 클라우드 사업자들의
AI 서버 확장에 핵심 역할

📌 GPU가 많아질수록 존재감이 커지는 회사

🇺🇸 Marvell Technology (커스텀 인터커넥트)

https://www.marvell.com

AI 데이터센터용
커스텀 인터커넥트·광통신 칩 공급
GPU 간 연결뿐 아니라
데이터센터 외부 확장까지 고려한 구조 담당
“보이지 않는 연결”을 설계하는 회사

🇯🇵 Furukawa Electric / 🇺🇸 Corning (광인터커넥트)

https://www.furukawaelectric.com
https://www.corning.com
AI 데이터센터에서
GPU 수가 늘어날수록 필수가 되는 광케이블
전기 신호의 한계를 넘기 위한
물리적 인터커넥트 인프라 담당

📌 진짜 인프라는 항상 눈에 잘 안 띈다

✍️ 마무리

이 글은 AI 인프라 구조를 공부하며
GPU·HBM·인터커넥트의 역할을
구조 관점에서 이해하기 위해 정리한 글이다.

단순한 스펙 비교보다 왜 연결이 성능이 되는지를 이해하는 것이
앞으로 더 중요해질 거라 느꼈기 때문이다.

📌 다음 글 예고

GPU는 계산을,인터커넥트는 확장을,
HBM은 공급을 해결했다.

그렇다면 다음 병목은 무엇일까?
다음 글에서는

HBM 이후를 향한 실험, HBF를 통해
AI 인프라의 다음 방향을 살펴본다.

HBM이 중요한 이유

HBM이 중요한 이유: AI 반도체 성능을 결정하는 4가지 구조적 차이

GPU가 AI의 중심이 된 이유

GPU가 AI의 중심이 된 이유, CPU (1) vs GPU(100)

※ 본문에 언급된 기업들은 AI 반도체 구조를 설명하기 위한 예시일 뿐,
특정 기업에 대한 투자 권유나 매수·매도 의견이 아님을 밝힙니다.
투자 판단과 책임은 전적으로 개인에게 있습니다.

왜 AI는 GPU를 ‘연결’하는가 : 1개의 GPU로는 부족한 이유