NVIDIA, Rubin GPU와 groq lpu를 결합하여 지연 시간을 줄이고 추론 성능을 35배 향상시키다

13 4월 2026

NVIDIA의 200억 달러 규모의 groq lpu 인수는 GPU 아키텍처 선택부터 Vera Rubin이 대규모 실시간 워크로드를 처리하는 방식까지 AI 추론 로드맵을 재구성했습니다.

Summary

NVIDIA의 200억 달러 규모 Groq 투자 내부

2025년 크리스마스 날, NVIDIA의 Groq 인수는 아직 전화 통화와 악수로만 이루어졌습니다. LPU와 구글의 초기 TPU를 만든 창립자 Jonathan Ross는 논의가 시작될 때 집에 있었습니다. 그러나 3주 후, 200억 달러가 거래되었고 Ross는 NVIDIA의 최고 소프트웨어 아키텍트가 되었습니다.

이 과정은 Groq COO Sunny Madra가 NVIDIA가 NVLink를 생태계 파트너에게 개방한 후 Jensen Huang에게 Groq가 연결할 수 있는지 문의하면서 시작되었습니다. Jensen은 “물론, 왜 안 되겠어?”라고 답했습니다. 그들은 이더넷을 통한 GPU–LPU 워크로드 분할을 테스트했으며, NVLink는 아직 없었고 단지 개념 증명 단계였습니다. 이 데모가 성공적으로 작동하자마자 공식적인 인수 논의가 시작되었습니다.

이 거래의 속도는 긴급한 전략적 문제를 반영했습니다. NVIDIA는 모든 GPU 데이터센터가 LLM 추론에서 직면하는 디코드 병목 현상에 대한 목표 해결책을 구매했습니다. 또한, 이는 NVIDIA의 H100에서 Blackwell B200, 그리고 Vera Rubin 플랫폼으로의 광범위한 GPU 아키텍처 진화와 일치했습니다.

GPU가 LLM 토큰 생성에 어려움을 겪는 이유

모든 LLM 추론 요청에는 두 가지 뚜렷한 단계가 있습니다. 프리필은 모델이 전체 입력(프롬프트, 컨텍스트 또는 문서)을 병렬로 수집하고 처리하는 단계입니다. 수천 개의 토큰이 동시에 주의를 기울입니다. GPU는 이 고도로 병렬적인 워크로드에서 뛰어납니다.

그러나 디코드는 근본적으로 다릅니다. 모델은 한 번에 하나의 토큰을 순차적으로 생성합니다. 각 새로운 토큰은 이전 모든 토큰에 의존하므로, 이 과정은 시퀀스 전체에 병렬화될 수 없습니다. 이 순차적 특성은 GPU와 토큰별 생성 간의 아키텍처 불일치를 드러냅니다.

각 디코드 단계에서 GPU는 HBM 메모리에서 전체 가중치 행렬을 가져와 상대적으로 작은 행렬 곱셈을 수행하고 단일 토큰을 출력합니다. 단계 간에 가중치는 변경되지 않으므로 동일한 데이터가 반복적으로 로드됩니다. Vera Rubin GPU의 22 TB/s HBM4 대역폭에서도 메모리 이동이 병목 현상이 됩니다. 왜냐하면 단계당 연산이 매우 가볍기 때문입니다.

GPU는 대규모 병렬 처리를 위해 최적화되어 있으며, 세밀한 순차 실행에는 최적화되어 있지 않습니다. 결과적으로 각 토큰 생성 단계는 GPU 연산의 상당 부분을 활용하지 못하게 됩니다. 이것이 바로 Groq 3 LPU가 해결하도록 설계된 문제입니다. 이는 메모리 접근과 지연 시간에 의해 제한되는 추론 부분을 담당함으로써 해결됩니다.

Groq 3 LP30 설계와 SRAM 우선 아키텍처

Groq 3의 핵심인 LP30 칩은 GPU와 아키텍처적으로 매우 다릅니다. 다이 옆에 고대역폭 HBM이 있는 대신, 500 MB의 온다이 SRAM을 통합하여 150 TB/s의 대역폭을 제공합니다. 반면 Vera Rubin GPU는 288 GB의 HBM4를 22 TB/s로 제공합니다. LPU는 용량이 훨씬 적지만, 메모리 접근 속도는 거의 7배 빠릅니다.

이 설계는 의도적입니다. 캐시 계층 구조가 없고, 동적 하드웨어 스케줄링도 없으며, 추측 실행도 없습니다. 대신, LP30은 물리적 뱅크 주소 지정이 가능한 평면 SRAM을 노출합니다. 또한, GPU의 런타임 기반 실행 모델을 컴파일러 기반 정적 명령어 스케줄링으로 대체하여 모든 명령어의 타이밍이 컴파일 시에 고정됩니다.

이 결정론적 접근 방식은 토큰 전달 타이밍의 변동성을 제거하여 실시간 음성 에이전트와 지연 시간에 민감한 애플리케이션에 중요합니다. GPU가 순차적으로 토큰을 생성할 때 메모리 압력과 스케줄러 상태에 의해 마이크로초 수준의 예측 불가능한 지연이 발생합니다. LPU는 이러한 지터를 완전히 피합니다.

LP30은 네 가지 고유한 실행 유닛 유형을 포함합니다: 밀집 FFN 행렬 곱셈을 위한 Matrix (MXM), 포인트와이즈 연산 및 활성화를 위한 Vector (VXM), 데이터 순열 및 전치를 위한 Switch (SXM), 컴파일러 제어 하에 직접 SRAM 주소 지정을 위한 Memory (MEM). 이 조합은 트랜스포머 FFN 실행에 최적화되어 있습니다.

각 LP30 칩은 1.2 PFLOPS의 FP8 연산을 제공합니다. 각 칩은 96개의 칩 간 링크를 통해 112 Gbps로 연결되어, 칩당 총 2.5 TB/s의 C2C 대역폭을 제공합니다. 삼성의 LP4X 공정으로 제작되어, Groq의 1세대 칩이 가진 230 MB의 SRAM 용량을 두 배로 늘렸습니다.

중요하게도, LPU는 GPU를 대체하기 위한 것이 아닙니다. 이는 Vera Rubin GPUs와 함께 분할 실행 모델에서 사용되도록 설계되었습니다. 각 프로세서 유형은 자신의 아키텍처에 맞는 워크로드 부분을 처리합니다. 그러나 이 분할을 효율적으로 만들기 위해 새로운 시스템 설계가 필요했습니다.

Attention-FFN 분리와 시스템 수준 분할

NVIDIA는 이 아키텍처를 Attention-FFN Disaggregation (AFD)라고 명명했습니다. 핵심 통찰은 트랜스포머의 디코더 레이어가 두 가지 매우 다른 유형의 작업을 포함하고 있으며, 각 작업에서 다른 하드웨어가 우위를 점한다는 것입니다: 주의와 피드포워드 네트워크.

주의는 컨텍스트에 의존합니다. 이는 시퀀스 길이에 따라 선형적으로 증가하는 중간 주의 계산을 저장하는 버퍼인 KV 캐시를 읽고, 모든 이전 토큰에 대한 주의 점수를 계산하며, 중간 활성화를 생성합니다. 연산은 컨텍스트 길이에 따라 확장되므로, KV 캐시를 보유할 수 있는 대용량 HBM을 가진 하드웨어가 필요합니다. 이 역할은 Rubin GPU가 맡습니다.

반면 FFN 경로는 컨텍스트에 독립적입니다. 특정 프롬프트와 상관없이 동일한 가중치 행렬이 사용됩니다. 단지 들어오는 활성화만 토큰마다 다릅니다. 현대의 MoE 모델은 FFN 매개변수에 의해 지배됩니다: DeepSeek R1은 총 6850억 개 중 6690억 개의 FFN 매개변수를 가지고 있으며, 이는 97.7%입니다. Kimi K2는 98.9%에 도달합니다. 이러한 가중치는 랙 규모에서 SRAM에 맞출 수 있으며, 150 TB/s로 로드하는 것이 HBM4의 22 TB/s보다 훨씬 빠릅니다.

실제로, 분할은 다음과 같이 작동합니다: Vera Rubin NVL72 복합체는 프리필, KV 캐시 구성 및 디코드 주의를 처리합니다. Groq 3 LPX 시스템은 디코드 FFN 및 MoE 라우팅을 담당합니다. 40개의 디코더 레이어가 있는 모델의 경우, 이는 토큰당 40번의 왕복을 의미하며, 각 토큰이 생성될 때마다 활성화가 GPU에서 LPU로, 다시 LPU에서 GPU로 흐릅니다.

이 모든 것은 NVIDIA Dynamo에 의해 조정됩니다. 이는 들어오는 요청을 분류하고, 프리필을 GPU 작업자에게 라우팅하며, 토큰별 AFD 루프를 관리하고, 새로운 토큰이 관련 캐시를 이미 보유한 작업자에게 도착하도록 KV 인식 스케줄링을 수행합니다. 또한, 네트워킹을 조정하여 랙 간 트래픽을 최소화합니다.

Jonathan Ross는 GTC 2026 세션에서 “모든 것을 LPU에서 실행하면 주의에서 활용도가 낮아집니다. 모든 것을 GPU에서 실행하면 FFN 레이어에서 활용도가 낮아집니다. 둘을 함께 사용하면 두 가지 모두의 활용도가 증가합니다.”라고 설명했습니다. 이 발언은 nvidia groq 인수의 논리를 깔끔하게 요약합니다.

간단히 말해, Rubin GPU는 대용량 HBM이 필요한 작업, 즉 긴 컨텍스트에 대한 주의와 KV 캐시 저장을 처리합니다. Groq의 LPU는 극단적인 메모리 대역폭과 결정론적 타이밍이 필요한 작업, 즉 각 토큰에 대해 150 TB/s로 제공되는 FFN 가중치를 처리합니다.

Groq 3 LPX 랙 설계 및 성능 범위

AFD 모델은 Groq 3 LPX가 FFN 워크로드를 충분히 커버할 수 있을 때만 작동합니다. 256 LP30 칩에서 그 규모에 도달합니다. LPX 랙은 32개의 액체 냉각 컴퓨트 트레이에 걸쳐 256개의 칩을 통합하며, 각 트레이에 8개의 칩이 모든-대-모든 토폴로지로 연결되어 랙 내 지연 시간을 낮게 유지합니다.

랙 수준의 사양은 상당합니다. 256개의 칩에 걸친 총 SRAM은 128 GB입니다. 집계된 랙 규모 대역폭은 640 TB/s에 도달합니다. FP8 연산은 315 PFLOPS에 이릅니다. 랙 간 연결은 Dragonfly 토폴로지를 사용하여 트레이당 방향당 약 448 GB/s를 제공합니다. 최대 3홉 직경을 가집니다.

Vera Rubin NVL72와 짝을 이루면, 이 플랫폼은 극적인 효율성 향상을 제공합니다. NVIDIA에 따르면, Vera Rubin NVL72 + LPX 시스템은 Grace Blackwell NVL72 시스템 단독으로 대비하여 35배 더 높은 추론 처리량을 메가와트당 달성합니다. 중요한 것은 비교 대상이 Blackwell NVL72이며, 이전 H100 구성은 아닙니다.

GTC 기조연설에서 Jensen Huang은 이 결합 시스템으로 실시간 워크로드에 대해 초당 800–1,000 토큰의 상호작용 목표를 선보였습니다. 그러나 같은 행사에서 중요한 설명은 LPX 랙이 NVL72의 저렴한 대안이 아니라는 것입니다.

청중 중 한 명이 LPX가 더 저렴할 수 있다고 제안했을 때, Ross는 “사실 그것이 더 저렴하다고 동의하지 않습니다. 그 랙에는 많은 실리콘이 있습니다.”라고 반박했습니다. LPX는 대규모 초저지연 추론이 필요한 고객을 위한 Vera Rubin 플랫폼의 프리미엄 확장으로 자리 잡고 있으며, 예산 추론 카드로 자리 잡고 있지 않습니다.

모델 크기에는 하드 캡도 있습니다. 128 GB의 SRAM으로, LPX 랙은 대략 FP8에서 53 GB까지의 모델을 호스팅할 수 있습니다. FP8에서 623 GB의 FFN 가중치를 가진 DeepSeek R1과 같은 더 큰 모델은 전면 패널 C2C 포트를 통해 여러 LPX 랙을 연결하고 FFN 가중치를 랙에 분산해야 합니다. 그럼에도 불구하고, Dynamo와 NVIDIA의 네트워킹 스택은 최종 사용자로부터 이 복잡성을 대부분 숨기도록 설계되었습니다.

Rubin CPX 취소 및 Vera Rubin 통합

Groq 인수는 또한 제품 계획 충돌을 해결했습니다. 초기 Vera Rubin 로드맵에는 Rubin CPX라는 두 번째 GPU 변형이 포함되어 있었으며, 이는 긴 컨텍스트 및 KV 캐시 워크로드에 최적화된 GDDR7 기반 칩이었습니다. GTC 2026에서 한 참석자가 Ross에게 Rubin CPX가 취소되었는지 직접 물었습니다.

Ross는 “한 사람당 한 가지 질문”이라며 직접적인 예 또는 아니오를 주지 않았습니다. 그러나 별도의 Ian Buck 기자 회견에서 NVIDIA는 CPX가 보류되었으며, LPU 기반 디코드가 대신 올해 출시될 것이라고 확인했습니다. LPU는 GPU 변형이 아닌 전용 SRAM을 사용하여 동일한 컨텍스트 독립적, 메모리 용량 추론 문제를 해결합니다.

결과적으로, Vera Rubin 통합은 이제 Rubin GPU가 주의 및 KV 캐시 작업을 표준화하고, LPX 랙이 FFN 실행 및 MoE 디스패치를 담당합니다. 또한, 이는 제품 스택을 단순화합니다: GPU SKU를 확산시키는 대신, NVIDIA는 명확한 GPU–LPU 작업 분할에 의존합니다.

LPU 및 Rubin에 대한 자주 묻는 질문

왜 Rubin GPU를 더 많이 배치하지 않습니까?

더 많은 Vera Rubin GPU를 추가하면 집계 배치 처리량이 증가하여 더 많은 병렬 요청을 동시에 처리할 수 있습니다. 그러나 이는 단일 요청의 디코드 지연 시간을 개선하지 않습니다. 왜냐하면 토큰 생성은 GPU 수와 상관없이 본질적으로 순차적이기 때문입니다. LPU는 시스템 전체 처리량뿐만 아니라 요청당 지연 시간을 줄이도록 설계되어 두 접근 방식을 보완합니다.

35배 처리량 개선은 어떻게 측정됩니까?

35배 수치는 시스템 수준 메트릭입니다. 이는 Vera Rubin NVL72와 Groq 3 LPX 배포를 Grace Blackwell NVL72 단독 시스템과 비교하여, 초당 토큰 수를 메가와트당 측정한 것입니다. 이는 GPU당 개선이 아니며, 기준선은 B200x8 또는 H100x8과 같은 작은 구성은 명시적으로 제외합니다.

GPU에서 LPU로의 병목은 어디에 있습니까?

랙 간 지연 시간은 실제 고려 사항입니다. Microsoft 엔지니어가 GTC 세션 중 이 점을 직접 제기했습니다. Ross는 이 문제를 인정하고 네트워킹 개선이 진행 중이라고 말했습니다. 한편, Dynamo는 불필요한 전송을 최소화하기 위해 KV 인식 라우팅을 처리하며, NVIDIA의 Mellanox 네트워킹 스택은 랙 간 링크를 관리하여 지연 시간을 가능한 한 낮게 유지합니다.

LPU가 모델을 훈련할 수 있습니까?

아니요. LPU는 엄격히 디코드 전용입니다. FFN 실행을 빠르고 결정론적으로 만드는 컴파일러 기반 정적 스케줄링은 역전파의 동적이고 반복적인 특성에 적합하지 않습니다. 따라서 훈련 워크로드는 유연하고 고처리량 연산을 위해 설계된 Rubin GPU에 남아 있습니다.

Groq 3 LPX는 언제 사용할 수 있습니까?

Ross는 GTC에서 Groq 3 LPX가 이미 생산 중이라고 확인했습니다. Jensen Huang은 2026년 3분기를 고객 가용성 일정으로 발표했으며, 이는 Vera Rubin 플랫폼의 광범위한 출시와 일치합니다. Ross는 크리스마스 날 논의에서 GTC 무대까지의 여정을 “아마도 역사상 가장 빠른 반도체 램프 중 하나”라고 설명했으며, 약 3개월에 걸쳐 진행되었습니다.

AI 추론에 대한 전략적 함의

groq lpu 아키텍처는 GPU 변형이 해결할 수 없는 격차를 메웁니다. 이는 GPU가 트랜지스터나 메모리가 부족해서가 아니라, 순차적이고 지연 시간에 민감한 FFN 디코드가 그들의 병렬 설계와 맞지 않기 때문입니다. 사용자 수가 증가함에 따라 더 많은 동시 요청이 각 데이터센터에 도달하고, 각 토큰당 지연 시간의 밀리초가 수천 개의 세션에 걸쳐 누적됩니다.

이 인수는 LLM 추론의 디코드 측면에서 GPU만으로는 충분하지 않다는 NVIDIA의 인식을 나타냈습니다. 또한, 이는 더 넓은 산업 변화도 확인했습니다: 전문화된 가속기가 범용 GPU를 보완하기 위해 등장하고 있으며, 이를 완전히 대체하려는 것이 아닙니다.

컴파일러 기반 SRAM의 150 TB/s는 FFN 실행에 적합한 도구입니다. HBM4의 22 TB/s는 긴 컨텍스트와 KV 중심 워크로드에 대한 주의에 적합한 도구입니다. 200억 달러의 베팅은 둘을 함께 사용하여 — Dynamo에 의해 조정되고 NVLink 및 고속 C2C 링크를 통해 연결됨으로써 — 단독으로는 매치할 수 없는 시스템을 만든다는 것입니다.

NVIDIA의 GTC 2026 발표 및 공식 문서에 따르면, Groq 3 LPX는 2026년 3분기 가용성을 목표로 하고 있습니다. 램프가 일정대로 진행된다면, 결합된 Rubin–LPU 스택은 10년 후반기에 대규모 AI 추론의 기준 아키텍처를 정의할 수 있습니다.