구글 TPU 7, Ironwood: 슈퍼 컴퓨터의 24배 연산 성능-엔비디아 GPU를 넘어
인공지능(AI)은 빠르게 성장하고 있습니다. 챗봇부터 이미지 생성기까지, 매일 새로운 도구들이 등장하고 있으며 이들은 모두 막대한 컴퓨팅 파워를 필요로 합니다. 기존의 컴퓨터 칩(CPU와 GPU)은 강력하지만, AI를 위해 특별히 설계된 것은 아닙니다. 그래서 AI 전용 가속기가 필요한 것이죠.
구글은 2016년부터 자체 AI 칩인 **TPU(Tensor Processing Unit)**를 개발해 왔습니다. 각 세대의 TPU는 속도, 전력 효율성, 대규모 머신러닝 모델 지원 면에서 꾸준히 향상되어 왔습니다. 구글은 Nvidia와 같은 기업이 GPU 시장을 주도하는 가운데, AI 경쟁에서 앞서기 위해 이 전략을 계속 이어가고 있습니다.
그리고 2025년, 구글은 지금까지 가장 진보된 TPU를 발표했습니다. 바로 TPU 7, 코드명 **Ironwood(아이언우드)**입니다. 이 칩은 특히 AI 추론(Inference) 작업을 위해 설계되었으며, 훈련된 AI 모델이 실제로 질문에 답하거나, 동영상을 추천하거나, 이상 행위를 감지하는 데 사용될 때 핵심 역할을 합니다.
이 블로그에서는 Google TPU 7이 왜 강력한지, Nvidia의 GPU와 비교해 어떤지, 그리고 AI의 미래에 왜 중요한지를 간단하게 설명해 드리겠습니다.
1. Ironwood 공식 발표 및 개요
구글은 2025년 4월 9일, Cloud Next 2025 행사에서 **TPU 7 (Ironwood)**를 공식 발표했습니다. 이 제품은 행사에서 가장 큰 주목을 받은 발표 중 하나였습니다. 구글은 Ironwood를 “가장 강력하고 확장 가능한 AI 칩“이라고 소개했습니다.
Ironwood가 이전 TPU와 다른 점은, AI 추론에 집중한 첫 TPU라는 것입니다. 이전 세대는 학습과 추론 모두를 지원했지만, Ironwood는 학습이 끝난 모델을 실행하는 데 특화되어 있습니다. 이는 구글이 실제 서비스 환경에서 AI를 더 빠르고 효율적으로 활용하는 방향으로 전략을 바꾸고 있음을 보여줍니다.
구글이 공개한 TPU 7의 주요 특징은 다음과 같습니다:
- 이전 TPU보다 훨씬 더 높은 성능
- 256개 칩의 소형 구성부터, 9,216개 칩의 대형 팟 구성까지 다양한 규모에 적용 가능
- 전력 효율 향상, 에너지 사용 및 비용 절감
- LLM (대규모 언어 모델) 및 MoE (전문가 혼합 모델) 등 대형 모델에 최적화
- Google Cloud AI Hypercomputer라는 대규모 AI 인프라의 핵심 구성 요소
즉, Ironwood는 단순한 칩이 아니라, 차세대 AI 서비스를 뒷받침할 완전한 AI 시스템의 일부입니다.

2. 기술 사양 요약
Ironwood는 최신 기술로 가득 차 있습니다. 칩 전문가가 아니더라도, 주요 기능을 쉽게 이해할 수 있도록 정리해 보겠습니다.
▣ 아키텍처 및 설계 방식
Ironwood는 칩렛 기반 설계를 사용합니다. 이는 하나의 큰 칩 대신 작은 칩들을 조합해서 만드는 방식으로, 제조 효율을 높이고 설계에 유연성을 줍니다. 또한 매우 빠른 HBM3E 메모리가 포함되어 있어, 대규모 AI 모델 실행에 필수적입니다.
또한 향상된 SparseCore 기능은 YouTube 추천, Google 쇼핑 순위와 같은 초대형 추천 시스템을 더욱 효율적으로 처리할 수 있게 해 줍니다.
▣ 연산 성능
Ironwood에 포함된 코어 수는 공개되지 않았지만, FP8 정밀도 기준 4,614 TFLOPs의 연산 성능을 보입니다. 이는 이전 세대인 **TPU v6 (Trillium)**의 2배가 넘는 수준입니다.
▣ 메모리 및 대역폭
Ironwood는 칩당 192GB의 HBM 메모리를 탑재하고 있으며, 이는 TPU v6 대비 6배 많습니다. 메모리 대역폭은 7.2 TBps로, 이전 세대보다 4.5배 향상되었습니다. 이는 GPT나 Gemini 같은 대형 모델을 처리하는 데 매우 중요합니다.
▣ 칩 간 통신 (Interconnect)
Ironwood 칩은 서로 간에 **Inter-Chip Interconnect (ICI)**라는 기술을 사용해 소통합니다. 최신 버전은 1.2 TBps의 양방향 대역폭을 지원하여, 다수의 칩이 함께 구성될 때 더 빠르고 효율적인 통신이 가능합니다.
TPU 세대 비교표
항목 | TPU v6 (Trillium) | TPU v7 (Ironwood) |
---|---|---|
메모리 용량 (HBM) | 32 GB | 192 GB |
메모리 대역폭 | 1.64 TBps | 7.2 TBps |
연산 성능 (FP8) | 약 1,836 TFLOPs | 4,614 TFLOPs |
ICI 대역폭 (양방향) | 0.9–1.8 TBps | 1.2 TBps |
전력 효율 (FP8 기준) | 비공개 | 4.7 TOPS/W |
이 수치를 보면, 특히 AI 추론 작업에서 TPU 7은 큰 도약이라는 걸 알 수 있습니다.
3. 성능 비교: Ironwood vs. 엔비디아 vs. 이전 TPU
Google의 **TPU 7 (Ironwood)**는 진정한 성능을 위해 설계되었습니다. FP8 정밀도로 AI 모델을 실행할 때, 최대 4,614 TFLOPs의 연산 성능을 낼 수 있으며, 이는 세계 최대 슈퍼컴퓨터인 El Capitan(1.7 엑사플롭스)의 연산 성능보다 24배 이상 높은 수준입니다. 또한 Nvidia의 최신 B200 GPU(약 5,000 TFLOPs)에 거의 근접한 성능을 보여줍니다.
이게 무슨 뜻일까요? 즉, TPU 7은 크고 복잡한 AI 모델을 더 빠르고 효율적으로 실행할 수 있다는 것입니다. 특히 챗봇, 실시간 번역, 추천 시스템처럼 즉각적인 응답이 필요한 AI 작업에 강력합니다.
다음은 비교표입니다:
구글 TPU v6(Trillium), TPU v7(Ironwood), NVIDIA B200(Blackwell) 비교표
항목 | 구글 TPU v6 (Trillium) | 구글 TPU v7 (Ironwood) | NVIDIA B200 (Blackwell) |
---|---|---|---|
출시 연도 | 2024 | 2025 | 2024/2025 |
최대 연산(FP8) | 공식 지원 없음 | 4,614 TFLOPs (칩당) | 4,500 TFLOPs (칩당) |
최대 연산(FP16) | 918 TFLOPs (칩당) | 미공개 | 2,250 TFLOPs (칩당) |
최대 연산(BF16) | 918 TFLOPs (칩당) | 미공개 | 미공개 |
최대 연산(TF32) | 미공개 | 미공개 | 1,100 TFLOPs (칩당) |
최대 연산(FP64) | 미공개 | 미공개 | 40 TFLOPs (칩당) |
최대 팟 규모(칩 수) | 8,960 (v5p), 256 (v6e) | 9,216 | 32,768 GPU (NVL72) |
팟 성능(FP8) | 미지원 | 42.5 ExaFLOPs (9,216칩) | 미공개 |
HBM 메모리/칩 | 32 GB | 192 GB | 192 GB (8×24GB HBM3e) |
메모리 대역폭 | 1.64 TB/s | 7.2 TB/s | 8 TB/s |
인터커넥트 | ICI, 800 Gb/s (v6) | ICI, 1.2 Tb/s 양방향 | NVLink 5, 1.8 TB/s |
전력 효율 | 기준치 | v6 대비 2배 (구글 발표) | H100 대비 25배 (추론) |
아키텍처 | 단일칩, SparseCore | 듀얼 칩렛, 3세대 SparseCore | 듀얼 다이, CUDA, FP4/FP6 지원 |
주요 용도 | 학습 + 추론 | 추론(LLM, MoE, 추천시스템) | 학습 + 추론 |
쿨링 | 공랭/수랭 | 수랭 | 수랭 |
요약:
TPU v7(Ironwood)와 NVIDIA B200은 2025년 기준 최고 성능의 AI 가속기로, 연산 성능과 메모리 사양이 비슷합니다. TPU v7은 초대형 추론에 최적화되어 있고, 효율성과 임베딩 특화 하드웨어가 강점입니다. B200은 대역폭과 다양한 연산 정밀도 지원에서 우위를 보입니다. 두 제품 모두 TPU v6(Trillium)에 비해 성능, 메모리, 효율성에서 큰 도약을 이뤘습니다.
▣ 전력 효율성
AI에서는 전력 소비도 매우 중요합니다. 데이터 센터는 비용이 많이 들고 전기를 많이 사용합니다. TPU 7은 Trillium보다 2배, 2018년에 발표된 초기 TPU보다 30배 더 효율적입니다. 즉, 더 적은 에너지로 더 많은 연산을 할 수 있어 비용과 환경 모두에 긍정적인 효과가 있습니다.
▣ 실제 성능 vs. 마케팅 비교
Google은 TPU 7의 성능이 슈퍼컴퓨터 El Capitan보다 24배 빠르다고 주장했습니다. 그러나 이 비교는 정밀도 단위가 다릅니다—TPU는 FP8, El Capitan은 FP64를 사용합니다. 즉, 정확한 1:1 비교는 아닙니다. 그럼에도 불구하고 중요한 점은, TPU 7이 매우 빠르며 최상위 성능을 겨냥하고 있다는 점입니다.
4. 주요 활용 분야
TPU 7은 단지 빠르기만 한 것이 아닙니다. 실제 의미 있는 AI 작업을 수행하기 위해 설계된 칩입니다. 이 칩은 추론(Inference) 작업, 즉 이미 학습된 AI 모델을 실행하여 결과를 도출하는 데 최적화되어 있습니다. 쉽게 말해, “학습”보다는 “답변”을 제공하는 용도입니다.
▣ TPU 7이 활약하는 분야
- 대규모 언어 모델 (LLMs) – 예: 챗봇, 가상 비서, ChatGPT 같은 도구
- 전문가 혼합 모델 (MoEs) – 필요한 부분만 사용해 빠르고 정확한 답을 주는 AI
- 순위 및 추천 시스템 – 적절한 동영상, 광고, 상품 등을 추천
- 과학 연구 – 날씨 예측, 신약 개발 등에 활용되는 시뮬레이션
- 금융 – 리스크 분석, 이상 거래 탐지 등
TPU 7은 향상된 SparseCore 덕분에, 추천 테이블이나 결측값이 많은 금융 모델 등 희소한 데이터 처리에도 탁월합니다.
▣ 왜 지금 중요한가?
우리는 지금 **”AI 추론의 시대”**에 접어들고 있습니다. AI 모델을 훈련시키는 것도 중요하지만, 실제로 사용하는 것이 더 중요해지고 있습니다. TPU 7은 항상 작동하며 빠르게 응답하는 AI를 가능하게 하여, 이 새로운 시대를 이끌 핵심 기술로 자리잡고 있습니다.
5. 출시 및 접근 방식
▣ 클라우드 전용
TPU 7은 매장에서 살 수 없습니다. 이는 Google Cloud의 일부로 제공되며, 2025년 후반에 출시될 예정입니다. 사용하려면 Google Cloud 플랫폼의 AI Hypercomputer를 통해 AI 작업을 실행해야 합니다.
▣ 구매할 수 없는 이유
Google은 TPU의 하드웨어부터 소프트웨어까지 전체 환경을 통제하기 위해 클라우드 전용 방식을 선택했습니다. 이를 통해 대기업이나 연구 기관이 더 빠르고 안정적이며 보안성 높은 환경에서 AI를 실행할 수 있도록 합니다.
▣ 휴대기기용은 아님
TPU 7은 데이터 센터급 작업을 위한 칩입니다. 스마트폰이나 소형 장치에는 적합하지 않습니다. 이런 용도에는 Google이 따로 제공하는 Coral Edge TPU가 있으며, 이는 스마트 카메라나 IoT 장치에 내장된 소형 AI 칩입니다.
6. 새로운 기능 및 개선점
Google의 **TPU 7 (Ironwood)**는 단순히 빠르기만 한 것이 아니라, 더 똑똑하고 효율적인 기능들을 새롭게 도입했습니다.
▣ FP8: 새로운 연산 표준
기존 TPU는 주로 INT8 또는 BF16 포맷을 사용했지만, TPU 7은 **FP8 (8비트 부동소수점)**을 도입했습니다. 이는 특히 추론 작업에 적합한 새로운 데이터 형식입니다. FP8의 장점은 다음과 같습니다:
- 더 높은 연산 성능
- 더 적은 메모리 사용량
- 더 빠른 모델 실행 속도
이 덕분에 TPU 7은 더 복잡한 모델을 더 적은 자원으로 처리할 수 있습니다.
▣ 더 크고 빠른 메모리
Ironwood는 칩당 192GB의 HBM 메모리를 탑재하고 있으며, 이는 Trillium보다 6배 많습니다. 또한 7.2 TBps의 대역폭을 제공하여, 프로세서가 데이터를 훨씬 빠르게 받아들일 수 있습니다. 이는 GPT나 Gemini 같은 대형 모델을 실행하는 데 매우 중요합니다.
▣ 더 빠른 칩 간 통신
TPU 7은 업그레이드된 **Inter-Chip Interconnect (ICI)**를 사용하여 1.2 TBps의 양방향 대역폭을 제공합니다. 이는 수천 개의 칩이 하나의 시스템으로 구성될 때, 더 빠르고 효율적으로 데이터를 주고받을 수 있게 해줍니다.
▣ 향상된 냉각 기술
고성능에는 많은 열이 따르기 마련입니다. TPU 7은 액체 냉각 시스템을 사용하여 칩의 온도를 안정적으로 유지합니다. 이 덕분에 오버히팅 없이 고성능 상태를 오래 유지할 수 있습니다.
7. 전력 효율성과 냉각 요구사항
대규모로 AI 모델을 실행하면 막대한 전력을 소비하게 됩니다—하지만 하드웨어가 최적화되어 있다면 이야기가 다릅니다. Google은 Ironwood를 통해 바로 그 최적화를 실현했습니다.
▣ Trillium 대비 2배의 효율성
TPU 7은 **와트당 약 29.3 테라플롭스(TFLOPs)**를 제공합니다. 즉, 같은 전력으로 더 많은 성능을 낼 수 있다는 뜻입니다. 구체적으로는:
- TPU v6보다 2배 더 효율적
- 초기 TPU(2018)보다 30배 더 효율적
이것은 상당한 개선이며, TPU 7은 운영 비용은 낮추고, 환경에도 더 친화적이라는 것을 의미합니다.
▣ 1만 킬로와트급 AI 성능
**TPU 7 전체 시스템(9,216개 칩 구성)**을 가동하면 약 **10메가와트(10MW)**의 전력이 필요합니다. 이는 소형 도시 전체가 사용하는 수준입니다. 이 열을 식히기 위해 Google은 공기 냉각보다 훨씬 효율적인 액체 냉각 시스템을 도입했습니다.
그 결과, TPU 7은 과열 없이 24시간 내내 고부하 AI 작업을 안정적으로 처리할 수 있습니다.
8. 경제적 영향 및 비즈니스 가치
Google의 **TPU 7 (Ironwood)**는 단순한 기술 업그레이드가 아닙니다. 실질적인 경제 효과를 지닌 전략적 변화입니다. 운영 비용 절감부터 클라우드 시장 내 경쟁 우위 확보까지, Ironwood는 대규모 AI의 개발·배포·가격 책정 방식을 바꾸고 있습니다.
▣ 추론당 비용 절감
AI 추론(모델이 실제로 답변을 생성하는 작업)은 규모가 커지면 비용이 많이 듭니다. TPU 7은 이 추론 작업에 최적화되어 있어:
- 같은 전력으로 더 많은 쿼리 실행 가능
- 전기 요금 절감
- 적은 수의 칩으로 동일한 결과 도출
이러한 특징은 검색 엔진, 광고 플랫폼, 추천 시스템처럼 하루 수백만 건의 추론을 처리해야 하는 기업에 이상적입니다.
▣ Google의 클라우드 수익화 전략
TPU 7은 Google Cloud 전용입니다. 덕분에 Google은 하드웨어, 소프트웨어, 가격 정책까지 전방위적 통제가 가능하며, 이는 Google 입장에서 높은 수익률을 기대할 수 있는 구조입니다. 사용자 입장에서는:
- 물리적 하드웨어를 구매하거나 유지할 필요 없음
- 최상급 AI 인프라에 즉시 접근 가능
- 사용량 기반의 단순한 요금제
이 전략은 Google이 AWS 및 Microsoft Azure와 경쟁하며 클라우드 AI 시장 점유율을 높이는 데 도움이 됩니다.
▣ 초기 투자 없이 확장 가능한 AI
예전에는 고성능 AI 칩을 사용할 수 있는 기업이 대형 IT 기업으로 한정되었지만, 이제는 클라우드 접근성과 TPU 7의 전력 효율성 덕분에 스타트업, 연구소, 중소기업도 쉽게 AI를 확장할 수 있습니다. 더 이상 자체 데이터센터가 필요하지 않고, Google Cloud API만으로 고성능 AI 인프라를 활용할 수 있습니다.
▣ 새로운 비즈니스 모델 창출
추론 속도가 빨라지고 비용이 낮아지면, 기업들은 이제 다음과 같은 서비스를 구축할 수 있습니다:
- 실시간 챗봇 및 AI 에이전트
- 즉시 번역 및 요약 도구
- 맞춤형 추천 시스템 및 의사결정 AI
이전에는 너무 비싸거나 느려서 어려웠던 서비스들이, 이제는 현실적이고 수익성 있는 기회로 전환됩니다.
▣ 경쟁 압박 유발
TPU 7의 효율성은 Nvidia를 비롯한 경쟁 업체들에게도 가격 구조와 설계 방향을 재검토할 압박을 줄 수 있습니다. Nvidia의 B200이 강력하긴 하지만, Google의 클라우드 중심 TPU 모델은 고객들이 추론 중심, 클라우드 네이티브 AI 인프라를 기대하게 만들 수 있습니다.
9. 마무리
Google의 **TPU 7 (Ironwood)**는 AI 하드웨어 기술의 중대한 도약입니다. 더 빠르고, 더 효율적이며, 차세대 AI 추론을 위해 특별히 설계된 칩입니다. 특히 **LLM(대규모 언어 모델)**과 MoE(전문가 혼합 모델) 같은 대형 모델을 안정적으로 실행할 수 있는 구조를 갖추고 있습니다.
▣ TPU 7이 주목받는 이유:
- FP8 기준 4,614 TFLOPs의 강력한 추론 성능
- 오늘날 가장 큰 모델도 감당할 수 있는 대용량 메모리
- 더 빠른 칩 간 연결과 냉각 시스템
- 이전 세대 대비 2배의 전력 효율성
- 클라우드 전용 구조로 완전한 통합 지원
GPU 시장에서는 여전히 Nvidia가 강세이지만, TPU 7은 Google이 AI 인프라 경쟁에서 본격적으로 승부수를 던졌음을 보여줍니다. Ironwood를 통해 Google은 단순한 경쟁이 아니라 선도적 입지를 구축하려는 전략을 펼치고 있습니다. 특히 **실시간 AI가 기본이 되는 ‘추론의 시대’**에서는 더욱 중요해질 것입니다.
대형 AI 모델을 다루거나, 차세대 스마트 서비스를 만들고 있다면 TPU 7은 반드시 주목해야 할 플랫폼입니다.
📚 References
- Google Cloud Blog – “Introducing TPU v7: Our Most Powerful Inference Accelerator Yet”
https://cloud.google.com/blog
(Official announcement from Google Cloud Next 2025) - Google Cloud Next 2025 Keynote (April 9, 2025)
https://cloud.withgoogle.com/next
(Product reveal and executive comments on TPU 7/Ironwood) - MLPerf Inference v5.0 Results – MLCommons.org
https://mlcommons.org/en/inference-results/
(Benchmark data for TPU v6 and other accelerators) - The Next Platform – “Inside Google’s New Ironwood TPU”
https://www.nextplatform.com
(Industry analysis of TPU 7 architecture) - ServeTheHome – “Google TPU v7 Pod Specs and Power Use”
https://www.servethehome.com
(Hardware deep dive and performance comparisons) - SemiAnalysis – “Google’s TPU Strategy and Inference Shift”
https://www.semianalysis.com
(Insight into Google’s move toward inference-focused silicon) - AnandTech – “TPU vs GPU: Google and Nvidia Go Head to Head”
https://www.anandtech.com
(Comparison with Nvidia Blackwell B200) - Google Research Blog – “SparseCore Evolution in TPU”
https://research.googleblog.com
(Explanation of SparseCore improvements) - IEEE Spectrum – “The Economics of Cloud AI Accelerators”
https://spectrum.ieee.org
(Cost and infrastructure implications of AI hardware like TPU 7) - Google Coral Edge TPU Documentation
https://coral.ai/docs/
(To clarify distinction between TPU 7 and edge-focused TPU models)