Home News AI·IT 구글 TPU 8t·8i, 엔비디아 의존 줄이나…AI 시장은 ‘추론 비용’ 싸움으로 간다

구글 TPU 8t·8i, 엔비디아 의존 줄이나…AI 시장은 ‘추론 비용’ 싸움으로 간다

자체 칩·제미나이·클라우드 묶은 구글, 기업용 AI 인프라 경쟁 본격화

이정찬 기자 ㅣ 미디어원

구글이 AI 인프라 경쟁의 방향을 다시 잡고 있다. 지금까지 생성형 AI 경쟁의 중심은 누가 더 좋은 모델을 만들고, 누가 더 많은 GPU를 확보하느냐에 있었다. 그러나 구글이 공개한 8세대 TPU 8t와 TPU 8i는 싸움의 무게중심이 달라지고 있음을 보여준다. 이제 핵심은 모델을 한 번 학습시키는 능력만이 아니다. 전 세계 사용자가 매일 던지는 질문에 얼마나 싸고 빠르게 답할 수 있느냐가 AI 사업의 생존 조건이 되고 있다.

구글 클라우드는 최근 연례 행사에서 TPU 8t와 TPU 8i를 공개했다. TPU 8t는 대규모 AI 모델 학습에, TPU 8i는 실시간 추론과 AI 에이전트 서비스에 초점을 맞춘 칩이다. 구글은 두 칩을 AI 하이퍼컴퓨터의 핵심 부품으로 설명한다. 하드웨어와 소프트웨어, 네트워크와 스토리지를 따로 조립하는 방식이 아니라 하나의 AI 인프라로 묶겠다는 뜻이다.

이번 발표에서 더 중요한 대목은 TPU가 학습용과 추론용으로 나뉘었다는 점이다. 과거에는 AI 칩 성능을 주로 학습 속도로 설명했다. 대규모 언어모델을 얼마나 빨리 훈련시키느냐가 관심사였다. 그러나 실제 서비스에서는 추론 비용이 훨씬 더 무겁다. 모델 학습은 큰돈이 들어도 일회성 성격이 강하지만, 추론은 사용자가 접속할 때마다 계속 비용이 발생한다. 챗봇, 검색, 코딩 도우미, 기업용 에이전트가 보편화될수록 기업의 부담은 학습비보다 운영비에서 더 크게 드러난다.

AI 추론용 반도체와 데이터센터 인프라를 상징하는 서버 칩 이미지
AI 시장의 경쟁은 모델 성능뿐 아니라 추론 비용, 전력 효율, 데이터센터 운영 능력으로 확대되고 있다.

TPU 8i는 바로 이 지점을 겨냥한다. 구글은 TPU 8i를 낮은 지연시간의 추론용 칩으로 설명하고 있다. 메모리 구조를 키우고 응답 처리 효율을 높여 AI 에이전트가 빠르게 답하도록 만드는 데 초점을 맞췄다. 이는 단순한 속도 경쟁이 아니다. AI 서비스가 검색, 문서 작성, 고객 응대, 코드 작성, 물류 관리, 회계 처리까지 들어가면 응답 지연과 전력 비용은 곧 서비스 품질과 수익성의 문제가 된다.

구글의 강점은 칩 하나에 그치지 않는다. 구글은 TensorFlow, JAX, XLA, Pathways 같은 소프트웨어 계층과 자체 TPU를 함께 다룬다. 범용 GPU에 소프트웨어를 맞추는 기업과 달리, 구글은 모델과 칩, 데이터센터 운영 방식을 한 회사 안에서 조정할 수 있다. 데이터 이동 시간을 줄이고 칩이 쉬는 시간을 줄이며, 대규모 학습과 실시간 추론에서 전력 대비 성능을 높이는 방향으로 전체 흐름을 손볼 수 있다는 뜻이다.

제미나이 모델도 이 전략과 맞물린다. 구글은 전문가 혼합 방식인 MoE 구조를 적극 활용해 모든 질문에 전체 모델을 가동하지 않고, 필요한 일부 영역만 활성화하는 효율 전략을 강화해왔다. 여기에 텍스트, 이미지, 오디오, 비디오를 함께 처리하는 멀티모달 구조까지 결합하면서 모델 성능과 운영 효율을 동시에 노리고 있다.

토머스 쿠리안 구글 클라우드 CEO가 강조하는 대목도 여기다. 그는 구글이 다른 회사 기술을 단순히 되파는 하이퍼스케일러가 아니라, 칩과 모델의 지식재산을 직접 보유한 회사라고 말한다. 외부 모델이나 칩 공급자에게 매출의 큰 부분을 넘기지 않아도 되기 때문에 재투자 여력이 커진다는 설명이다. 이 말은 결국 엔비디아 의존도를 낮출 수 있는 흐름을 이미 갖추고 있다는 뜻으로도 읽힌다.

지금 AI 데이터센터의 중심은 여전히 엔비디아 GPU다. 오픈AI, 앤스로픽, xAI 등 주요 AI 기업들도 막대한 GPU 확보 경쟁을 벌이고 있다. 그러나 자체 칩이 없는 기업은 GPU 구매비와 클라우드 임대료, 전력비, 데이터센터 비용을 계속 감당해야 한다. 모델 성능이 비슷해지는 순간 승패는 누가 더 낮은 단가로 추론을 제공하느냐로 넘어갈 가능성이 크다.

그렇다고 구글이 곧바로 엔비디아를 대체한다고 보기는 어렵다. 구글 클라우드는 여전히 AWS와 마이크로소프트 애저에 뒤진 3위 사업자다. 엔비디아 GPU 생태계도 강하다. 개발자 도구와 CUDA 생태계, 기존 고객 기반, 다양한 AI 기업의 검증 경험은 단기간에 흔들리기 어렵다. 다만 구글이 보여준 방향은 분명하다. AI 산업은 더 이상 모델 발표 경쟁만으로 움직이지 않는다. 학습 칩, 추론 칩, 데이터센터 네트워크, 전력 효율, 모델 설계, 기업용 배포 플랫폼이 한꺼번에 맞물려야 한다.

앞으로 1~2년은 AI 시장의 비용 계산이 본격화되는 시기가 될 가능성이 크다. 모델은 계속 좋아지겠지만, 좋은 모델을 오래 운영할 수 있는 기업은 제한될 수 있다. 기업 고객은 보안과 거버넌스, 비용, 응답 속도를 함께 요구한다. 이 조건을 만족시키려면 단순히 모델 하나가 아니라 인프라 전체를 통제해야 한다.

구글 TPU 8t·8i의 의미는 그래서 크다. 이것은 단순한 새 칩 발표가 아니다. AI 시장의 돈이 어디서 새고, 누가 그 비용을 줄일 수 있는지를 보여주는 신호다. 엔비디아가 여전히 AI 칩 시장의 중심에 서 있다면, 구글은 자체 칩과 제미나이, 클라우드를 묶어 다른 길을 만들고 있다. AI 경쟁의 다음 국면은 누가 더 똑똑한 모델을 가졌느냐만이 아니라, 누가 그 모델을 더 싸고 안정적으로 굴릴 수 있느냐에서 갈릴 것이다.

미디어원 Copyrights ⓒ MediaOne. 무단전재 및 재배포 금지.