지푸AI 로봇, 인간처럼 성장하는 모델 발표

이 뉴스, 어떠셨어요?
한 번의 탭으로 반응을 남겨요 · 로그인 불필요
2026년 6월, 중국 LLM의 맏형 격인 지푸AI(Zhipu AI, 智谱AI)의 주가는 22일 처음으로 시가총액 1조 홍콩달러를 넘어섰습니다. 지푸의 가치를 결정하는 것은 현재 매출이 아니라 LLM에서 AGENT, 그리고 더 나아가 피지컬AI로 확장하는 세계관 때문입니다.
6월 30일 지푸AI와 중국 인민대학(Renmin University of China, 中国人民大学)이 피지컬AI 모델 ZR-0를 공동 발표했습니다. 이는 평범한 로봇 제어 알고리즘이 아닙니다. 이 모델의 특이점은 인간처럼 성장한다는 데 있습니다.
아기가 울다가 옹알이를 하다가 스스로 걸음마를 떼고 신발을 신을 수 있게 되기까지 먼저 관찰하고 생각한 뒤에야 행동하는 순서를 밟듯이, ZR-0 역시 26억 개의 매개변수로 대뇌와 소뇌가 협력하는 시스템을 구축해 '명령을 실행하는 것'에서 '왜 이렇게 해야 하는지 이해하는 것'으로 진화했습니다. 로봇의 진정한 지능은 반응 속도가 아니라 생각하는 능력에서 나온다는 것을, ZR-0가 증명하고 있습니다.
대뇌와 소뇌의 분업 — 초보자는 생각하며 움직이고, 숙련자는 생각 없이 움직인다
인간이 복잡한 동작을 수행할 수 있는 것은 대뇌 피질의 사고와 소뇌의 운동 신경이 분업하고 협력하기 때문입니다. ZR-0의 설계는 이 생물학적 구조를 거의 그대로 디지털로 옮겨온 것과 같습니다. System 2, 즉 대뇌 역할은 알리바바의 큐웬3(Qwen3-VL-2B) 사전 훈련 멀티모달 모델이 맡아 시각·언어 정보를 처리하고 구조화된 추론을 생성합니다.
지금 무슨 상황이고 무엇을 해야 하는지를 명확히 생각하는 역할입니다. System 1, 즉 소뇌 역할은 DiT(Diffusion Transformer) 아키텍처 기반의 동작 전문가 모듈이 맡아 대뇌의 의도를 구체적인 연속 동작으로 전환합니다. 컵을 어떻게 집을지 의식적으로 생각하지 않아도 소뇌가 이미 그 동작을 완성하는 것과 같은 이치입니다.
이 두 시스템은 교차 어텐션(cross-attention) 메커니즘으로 연결되며 특히 어텐션 마스크(attention mask) 설계를 통해 추론 단계에서 ECoT(Embodied Chain-of-Thought) 텍스트 디코딩을 완전히 생략할 수 있게 했습니다. 그 결과 단일 A600 GPU에서 한 묶음의 동작을 생성하는 데 약 90밀리초밖에 걸리지 않습니다. 깊이 생각하면서도 빠르게 실행할 수 있다는 뜻입니다.
이는 인간이 피아노를 치는 과정과 닮아 있습니다. 악보는 대뇌가 읽고 손가락은 소뇌가 움직입니다. 초보자는 악보를 보며 건반의 위치를 하나하나 생각하지만 숙련자는 이미 지행합일의 경지에 이릅니다. ZR-0는 바로 이 방향으로 나아가고 있습니다.
ECoT 사고 사슬 — 로봇은 이제 아이처럼 혼잣말로 배운다
아이들은 새로운 기술을 배울 때 종종 혼잣말을 합니다. "빨간 블록은 여기에 두고, 파란 블록은 그 위에 얹자." 이렇게 소리 내어 생각하는 과정이 복잡한 과제를 실행 가능한 단계로 분해하도록 돕습니다. ZR-0의 핵심 혁신인 밀집형 임베디드 사고 사슬은 바로 이 원리를 공학적으로 구현한 것입니다.
연구팀은 구조화된 ECoT 주석 체계를 설계해, 각 로봇 궤적의 모든 프레임에 대해 장면 설명, 진행 상황 판단, 장기 작업 계획, 표준화된 원자적 동작, 목표 객체 경계 상자, 이산 동작 토큰이라는 여섯 가지 원자적 감독 정보를 자동 생성합니다. 이 여섯 가지 정보는 로봇 버전의 혼잣말인 셈입니다.
더 놀라운 것은 데이터의 규모입니다. 연구팀은 Open X-Embodiment, DROID, RH20T 등 여러 오픈소스 데이터를 통합해 ProcCorpus-60M 데이터셋을 구축했습니다. 40만 개 이상의 로봇 궤적, 6000만 프레임, 약 1000시간에 달하는 조작 영상 가운데 96.8%에 밀집형 ECoT 주석이 달려 있습니다.
이는 로봇 곁에 조기 교육 교사 수십 명을 배치해, 1000시간의 수업 동안 매 순간 "지금 너는 무엇을 하고 있고, 왜 그렇게 해야 하며, 다음엔 무엇을 해야 하는지"를 알려준 것과 다르지 않습니다. 그리고 이 모든 주석은 대형 모델을 통해 자동 생성되어 인건비를 대폭 절감했습니다.
형태 간 범용성 — 하나를 들으면 열을 안다
전체 내용보기 ...