언어를 넘어 생명으로, 생명을 넘어 우주로
머리를 맞은 것 같았습니다. 어제(6월 2일) 중국 현지의 지인들로부터 두 개의 소식을 들었을 때요. 하나는 바이트댄스(ByteDance) 씨드(Seed) 팀의 핵심 인물인 구취안취안(顾全全, Quanquan Gu)이 퇴사했다는 소식이었습니다. 또 하나는 베이징 우주컴퓨팅연구원(北京太空智算研究院)이 공식 설립됐다는 소식이었습니다.
두 소식은 전혀 다른 지인들로부터 왔습니다. 그런데 듣는 순간 머리를 맞은 것 같은 충격이 왔습니다. 이 두 소식이 하나의 이야기로 들렸기 때문입니다. 한 사람은 단백질 구조를 풀고 LLM(거대 언어 모델)을 훈련을 마무리 한 후 다음 사업을 준비하고 국가는 그 기술을 우주 궤도 위로 올리는 인프라를 세웠습니다. 이것은 우연의 일치가 아닌 하나의 거대한 설계도 위에서 같은 시간대에 일어나고 있는 일입니다.
구취안취안과 하사비스의 평행이론
구취안취안. 청화대학교 학부·석사, UIUC 컴퓨터과학 박사, 프린스턴 박사후연구원, 버지니아대 교수, UCLA 부교수. 2022년 슬론 연구 펠로우십(Sloan Research Fellowship)과 NSF CAREER Award를 동시에 수상하고 UCLA에 AGI 연구소를 직접 세운 학자가 돌연 2023년 중국으로 돌아와 바이트댄스 씨드 팀을 만들었습니다. 구글 스칼라 피인용 3만 회. 그 선택의 무게가 어느 정도인지 아는 사람은 압니다.
그가 씨드 팀에서 처음 진행한 업무는 AI 바이오(AI for Science)이었습니다. 그리고 그가 이끈 팀이 만들어낸 씨드폴드(SeedFold)는 노벨화학상의 주인공 알파폴드3(AlphaFold3)를 주요 단백질 태스크에서 넘어섰습니다. 알파폴드 시리즈는 구글 딥마인드(Google DeepMind) 공동창업자 데미스 하사비스(Demis Hassabis)의 핵심 연구입니다. 알파폴드2는 50년 묵은 단백질 구조 예측 난제를 풀어 2024년 노벨화학상을 받았고, 알파폴드3는 예측 범위를 단백질에서 DNA·RNA·리간드 등 거의 모든 생체분자로 확장했습니다. 190개국 200만 명의 연구자가 쓰는 도구입니다.
알려지지 않았지만 중국의 씨드폴드는 그 기준을 넘었습니다. 'FoldBench' 종합 평가에서 단백질 단량체 예측 lDDT 0.8889, 항체-항원 계면 DockQ 53.21%, 단백질-RNA 계면 DockQ 65.31%로 알파폴드3를 주요 태스크 대부분에서 상회했습니다. 노벨상을 받은 시스템을 중국 인터넷 기업의 연구팀이 조용히 넘어선 것입니다.
씨드프로테오(SeedProteo)는 전원자(全原子) 수준에서 단백질 결합물을 직접 설계합니다. 대부분의 방법이 골격만 설계하는 것과 달리 생성 과정 전체를 제어하며, 10개 벤치마크 표적 테스트에서 알파프로테오(AlphaProteo)·RFdiffusion·BoltzGen 등 주류 방법들을 성공률과 다양성 모두에서 앞섰습니다. DPLM 시리즈는 3세대에 걸쳐 범용 단백질 기반 모델이라는 하나의 방향을 향해 진화했습니다. DPLM(ICML 2024), DPLM-2(ICLR 2025), DPLM-Evo(ICML 2026). 3년, 3세대, 한 방향의 연구 결과였습니다.
그리고 2025년 초 구취안취안은 다시 방향을 틀었습니다. AI 바이오에서 LLM 사전학습(pretraining)으로. LLM 최적화·스케일링 팀을 직접 창설하고, 이 팀이 구축한 사전학습 스택이 씨드 2.0(Seed 2.0) 성공할 수 있었던 훈련의 핵심 인프라가 됐습니다. 이 모델은 바이트댄스 화산엔진을 통해 Doubao 라는 중국 사용자 1위 AI 서비스를 탄생시켰습니다.
하사비스와 구취안취안을 나란히 놓으면 구조가 보입니다. 한 사람은 단백질로 생명의 언어를 해독하고 2024년 노벨화학상을 받았습니다. 다른 한 사람은 조용히 베이징에서 그것을 넘어서고 3년 만에 내려왔습니다. 방향은 달랐지만 목적지는 같아 보입니다. 구취안취안이 퇴사하며 남긴 마지막 문장은 짧고 단호했습니다.
'최고의 모델은 아직 오지 않았다. 스케일링은 멈추지 않는다.'
AI는 지금 다섯 번의 도약을 준비하고 있다
이 두 사람의 행보가 왜 하나의 이야기로 들리는지 이해하려면, AI가 어디를 향하고 있는지를 먼저 봐야 합니다. 연구 최전선의 시각은 LLM은 출발점이지 목적지가 아니라는 것입니다.
1단계 LLM. 텍스트를 이해하고, 지식을 생성하며, 추론합니다. 이것이 우리가 지금 일상에서 경험하는 AI입니다. GPT가 보여준 가장 중요한 성과는 글을 잘 쓰는 것이 아니었습니다. 세계에 대한 지식을 압축하고, 추상화하며, 계획을 수립하고, 추론하고, 도구를 사용할 수 있다는 가능성을 처음 증명한 것입니다. LLM은 '언어 모델'이라는 이름표를 달고 있었지만, 그 실체는 범용 인지 엔진의 초기 형태였습니다.
2단계 멀티모달(Multimodal). AI는 이미지·영상·음성·센서 데이터를 하나의 지능으로 통합합니다. 세계를 읽는 감각의 폭이 텍스트를 넘어 물리 현실 전체로 확장되는 단계입니다. 구취안취안의 DPLM 시리즈가 단백질 서열(텍스트)과 3D 구조(공간)를 동시에 다루는 것도 이 확장의 맥락에 있습니다.
전체 내용보기 ...