AI인턴이 곧 당신의 비서가 됩니다
엔비디아가 PC AI를 선언한 동일 시기에 중국은 확실히 모바일 AI 전략을 주장합니다. 그리고 휴머노이드를 현실에서 훈련시키듯 에이전트를 모바일 환경에서 훈련시키는 또 하나의 월드모델 개발에 박차를 가하고 있습니다. 모바일 에이전트가 진짜 비서가 되려면 먼저 훈련할 세계가 있어야 합니다. 텐센트 혼위안(混元, Hunyuan) 팀이 주도하고 홍콩중문대, 인민대 AI 학원, 우한대가 공동 참여한 폰 월드(PhoneWorld: Scaling Phone-Use Agent Environments(arXiv:2605.29486, 2026.05.28)는 바로 그 세계를 만드는 연구입니다. 인턴 에이전트를 교육하는 사무실 새로 입사한 인턴에게 업무를 가르치는 방법은 실제 업무 환경에 투입하는 것입니다. 그런데 인턴이 실수로 중요한 이메일을 고객에게 보내버리거나 회사 데이터베이스를 잘못 수정하면 어떻게 될까요. 한번 실수를 되돌릴 수도 없고 같은 상황을 다시 반복해서 연습시키기도 어렵습니다. 그렇다고 아무것도 없는 빈 방에서 이런 상황을 상상하면서 연습하라고 할 수도 없습니다. 실제 사무실과 너무 달라서 거기서 익힌 습관이 실전에서 통하지 않기 때문입니다. 모바일 에이전트의 훈련 문제는 정확히 사람 인턴과 같은 문제에 도달합니다. 실제 앱에서 에이전트가 사용자 흉내를 내거나, 메시지를 발송하거나, 설정을 변경하면 계정 상태가 바뀝니다. 동일한 작업을 반복해서 훈련하려면 매번 상태를 복구해야 합니다. 결과를 자동으로 검증하기도 어렵습니다. 메시지가 실제로 발송되었는지, 상품이 장바구니에 담겼는지 확인하려면 앱 내부 상태에 직접 접근해야 하는데 실제 앱은 그것을 허용하지 않습니다. 여기에 로그인 오류, 광고 팝업, 인증 절차, 버전 업데이트가 환경을 끊임없이 교란합니다. 그렇다고 이를 시뮬레이션 앱으로 만들면 너무 비현실적입니다. 페이지 구조와 사용자 행동 패턴이 실제 앱과 다르기에 이런 환경에서 훈련한 에이전트는 실제 스마트폰으로 옮겨갔을 때 제대로 작동하지 않습니다. 폰 월드가 해결하려는 것은 바로 이 병목입니다. 실제 사무실과 충분히 닮아 있으면서도 인턴이 마음껏 실수하고 반복 연습할 수 있는 훈련용 사무실을 어떻게 대규모로 만드느냐에 대한 답변입니다. 폰 월드의 설계: 실제 세계의 복사본이 아닌 작동하는 세계 폰 월드의 핵심은 실제 사용자의 행동 궤적에서 모바일 세계의 구조를 추출하고 그 구조를 에이전트가 훈련할 수 있는 살아있는 환경으로 재구성하는 것입니다. 구체적인 과정은 이렇습니다. 먼저 실제 앱의 GUI 사용 궤적(trajectories)과 스크린샷을 분석합니다. 어떤 화면이 자주 등장하는지, 화면들이 어떻게 연결되는지, 어떤 상호작용이 상태를 변경하는지, 어떤 사용자 목표가 자동 검증에 적합한지를 복제합니다. 복제하는 것은 화면의 스크린샷이 아니라 실제 사람이 이 앱을 어떻게 사용하는가라는 행동의 구조입니다. 이 구조를 바탕으로 코딩 에이전트가 Kotlin/Jetpack Compose로 모의(mock) 안드로이드 앱을 재구현하고, 실행 가능한 APK로 컴파일합니다. 각 모의 앱은 두 개의 층위를 갖습니다. 읽기 전용 콘텐츠, 즉 상품, 게시물, 연락처, 장소, 미디어는 검색과 탐색을 지원합니다. 변경 가능한 상태, 즉 즐겨찾기, 장바구니, 메시지, 댓글, 예약은 에이전트의 작업에 따라 실제로 데이터베이스에 기록됩니다. 에이전트가 작업을 수행하면 환경이 기억합니다. 작업이 끝나면 상태가 초기화됩니다. 결과는 자동으로 검증됩니다. 정보 조회 작업은 최종 답변의 정확성을 확인하고, 상태 변경 작업은 데이터베이스를 직접 조회해 실제로 기록되었는지 확인합니다. 인턴이 이메일을 보냈는지 상사가 직접 확인하는 방식입니다. 현재까지 구축된 훈련 환경은 34개 모의 앱, 16개 소비자 모바일 도메인(검색, 브라우징, 쇼핑, 예약, 미디어, 소셜 등), 120개 수동 검토 평가 태스크, 3354개 성공 궤적, 3만6193개 상호작용 단계입니다. 전체 내용보기