중국 AI모델들은 이 질문에 답하지 않는다

AI 통합 요약
G7 정상들과 글로벌 기술기업 CEO들이 17일 프랑스에서 가장 첨단 AI인 프런티어 모델의 공동 규제에 합의하며 중국의 기술 추격을 견제했다. 미국은 홍콩 등 지역에서 앤트로픽 등 고성능 AI 접속을 차단하는 조치를 단행했고, 한국 정부는 글로벌 AI 협력을 추진하면서 국내 기업의 AI 내재화를 가속화하고 있다.
진보 성향: 앤트로픽 CEO의 '분열 회피' 발언처럼 기술의 진영화를 우려하며, AI의 혜택을 인류가 함께 누릴 수 있도록 국제협력과 개방을 강조한다.
중도 성향: AI 규제의 필요성을 인정하면서도 산업 협력과 규제 체계 개선의 균형을 맞춰야 한다고 본다.
보수 성향: 중국의 AI 굴기를 차단해야 한다는 안보·국익 우선 관점을 강조하며, 한국이 글로벌 기술 진영에서 자신의 경쟁력을 확보해야 한다고 본다.
최근 개인들은 미국 기업 모델을 이용하는 것과 달리 한국 스타트업 관계자들을 만나면 비용 때문에 중국 모델로 전환하거나 병용한다는 이야기를 많이 듣습니다. 딥시크(DeepSeek), 큐웬(Qwen), 키미(Kimi), 즈푸 AI(GLM) 등이 그 대상입니다. API 단가는 미국 모델의 수십 분의 일 수준입니다. 전사 도입을 결정하는 데 오래 걸리지 않습니다. 산업단에서는 경제성 앞에서 원산지를 묻는 경우는 그리 많지 않습니다.
그런데 중국AI모델을 제대로 쓰려면 어떤 환경에서 만들어졌는지 알아야 합니다. 중국 대형언어모델에는 탄생 전부터 적용된 3개의 법안이 있습니다. 이 법안이 모델의 학습 데이터 구성을 규정하고 생성 콘텐츠의 범위를 규정하고 시장 진입의 조건을 규정합니다. 법안을 알면 모델의 성격이 보입니다. 무분별한 비판이나 무지에서 오는 불안 불신이 아닌 정확한 이해가 필요한 시점입니다.
세 개의 법이 만든 하나의 체계
중국 생성형 AI를 규율하는 핵심 법규는 세 가지입니다.
첫째, '인터넷 정보 서비스 알고리즘 추천 관리 규정'(2022년 3월 시행)입니다. 여론 조성 능력을 지닌 알고리즘 추천 서비스에 적용됩니다. 콘텐츠 생성·합성, 개인화 추천, 순위 선별 등 5개 유형 알고리즘은 서비스 개시 10영업일 이내에 신고 의무가 발생합니다. AI가 여론을 형성하는 능력 자체를 규제 대상으로 명시했다는 점에서 이 법이 출발점이 됩니다.
둘째, '인터넷 정보 서비스 딥합성 관리 규정'(2023년 1월 시행)입니다. 딥합성(Deep Synthesis)이란 AI를 이용해 텍스트·이미지·음성·영상을 생성하거나 합성하는 기술 전반을 가리키는 중국의 법률 용어입니다. 딥페이크, AI 음성 복제, LLM 텍스트 생성이 모두 포함됩니다. 이 법은 딥합성 콘텐츠에 워터마크 또는 라벨 표시 의무를 부과하고, 서비스 제공자가 사용자의 신원을 확인하도록 요구합니다. 생성 콘텐츠의 출처를 추적 가능하게 만드는 것이 핵심입니다.
셋째이자 가장 핵심적인 법은 '생성형 인공지능 서비스 관리 잠정 방법'(2023년 8월 시행)입니다. 이 법이 중국 생성형 AI 전체를 규율하는 기본법입니다. 모든 생성형 AI 서비스는 일반 대중에게 제공하기 전 반드시 국가인터넷정보판공실(网信办, 왕신판)의 사전 심사, 즉 '비안(備案, 사전신고)' 절차를 이행해야 합니다.
심사 기간은 통상 6~8개월. 30페이지 이상의 안전 평가 보고서, 최소 1만 개의 차단 키워드 목록, 2,000개 이상의 테스트 문항을 제출해야 합니다. 2025년 12월 기준 전국 누계 748개 생성형 AI 서비스가 이 관문을 통과했습니다.
이 법의 성격은 서명자 명단이 단적으로 보여줍니다. 인터넷정보판공실을 비롯하여 국가발전개혁위원회·교육부·과학기술부·공업정보화부·공안부·국가라디오TV총국, 7개 부처 장관이 협의하고 서명한 범부처 공동제정법령입니다. 인터넷 규제 당국만이 아니라 국가 경제 정책, 교육, 과학기술, 안보, 미디어가 모두 한 테이블에 앉아 만든 법입니다. 중국에서 AI 모델은 단순히 인터넷 서비스 문제가 아닌 국가 전략 인프라로 접근합니다.
세 법이 공통적으로 요구하는 것은 하나입니다. AI 서비스가 "사회주의 핵심 가치관을 견지하고 올바른 정치적 방향을 견지"해야 한다는 것입니다.
법이 규정한 학습 데이터의 구성
세 법안의 요구는 서비스 단계에서 끝나지 않습니다. 모델이 무엇을 먹고 자랐는지 즉 학습 데이터의 구성 자체를 국가표준이 규정합니다.
국가표준 GB/T 45654-2025에 따르면 해외 데이터 비중은 30%를 초과할 수 없고, 중국어 데이터는 전체의 50% 이상이어야 합니다. 불량 정보 비중은 5% 미만으로 관리해야 합니다. 실제로 중국 대다수 대형모델의 중국어 데이터 비중은 이미 60% 이상이며, 일부는 80%에 달합니다. 구조적으로 중국어 중심의 언어 토양 위에서 태어난 모델입니다.
이 수치가 실무에서 의미하는 바는 명확합니다. 중국 대형모델은 중국어 맥락에서의 추론, 중국 사회·문화·제도에 대한 이해에서 강점을 보입니다. 반면 한국어, 영어, 기타 언어 처리에서는 상대적으로 데이터 토양이 얇습니다. 같은 작업을 시켜도 결과의 질이 언어와 맥락에 따라 달라지는 이유가 여기 있습니다. 한국어로 질문했을 때 답변이 어색한 것은 모델 성능 이 떨어져서가 아니라 DNA가 다르기 때문입니다.
전체 내용보기 ...
이 뉴스, 독자들은 어떻게 느꼈나요?
첫 반응을 남겨보세요로그인하면 감정 반응에 참여할 수 있어요.