아크 B70 프로와 슈퍼클로로 구현되는 고효율 하이브리드 AI 환경 제안한 인텔

동아일보

한 번의 탭으로 반응을 남겨요 · 로그인 불필요

AI 업계의 화두는 추론(inference)이다.

학습한 AI 모델의 성능을 확대하려는 경쟁에서 완성된 모델을 어떻게 값싸고 빠르게 운용하는 방향으로 선회한 것이다.

문제는 추론 수요를 이끄는 주범이 챗봇이 아니라 ‘에이전트(Agent)’라는 점이다.

에이전트는 챗봇(명령 기반 AI 서비스)과 달리 스스로 여러 도구를 오가며 일을 처리한다.

이 과정에서 대량의 토큰 소비가 발생한다.토큰 소비가 증가하면 기업의 비용 지출 외에도 데이터센터 내 메모리에 부담이 가중되어 인프라 운영 부담으로 이어진다.

AI 모델이 문맥을 파악하기 위해 이전에 계산해둔 문맥 정보를 다시 꺼내 쓰는데, 이 데이터가 GPU 메모리에 저장되기 때문이다.

이를 KV 캐시(KV Cache)라 부른다.

대화가 길어지고 동시에 처리해야 할 요청이 늘어날수록 KV 캐시는 기하급수적으로 몸집을 불려 적게는 GPU 메모리의 30%, 많게는 75% 이상 점유한다.기업의 민감 데이터에 대한 보안도 고민거리다.

회사의 핵심 ...

관련 뉴스