EXO Labs: 온갖 기기를 묶어 하나의 AI클러스터로 만들어보자!
EXO Labs: 온갖 기기를 묶어 하나의 AI클러스터로 만들어보자!
Summary EXO Labs는 다양한 개인 기기를 하나의 AI 클러스터로 통합하는 오픈소스 프레임워크를 개발하고 있으며, 이를 통해 대규모 언어 모델을 효율적으로 실행할 수 있도록 지원합니다. 주요 기술로는 파이프라인 병렬 추론, 동적 모델 파티셔닝, P2P 구조 등이 있으며, Apple Silicon의 특성을 활용한 메모리 효율적인 옵티마이저도 개발되었습니다. EXO는 사용자 경험을 단순화하고, 다양한 모델을 지원하며, AI 민주화를 목표로 하고 있습니다. 현재 32,000개 이상의 GitHub 스타를 기록하며, 분산형 AI 생태계의 가능성을 보여주고 있습니다.

EXO Labs는 EXO라는 오픈소스 프레임워크로, 여러 종류의 장비(GPU 서버, 워크스테이션, 노트북, 심지어 스마트폰까지)를 하나의 AI 추론 클러스터처럼 묶어 쓰는 것을 목표로 합니다.
🔗 https://github.com/exo-explore/exo
EXO Labs는 일상적인 기기들을 강력한 AI 컴퓨팅 클러스터로 전환할 수 있게 해주는 오픈소스 프레임워크를 개발하는 조직입니다. 창립자 Alex Cheema를 포함한 팀이 이끌고 있는 이 프로젝트는, 대규모 언어 모델(LLM)과 머신러닝 모델을 개인의 기기들(MacBook, iPhone, iPad, Android, Linux 머신 등)에서 효율적으로 실행할 수 있는 혁신적인 솔루션을 제공합니다.
1. 탄생 배경과 핵심 목표: 인프라의 오케스트레이션
EXO Labs는 대학생들이 보유한 개인 기기들을 활용해 고사양 LLM 연구를 더 빠르게 수행하고자 하는 실용적인 욕구에서 시작되었습니다. 단일 기기의 메모리와 계산 능력(FLOPS) 한계로 인해 대형 모델 실행이 불가능했던 상황을 해결하는 것이 초기 과제였습니다.
현재 이들의 핵심 목표는 분산 AI 워크로드를 조율하는 ‘오케스트레이션 레이어(Orchestration Layer)‘를 구축하는 것입니다. 기존 프레임워크가 특정 구성에 최적화된 것과 달리, EXO는 이질적(Heterogeneous)이고 임시적인 메시 네트워크 환경에서도 안정적으로 작동하도록 설계되었습니다.
2. 핵심 기술 아키텍처
EXO의 기술적 차별점은 하드웨어 간의 유기적인 연결과 효율적인 자원 분배에 있습니다.
- 파이프라인 병렬 추론(Pipeline Parallel Inference): 모델을 여러 개의 ‘샤드(Shards, 연속된 레이어의 모음)‘로 분할하여 여러 기기에 분산 배치합니다. 9개 레이어 모델을 3대 기기에 나누면 각 기기는 자신의 샤드만 메모리에 로드하면 되므로, 단일 기기 사양을 넘어서는 거대 모델을 구동할 수 있습니다.
- 동적 모델 파티셔닝과 자동 발견: 네트워크 토폴로지와 가용 리소스를 실시간으로 분석하여 모델을 최적으로 분할합니다. 새로운 기기가 추가되거나 네트워크 상태가 변하면 시스템이 자동으로 분할 방식을 재계산하며, UDP나 Tailscale 등을 통해 복잡한 설정 없이도 주변 기기를 자동으로 찾아냅니다.
- P2P 구조와 기기 평등성: 전통적인 마스터-워커 구조 대신 피어-투-피어(P2P) 방식을 채택했습니다. 링 메모리 가중 분할(Ring Memory Weighted Partitioning) 전략을 통해 각 기기는 자신의 메모리 크기에 비례하는 만큼의 레이어를 처리하며 클러스터에 기여합니다.
3. 성능 특성: 지연시간과 처리량의 트레이드오프
EXO 클러스터의 성능은 사용 목적에 따라 다른 양상을 보입니다.
- 단일 요청(Single-request): 데이터가 여러 샤드를 거치며 발생하는 네트워크 지연시간(Latency) 때문에 단일 기기 사용 시보다 토큰 생성 속도가 다소 느려질 수 있습니다.
- 다중 요청(Multi-request): 파이프라인 방식의 특성상 첫 번째 기기가 처리를 마치고 결과를 넘기자마자 다음 요청을 처리할 수 있습니다. 이 효율적인 스케줄링 덕분에 3대 기기 클러스터는 단일 기기 대비 약 2.2배 높은 처리량(Throughput)을 달성합니다. 이는 문서 요약이나 에이전트 기반 추론 같은 배치 작업에서 압도적인 효율을 제공합니다.
4. Apple Silicon 최적화와 새로운 가능성
EXO Labs는 특히 Apple Silicon의 고유한 하드웨어 특성을 활용하는 데 주력하고 있습니다. Apple Silicon은 NVIDIA 하드웨어 대비 메모리 대역폭과 계산 능력의 비율이 약 20배나 높습니다.
이러한 특성을 극대화하기 위해 팀은 메모리 효율적인 새로운 옵티마이저를 개발했습니다. 이는 기존 Adam 방식보다 FLOP당 2배 더 효율적이지만 더 많은 메모리를 요구하는데, Apple의 통합 메모리 아키텍처 덕분에 기존 연구에서 외면받았던 고차 메서드(Second-order methods)를 실질적으로 활용할 수 있게 되었습니다.
5. 생태계 지원 및 실무 적용
EXO는 복잡한 기술적 배경에도 불구하고 사용자 경험은 극도로 단순화했습니다.
- 광범위한 모델 지원: Llama 3.2부터 Deepseek R1 671B와 같은 초거대 모델까지 지원합니다. MLX, tinygrad 엔진을 완벽히 지원하며 PyTorch와 llama.cpp도 개발 중입니다.
- 간편한 설치와 호환성: Python 기반으로 간단히 설치할 수 있으며,
exo명령 실행만으로 클러스터가 형성됩니다. 특히 ChatGPT 호환 API를 제공하므로 기존 애플리케이션의 코드를 수정하지 않고도 백엔드를 EXO 클러스터로 교체할 수 있습니다. - 투명한 데이터: benchmarks.xlabs.net을 통해 실제 기기들의 성능 데이터를 가감 없이 공개하며 과학적 엄밀함을 유지합니다.
6. 철학적 의미: ‘하드웨어 로터리’에 대한 도전
EXO Labs의 행보는 기술적 혁신을 넘어 하드웨어 로터리(Hardware Lottery) 개념에 대한 도전입니다. 이는 특정 시기에 유행하는 하드웨어에 적합한 연구만이 살아남는 현상을 의미합니다.
EXO는 비싼 전문 GPU 서버가 없어도 이미 우리 주변에 널려 있는 Apple Silicon 기기나 저가형 기기들을 묶어 가치를 창출합니다. 이는 AI 연구와 배포의 진입장벽을 낮추고 계산 자원의 낭비를 막는 AI 민주화를 실천하는 과정입니다.
결론 및 향후 전망
네트워크 지연시간 극복과 iOS 구현의 고도화라는 과제가 남아있지만, EXO Labs는 이미 32,000개 이상의 GitHub 스타를 기록하며 전 세계적인 기대를 받고 있습니다. 이들은 AI 인프라의 미래가 중앙집중식 데이터센터에만 머물지 않고, 우리 곁의 모든 기기가 연결된 분산형 생태계로 나아갈 수 있음을 증명하고 있습니다.
다음 단계로 무엇을 도와드릴까요?
- 이 글을 바탕으로 블로그 포스팅이나 보고서 형식으로 변환해 드릴까요?
- 특정 기술적 용어(예: 파이프라인 병렬화)에 대해 더 자세한 설명을 추가할까요?
- 현재 사용 중인 하드웨어 구성으로 EXO 클러스터를 구축하는 방법을 알아볼까요?
💬 댓글
GitHub 계정으로 로그인하여 댓글을 남겨보세요. GitHub 로그인
🔧 댓글 시스템 설정이 필요합니다
GitHub Discussions 기반 댓글 시스템을 활성화하려면:
GISCUS_SETUP_GUIDE.md파일의 안내를 따라 설정 완료Repository 관리자만 설정할 수 있습니다. 설정이 완료되면 모든 방문자가 댓글을 남길 수 있습니다.