AI-MIMO GPU 클러스터 대시보드
GPU 클러스터 시뮬레이터
서버별 GPU/CPU 자원 현황을 확인하고, Pod를 직접 배치해 보세요.
서버 카드를 클릭하면 Pod를 추가할 수 있고, 각 Pod의 GPU/CPU 할당량을 조절할 수 있습니다.
InfiniBand 부하 추정의 한계
현재 대시보드는 각 Pod에 고정된 IB 값을 부여하고 있지만,
실제 InfiniBand 부하는 “누가 누구와 통신하느냐” 와
“같은 서버냐 다른 서버냐” 에 따라 완전히 달라집니다.
Aerial(L1)과 OAI(L2) 간 통신을 예로 들면:
| 배치 | 통신 경로 | IB 부하 |
|---|---|---|
| 둘 다 서버 D | veth (커널 내부) | 0 |
| Aerial은 서버 D, OAI는 서버 A | InfiniBand | 발생 |
L1-L2 간 실제 트래픽량은 5G FAPI 인터페이스 스펙,
셀 대역폭(100MHz 기준), UE 수, MCS 레벨 등에 따라 달라집니다.
“L1-L2 간 FAPI 메시지 크기와 빈도"에 대한
구체적인 데이터를 받아야 의미 있는 추정이 가능합니다.
대시보드 개선 방향
Pod 단위 고정값이 아니라 Pod 간 통신 매트릭스(누가 → 누구에게, 얼마나)를 정의하고,
배치에 따라 동적으로 계산하는 구조가 필요합니다.
- 같은 서버 → IB = 0 (veth/NVLink)
- 다른 서버 → IB = 해당 트래픽량
현재 값은 각 연구실에서 블록별 통신 요구량이 나오기 전이므로, 대략적인 참고치 수준입니다.
확인이 필요한 핵심 데이터 포인트
| 통신 구간 | 설명 |
|---|---|
| Aerial - OAI FAPI 트래픽 | L1-L2 간 FAPI 메시지 크기와 빈도 |
| 채널 시뮬레이터 → Storage | Sionna RT 시뮬레이션 결과 전송량 |
| 학습 시 체크포인트/데이터셋 I/O | MinIO 등 스토리지와의 대역폭 |
| Sionna RT - PDP Interpolator | 채널 데이터 교환량 |
이 네 가지가 IB 추정의 핵심 입력값이 됩니다.