AI-MIMO GPU 클러스터 대시보드

2026년 3월 30일 2분

GPU 클러스터 시뮬레이터

서버별 GPU/CPU 자원 현황을 확인하고, Pod를 직접 배치해 보세요.
서버 카드를 클릭하면 Pod를 추가할 수 있고, 각 Pod의 GPU/CPU 할당량을 조절할 수 있습니다.

InfiniBand 부하 추정의 한계

현재 대시보드는 각 Pod에 고정된 IB 값을 부여하고 있지만,
실제 InfiniBand 부하는 “누가 누구와 통신하느냐”“같은 서버냐 다른 서버냐” 에 따라 완전히 달라집니다.

Aerial(L1)과 OAI(L2) 간 통신을 예로 들면:

배치통신 경로IB 부하
둘 다 서버 Dveth (커널 내부)0
Aerial은 서버 D, OAI는 서버 AInfiniBand발생

L1-L2 간 실제 트래픽량은 5G FAPI 인터페이스 스펙,
셀 대역폭(100MHz 기준), UE 수, MCS 레벨 등에 따라 달라집니다.

“L1-L2 간 FAPI 메시지 크기와 빈도"에 대한
구체적인 데이터를 받아야 의미 있는 추정이 가능합니다.

대시보드 개선 방향

Pod 단위 고정값이 아니라 Pod 간 통신 매트릭스(누가 → 누구에게, 얼마나)를 정의하고,
배치에 따라 동적으로 계산하는 구조가 필요합니다.

  • 같은 서버 → IB = 0 (veth/NVLink)
  • 다른 서버 → IB = 해당 트래픽량

현재 값은 각 연구실에서 블록별 통신 요구량이 나오기 전이므로, 대략적인 참고치 수준입니다.

확인이 필요한 핵심 데이터 포인트

통신 구간설명
Aerial - OAI FAPI 트래픽L1-L2 간 FAPI 메시지 크기와 빈도
채널 시뮬레이터 → StorageSionna RT 시뮬레이션 결과 전송량
학습 시 체크포인트/데이터셋 I/OMinIO 등 스토리지와의 대역폭
Sionna RT - PDP Interpolator채널 데이터 교환량

이 네 가지가 IB 추정의 핵심 입력값이 됩니다.