Code/Linux

[Slurm] sbatch srun

이성훈 Ethan 2023. 3. 27. 15:08

sbatch: 긴 job 돌릴 때, out file 로 확인

 

train.sh 파일을 다음과 같이 작성

#SBATCH --job-name=job 이름
#SBATCH --nodes=1
#SBATCH --gres=gpu:1
#SBATCH -p batch
#SBATCH -w agi1
#SBATCH --cpus-per-gpu=4
#SBATCH --mem-per-gpu=20G
#SBATCH --time=14-0
#SBATCH -o %N_%x_%j.out
#SBTACH -e %N_%x_%j.err

source /data/sunghoon/init.sh
conda activate 가상환경이름
python -m torch.distributed.launch \
        --nproc_per_node=1 \
        --use_env main.py \
        세팅 이름 \
        --model vit_base_patch16_224 \
        --batch-size 24 \
        --data-path /local_datasets/ \
        --output_dir ./output

Terminal 에서

sbatch train.sh

srun: debugging, terminal 에서 바로바로 확인

 

우선적으로 Terminal 에서 gpu 할당

srun -w agi2 --gres gpu:1 --cpus-per-gpu 4 --mem 20G --pty bash

Python file run

python -m torch.distributed.launch --master_port 23131 --nproc_per_node=1 --use_env train.py

현재 job 상태 확인

squeue # 한 번만
squeue -i1 # 매초 한 번씩

현재 gpu 사용 가능 확인

slurm-gres-viz -i # 인덱스로
slurm-gres-viz -i -l 1 # 매초마다

'Code > Linux' 카테고리의 다른 글

[Linux] GPU서버에 dataset 다운로드 (wget, Google Drive, scp)  (0) 2023.04.18
[Linux] 서버로 파일 전송  (0) 2023.03.27
[Linux] 파일 삭제  (0) 2023.03.27
[Conda] python 위치  (0) 2023.03.27
[Linux] Screen Manual  (0) 2023.03.27