sbatch: 긴 job 돌릴 때, out file 로 확인
train.sh 파일을 다음과 같이 작성
#SBATCH --job-name=job 이름
#SBATCH --nodes=1
#SBATCH --gres=gpu:1
#SBATCH -p batch
#SBATCH -w agi1
#SBATCH --cpus-per-gpu=4
#SBATCH --mem-per-gpu=20G
#SBATCH --time=14-0
#SBATCH -o %N_%x_%j.out
#SBTACH -e %N_%x_%j.err
source /data/sunghoon/init.sh
conda activate 가상환경이름
python -m torch.distributed.launch \
--nproc_per_node=1 \
--use_env main.py \
세팅 이름 \
--model vit_base_patch16_224 \
--batch-size 24 \
--data-path /local_datasets/ \
--output_dir ./output
Terminal 에서
sbatch train.sh
srun: debugging, terminal 에서 바로바로 확인
우선적으로 Terminal 에서 gpu 할당
srun -w agi2 --gres gpu:1 --cpus-per-gpu 4 --mem 20G --pty bash
Python file run
python -m torch.distributed.launch --master_port 23131 --nproc_per_node=1 --use_env train.py
현재 job 상태 확인
squeue # 한 번만
squeue -i1 # 매초 한 번씩
현재 gpu 사용 가능 확인
slurm-gres-viz -i # 인덱스로
slurm-gres-viz -i -l 1 # 매초마다
'Code > Linux' 카테고리의 다른 글
[Linux] GPU서버에 dataset 다운로드 (wget, Google Drive, scp) (0) | 2023.04.18 |
---|---|
[Linux] 서버로 파일 전송 (0) | 2023.03.27 |
[Linux] 파일 삭제 (0) | 2023.03.27 |
[Conda] python 위치 (0) | 2023.03.27 |
[Linux] Screen Manual (0) | 2023.03.27 |