[Slurm] sbatch srun

Code/Linux

[Slurm] sbatch srun

이성훈 Ethan 2023. 3. 27. 15:08

sbatch: 긴 job 돌릴 때, out file 로 확인

train.sh 파일을 다음과 같이 작성

#SBATCH --job-name=job 이름
#SBATCH --nodes=1
#SBATCH --gres=gpu:1
#SBATCH -p batch
#SBATCH -w agi1
#SBATCH --cpus-per-gpu=4
#SBATCH --mem-per-gpu=20G
#SBATCH --time=14-0
#SBATCH -o %N_%x_%j.out
#SBTACH -e %N_%x_%j.err

source /data/sunghoon/init.sh
conda activate 가상환경이름
python -m torch.distributed.launch \
        --nproc_per_node=1 \
        --use_env main.py \
        세팅 이름 \
        --model vit_base_patch16_224 \
        --batch-size 24 \
        --data-path /local_datasets/ \
        --output_dir ./output

Terminal 에서

sbatch train.sh

srun: debugging, terminal 에서 바로바로 확인

우선적으로 Terminal 에서 gpu 할당

srun -w agi2 --gres gpu:1 --cpus-per-gpu 4 --mem 20G --pty bash

Python file run

python -m torch.distributed.launch --master_port 23131 --nproc_per_node=1 --use_env train.py

현재 job 상태 확인

squeue # 한 번만
squeue -i1 # 매초 한 번씩

현재 gpu 사용 가능 확인

slurm-gres-viz -i # 인덱스로
slurm-gres-viz -i -l 1 # 매초마다

저작자표시

'Code > Linux' 카테고리의 다른 글

[Linux] GPU서버에 dataset 다운로드 (wget, Google Drive, scp) (0)	2023.04.18
[Linux] 서버로 파일 전송 (0)	2023.03.27
[Linux] 파일 삭제 (0)	2023.03.27
[Conda] python 위치 (0)	2023.03.27
[Linux] Screen Manual (0)	2023.03.27

현재글[Slurm] sbatch srun

이성훈 Ethan

용어, fewshot, dl, incremental learning, image classification, 딥러닝, GAN, Continual Learning,

Today :
Yesterday :

일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

[Slurm] sbatch srun

'Code > Linux' 카테고리의 다른 글

'Code/Linux'의 다른글

티스토리툴바

[Slurm] sbatch srun

'Code > Linux' 카테고리의 다른 글

'Code/Linux'의 다른글

관련글

티스토리툴바