[runwayml] Stable-Diffusion (Official) 코드 실행

Code & Framework/Paper Open Source Codes

이성훈 Ethan 2024. 3. 13. 19:05

Stable Diffusion (SD) code 를 다른 opensource 와 마찬가지로 공식 github 에서 받아 돌려봤는데, 돌리긴 어렵진 않은데 ChatGPT 에 있는 Dall-E 와 비교했을 때 사용법이 좀 불편하다는 것을 느낌

일단 LDM 공식 github 실험 결과를 보자.

Weight 는 Huggingface [2] 에서 SD v1-5 를 사용했고 GPU 는 연구실에서 사용하던 Ubuntu 서버로 따로 학습은 진행하지 않고 Sampling 만 진행

Img2Img

이 실험은 내 증명사진으로 진행을 해봤음

제일 왼쪽 사진이 내 증명사진이고 오른쪽 10장의 이미지는 정확한 prompt 는 기억이 나지 않지만...

'얼굴을 좀 더 잘생기게 바꿔줘' 이런 내용이 들어갔던것 같은데.. 성능이 좀 별로였다.

Text2Img

이 실험은 예시 이미지가 '말을 타고 있는 우주비행사' 라는 prompt 를 주어 생성했길래, 비슷하게 '비행기를 타고 있는 당나귀의 Drawing' 이라는 prompt 를 주고 생성

많이 실험해본건 아니지만 좀 성능이... 좋지 않았다.

좀 찾아보니 civitai 라는 곳에서 open 되어있는 성능 좋은 모델도 많고, 잘 학습된 LoRA, VAE, Hypernetwork 들이 다수 올려져 있음

A1111 의 webui 도 유명하다고 들어서 진행해볼 예정

- Reference

[1] https://github.com/runwayml/stable-diffusion

[3DGS] Gaussian Splatting 환경 구성 (1)	2024.10.29
[Automatic 1111] 스테이블 디퓨전 (Stable-Diffusion) - webui 맥 Mac M1/M2/M3/M4 로컬 설치 및 실행 (0)	2024.03.19

Ethan's Winery

이성훈 Ethan

250x250

딥러닝, Continual Learning, fewshot, GAN, 용어, dl, incremental learning, image classification,

Ethan's Winery