Stable Diffusion (SD) code 를 다른 opensource 와 마찬가지로 공식 github 에서 받아 돌려봤는데, 돌리긴 어렵진 않은데 ChatGPT 에 있는 Dall-E 와 비교했을 때 사용법이 좀 불편하다는 것을 느낌
일단 LDM 공식 github 실험 결과를 보자.
Weight 는 Huggingface [2] 에서 SD v1-5 를 사용했고 GPU 는 연구실에서 사용하던 Ubuntu 서버로 따로 학습은 진행하지 않고 Sampling 만 진행
Img2Img
이 실험은 내 증명사진으로 진행을 해봤음
제일 왼쪽 사진이 내 증명사진이고 오른쪽 10장의 이미지는 정확한 prompt 는 기억이 나지 않지만...
'얼굴을 좀 더 잘생기게 바꿔줘' 이런 내용이 들어갔던것 같은데.. 성능이 좀 별로였다.
Text2Img
이 실험은 예시 이미지가 '말을 타고 있는 우주비행사' 라는 prompt 를 주어 생성했길래, 비슷하게 '비행기를 타고 있는 당나귀의 Drawing' 이라는 prompt 를 주고 생성
많이 실험해본건 아니지만 좀 성능이... 좋지 않았다.
좀 찾아보니 civitai 라는 곳에서 open 되어있는 성능 좋은 모델도 많고, 잘 학습된 LoRA, VAE, Hypernetwork 들이 다수 올려져 있음
A1111 의 webui 도 유명하다고 들어서 진행해볼 예정
- Reference
[1] https://github.com/runwayml/stable-diffusion
[2] https://huggingface.co/runwayml/stable-diffusion-v1-5
'Code > Paper Open Source Codes' 카테고리의 다른 글
[3DGS] Gaussian Splatting 환경 구성 (1) | 2024.10.29 |
---|---|
[Automatic 1111] 스테이블 디퓨전 (Stable-Diffusion) -webui 맥 Mac M1/M2/M3 로컬 설치 및 실행 (0) | 2024.03.19 |