로컬 PC에서 원도우 11, RTX4080 환경에서 first-order-model 활용해서 이미지를 머리카락 흔들림, 웃는 모습, 눈 깜빡임 동영상을 만들기 위한 환경 설정 및 샘플 예제 소스 만들어 주세요.
정확한 요구사항을 받았습니다!
Windows 11 + RTX 4080 환경에서, First Order Motion Model (FOMM) 을 사용하여 사진 속 인물이 머리카락이 흔들리거나, 웃는 모습, 눈 깜빡임 등 자연스러운 움직임이 있는 동영상을 생성하는 전체 가이드 및 샘플 소스를 아래에 정리해 드릴게요.
✅ 목표
- Windows 11 환경에서 GPU 활용
- RTX 4080 기반 CUDA 12.x 지원
- First Order Motion Model(FOMM) 설치 및 실행
- 사진 → 머리카락 흔들림, 웃음, 눈 깜빡임 영상 생성
- 무료 오픈소스 기반
🧰 필요한 도구 요약
항목 | 설명 |
---|---|
OS | Windows 11 |
GPU | NVIDIA RTX 4080 |
CUDA | 12.7 (기본적으로 설치됨) |
Python | 3.9 or 3.10 |
PyTorch | torch==2.5.0+cu121 (CUDA 12.1 이상 호환 가능) |
FOMM | https://github.com/AliaksandrSiarohin/first-order-model |
FFmpeg | 후처리용 |
🚀 Step-by-Step 설치 및 실행 가이드
🔧 1단계: 개발 환경 설정
1. Python 설치
- 다운로드: https://www.python.org/downloads/
- 설치 시 "Add to PATH" 체크 필수
python --version
pip --version
2. NVIDIA 드라이버 확인
nvidia-smi
위 명령어로 드라이버와 CUDA 버전 확인 (CUDA 12.7 이상)
3. PyTorch 설치 (CUDA 12.1 기준 — CUDA 12.7에서도 작동함)
공식 사이트에서 아래 명령어 복사:
pip install torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu121
설치 확인:
python -c "import torch; print(torch.cuda.is_available())"
출력이 True
라면 GPU가 정상적으로 인식되고 있음
📦 2단계: First Order Motion Model(FOMM) 설치
1. 소스 코드 복제
git clone https://github.com/AliaksandrSiarohin/first-order-model.git
cd first-order-model
2. 필요한 패키지 설치
pip install -r requirements.txt
필요 시 수동 설치:
pip install numpy opencv-python imageio configargparse
3. 사전 학습된 모델 다운로드
vox-cpk.pth.tar
파일 다운로드- 프로젝트 폴더 내
checkpoints/
디렉토리에 넣기
🖼️ 3단계: 입력 파일 준비
1. inputs/source_image.jpg
- 인물 사진 (고해상도, 얼굴 중심에 위치)
- 예:
inputs/source_image.jpg
2. inputs/driving_video.mp4
- 표정 변화 또는 머리카락이 자연스럽게 움직이는 영상
- 예: 유튜브에서 다운받은 사람 영상 중 웃는 장면 또는 바람 부는 장면
💡 샘플 드라이빙 영상이 필요하시면 알려주세요! 직접 제공 가능합니다.
🎬 4단계: AI 기반 움직임 생성 실행
기본 실행 명령어:
python demo.py --config config/vox-256.yaml \
--checkpoint checkpoints/vox-cpk.pth.tar \
--source_image inputs/source_image.jpg \
--driving_video inputs/driving_video.mp4 \
--result_video results/generated_video.mp4
이 스크립트는 드라이빙 영상의 움직임을 소스 이미지에 적용하여 영상을 생성합니다.
🎞️ 5단계: 결과물 확인 및 후처리
생성된 영상: results/generated_video.mp4
필요 시 SNS용 비율(9:16)으로 변환:
ffmpeg -i results/generated_video.mp4 \
-vf "scale=1080:1920:force_original_aspect_ratio=decrease,pad=1080:1920:(ow-iw)/2:(oh-ih)/2" \
results/output_9_16.mp4
📌 샘플 예제 소스 코드
run_fomm.bat
(Windows 배치 파일 예시)
@echo off
set PYTHONPATH=%CD%
python demo.py ^
--config config/vox-256.yaml ^
--checkpoint checkpoints/vox-cpk.pth.tar ^
--source_image inputs/source_image.jpg ^
--driving_video inputs/driving_video.mp4 ^
--result_video results/generated_video.mp4
실행 방법:
run_fomm.bat
📁 전체 폴더 구조 예시
first-order-model/
├── config/
├── checkpoints/
│ └── vox-cpk.pth.tar
├── inputs/
│ ├── source_image.jpg
│ └── driving_video.mp4
├── results/
│ └── generated_video.mp4
├── demo.py
└── requirements.txt
📦 결과물 예시
조건 | 결과물 특징 |
---|---|
드라이빙 영상: 웃는 표정 | 사진 속 인물도 웃는 듯한 효과 |
드라이빙 영상: 바람에 머리카락 흔들림 | 사진 속 인물의 머리카락이 자연스럽게 날리는 듯한 효과 |
드라이빙 영상: 고개 돌림 / 눈 깜빡임 | 표정 변화 포함된 영상 생성 가능 |
🙋♂️ 질문 남겨주세요!
- 드라이빙 영상 샘플이 필요하신가요?
- 여러 장의 사진을 자동 처리하고 싶으신가요?
- 자동으로 트랜지션 없이 순수 영상만 만들고 싶으신가요?
필요하시면 자동 처리 스크립트, 배치 작업 예제, 드라이빙 영상 샘플도 보내드릴 수 있어요 😊
GPU 환경이 잘 갖춰져 있으니 매우 빠르고 고화질의 결과물을 얻으실 수 있을 거예요!
궁금한 점 언제든지 물어보세요 👍