AI/etc

DPOK: 텍스트-이미지 확산 모델 미세 조정을 위한 강화 학습

유로파물고기 2023. 5. 30. 09:49
반응형

https://arxiv.org/abs/2305.16381

 

DPOK: Reinforcement Learning for Fine-tuning Text-to-Image Diffusion Models

Learning from human feedback has been shown to improve text-to-image models. These techniques first learn a reward function that captures what humans care about in the task and then improve the models based on the learned reward function. Even though relat

arxiv.org

1. 인간의 피드백으로부터 학습하는 것이 텍스트-이미지 모델을 향상시키는 것으로 입증되었습니다. 이 기법들은 먼저 작업에 대한 인간의 관심사항을 포착하는 보상 함수를 학습하고, 학습된 보상 함수를 기반으로 모델을 개선합니다.

2. 비교적 단순한 접근법들(예: 보상 점수에 따른 거부 샘플링)이 조사되었지만, 보상 함수로 텍스트-이미지 모델을 미세 조정하는 것은 여전히 도전적입니다.

3. 본 논문에서는 온라인 강화 학습(RL)을 사용하여 텍스트-이미지 모델을 미세 조정하는 방법을 제안합니다. 우리는 확산 모델에 초점을 맞추고, 미세 조정 작업을 RL 문제로 정의하고, 피드백으로 훈련된 보상을 극대화하기 위해 정책 그래디언트를 사용하여 사전 훈련된 텍스트-이미지 확산 모델을 업데이트합니다. 우리의 접근법인 DPOK는 KL 정규화와 함께 정책 최적화를 통합합니다. 우리는 RL 미세 조정 및 지도 학습 미세 조정에 대한 KL 정규화 분석을 수행합니다. 실험에서 DPOK는 이미지-텍스트 정렬과 이미지 품질 모두에서 일반적으로 지도 학습 미세 조정보다 우수함을 보여줍니다.