반응형
https://arxiv.org/abs/2305.16381
1. 인간의 피드백으로부터 학습하는 것이 텍스트-이미지 모델을 향상시키는 것으로 입증되었습니다. 이 기법들은 먼저 작업에 대한 인간의 관심사항을 포착하는 보상 함수를 학습하고, 학습된 보상 함수를 기반으로 모델을 개선합니다.
2. 비교적 단순한 접근법들(예: 보상 점수에 따른 거부 샘플링)이 조사되었지만, 보상 함수로 텍스트-이미지 모델을 미세 조정하는 것은 여전히 도전적입니다.
3. 본 논문에서는 온라인 강화 학습(RL)을 사용하여 텍스트-이미지 모델을 미세 조정하는 방법을 제안합니다. 우리는 확산 모델에 초점을 맞추고, 미세 조정 작업을 RL 문제로 정의하고, 피드백으로 훈련된 보상을 극대화하기 위해 정책 그래디언트를 사용하여 사전 훈련된 텍스트-이미지 확산 모델을 업데이트합니다. 우리의 접근법인 DPOK는 KL 정규화와 함께 정책 최적화를 통합합니다. 우리는 RL 미세 조정 및 지도 학습 미세 조정에 대한 KL 정규화 분석을 수행합니다. 실험에서 DPOK는 이미지-텍스트 정렬과 이미지 품질 모두에서 일반적으로 지도 학습 미세 조정보다 우수함을 보여줍니다.
'AI > etc' 카테고리의 다른 글
사전 훈련된 언어 모델을 위한 플러그 앤 플레이 지식 주입 (0) | 2023.05.30 |
---|---|
Emergent Agentic Transformer와 Hindsight Experience (2) | 2023.05.30 |
OlaGPT: 인간과 같은 문제 해결 능력으로 LLM 강화 (0) | 2023.05.29 |
RWKV: 트랜스포머 시대를 위한 RNN 재창조 (0) | 2023.05.29 |
자연어 기반 정신 사회의 마인드스톰 (0) | 2023.05.29 |