1. 又稍微调整了下GFN用原diffusion model作为reward model的参数,用于评测
  2. 评测了GFN和PPO(用的huggingface上的模型)使用相同的reward model (stable_diffusion-v1-4) 在diffusionDB(in domain) 和COCO (out domain)上的表现
  3. 关于guidance control, lcm不能开guidance control
  4. 由 【之前GFN采样就更新(on policy)】 换成【off policy】的形式,同样参数下又会over optimize clip function, 又会输出一些无意义的字符

下面的评测每个数据集采样了256条数据

DiffusionDB评测 (In domain)

评测的分析在下面

GFN

Untitled

PPO

Untitled

COCO的评测(out domain)

GFN

Untitled

PPO

Untitled

这里PPO训练后的模型开了diverse beam search去搜

kwargs = {
'max_new_tokens': 30,'min_length': 5,'do_sample': False,'num_beams': 16,'num_beam_groups': 16,'diversity_penalty':1.0,
'temperature': 0.7,'num_return_sequences': 5
}

GFN没开