进展总结


首先,周四meeting的时候,讨论到有几个地方需要换一下

lcm的model_id, 应该从 **"Lykon/dreamshaper-7" "runwayml/stable-diffusion-v1-5"

guidance_scale 之前是0,是关闭状态,调到开启状态**(这个数越大,意味着生成的图片越遵从输入文本)**

PPO换用lcm reward model的表现

首先,调了几版参数(kl的权重,aes clip的比例),num updates的值,等待较长的时间,并没有好的结果

Untitled

后来我发现,这个实验是guidance_scale 开启状态跑的,这个是导致结果不好的一个因素【我后面将gfn训练过程的这个打开,也发现效果变差了】,我认为,训练的时候应该像之前一样关闭(测试多样性的时候打开)

原因是,这个clip score是计算生成的图片和原input prompt的相关性,如果guidance scale开启,可以看到这个图中的clip score刚开始就只有0.18(如果关闭 大概在0.25左右,原因是生成的图片完全依据优化后的prompt来做

此时,模型优化过程的表现是:不敢说话了,只是重复一下前面的话,或者加一点后缀,这样aes score就上不去了**(可以这么认为,这个guidance scale越大,说明模型对clip score越严格,变相增大了clip score的权重[因为稍微偏离一点就会导致生成的图片和原来差距很大],模型就over optimize clip score了)**

Untitled

所以训练的时候应该关闭,评测的时候我再对比一下它是否需要打开