第一步是训练Net-T;
第二步是在高温T下,蒸馏Net-T的知识到Net-S

https://intellabs.github.io/distiller/knowledge_distillation.html#hinton-et-al-2015
高温蒸馏过程的目标函数由distill loss(对应soft target)和student loss(对应hard target)加权得到。
L=αLsoft+βLhard
其中
Lsoft=−j∑N pjTlog(qjT)piT=∑kNexp(vk/T)exp(vi/T),qiT=∑kNexp(zk/T)exp(zi/T)
随后:
Lhard=−j∑Ncjlog(qj1)qi1=∑kNexp(zk)exp(zi)