Dark Knowledge
G. Hintonの"Dark knowledge"のスライドが非常に興味深いので,数式多めにメモ.
通常,多クラス識別での交差エントロピー(cross entropy) は
と定義されます.ここで, (は規格化項)ではtrue label(正解クラスなら,他は0)です.
一度 を最小化する訓練(hard target model)をして,出力 が得られたとします. この を使い,の代わりに ()をラベルに見立て,
をsoft target modelでの交差エントロピーとします.
適当な温度 (大きめ)と混ぜパラメータ (小さめ,1/(1+T2)程度)を使って交差エントロピーを
と定義したモデルがdistilled modelです(多分).
コメント頂けるとありがたいです.
[12/10追記]:NIPS workshopのペーパーを見て、混ぜパラメータを変更しました。次元を持っている量と無次元量が混ざるのが気持ち悪い気がするが、hard targe modelの温度が1とすれば合う。