H(p/q) = H(p) + d_KL(p//q)
Cok sinifli tek etiketli siniflandirmada p etiket vektoru, q da skor vektoru olsun. H(p)=0 oldugu icin "cross entropy" H(p/q)'yi minimize etmek, skor vektoru ile etiket vektoru arasindaki KL mesafesini minimize etmeye denk gelir. Soft-max'in yaptigi da budur.
Thursday, January 8, 2015
Subscribe to:
Posts (Atom)