M2 Probabilit´es et Statistiques, Universit´e Paris-Sud Apprentissage statistique (Sylvain Arlot et Francis Bach) Convexification du risque Francis Bach Cours 3, 15 f´evrier 2010
1
Rappels d’optimisation
Bonnes r´ef´erences : [3] (disponible gratuitement en ligne), [2] – Probl`eme primal : f ∗ = inf f (x) tel que ∀i ∈ {1, . . . , m}, hi (x) = 0, ∀j ∈ {1, . . . , r}, gj (x) = 0
x∈X
– Lagrangien : L(x, λ, µ) = f (x) +
m X
λi hi (x) +
2
µj gj (x)
j=1
i=1
– – – – – – –
r X
Fonction duale : q(λ, µ) = inf x∈X L(x, λ, µ) Probl`eme dual (toujours concave) : d∗ = supλ∈Rm ,µ∈Rr+ q(λ, µ) Dualit´e faible (sans hypoth`eses) : d∗ 6 f ∗ Dualit´e forte (avec hypoth`eses de convexit´e) : d∗ 6 f ∗ Inversion min/max Conditions de Slater Conditions d’optimalit´e de KKT
Convexification du risque en classification binaire
– Etant donn´e une fonction f de X and R, on consid`ere le classifieur g de X and R, d´efini par g(x) = sign(f (x)). – Risque : R(f ) = Eφ0−1 (Y f (X)) – φ-Risque : Rφ (f ) = Eφ0−1 (Y f (X)) o` u φ est une fonction de contraste – R´egression logistique : φ(u) = log(1 + e−u ) (interpr´etation en mod`ele probabiliste, bien sp´ecifi´e ou non) – Moindres carr´es : φ(u) = (u − 1)2 – SVM : φ(u) = max(0, 1 − u) (interpr´etation g´eom´etrique)
1
3
Liens entre les risques [1]
– Hypoth`ese : φ convexe – D´efinition d’un contraste bien calibr´e, ´equivalent `a φ d´erivable en 0 et φ′ (0) < 0. – Th´eor`eme : ψ(R(f ) − R∗ ) 6 Rφ (f ) − Rφ∗ o` u ψ(θ) = φ(0) − inf α
1+θ 2 φ(α)
+
1−θ 2 φ(−α)
R´ ef´ erences [1] P. L. Bartlett, M. I. Jordan, and J. D. McAuliffe. Convexity, classification, and risk bounds. Journal of the American Statistical Association, 101(473) :138–156, 2006. (Was Department of Statistics, U.C. Berkeley Technical Report number 638, 2003). [2] J. M. Borwein and A. S. Lewis. Convex Analysis and Nonlinear Optimization. Number 3 in CMS Books in Mathematics. Springer-Verlag, 2000. [3] S. Boyd and L. Vandenberghe. Convex Optimization. Cambridge Univ. Press, 2003.
2