On the convergence of the MLE as an estimator of the learning rate in the Exp3 algorithm - Université Côte d'Azur Access content directly
Proceedings Year : 2023

On the convergence of the MLE as an estimator of the learning rate in the Exp3 algorithm

Abstract

When fitting the learning data of an individual to algorithm-like learning models, the observations are so dependent and non-stationary that one may wonder what the classical Maximum Likelihood Estimator (MLE) could do, even if it is the usual tool applied to experimental cognition. Our objective in this work is to show that the estimation of the learning rate cannot be efficient if the learning rate is constant in the classical Exp3 (Exponential weights for Exploration and Exploitation) algorithm. Secondly, we show that if the learning rate decreases polynomially with the sample size, then the prediction error and in some cases the estimation error of the MLE satisfy bounds in probability that decrease at a polynomial rate.
Fichier principal
Vignette du fichier
Exp3___ICML (6).pdf (560.78 Ko) Télécharger le fichier
Boxplot_etaconstant.pdf (7.21 Ko) Télécharger le fichier
Boxplot_etaconstant1000.png (17.56 Ko) Télécharger le fichier
Boxplot_etadec_K2_est.pdf (6.73 Ko) Télécharger le fichier
Boxplot_etadec_K2_est1000.png (15.21 Ko) Télécharger le fichier
Boxplot_etadec_K2_pred.pdf (10.78 Ko) Télécharger le fichier
Boxplot_etadec_K2_pred1000.png (20.49 Ko) Télécharger le fichier
Boxplot_etadec_K4_est.pdf (5.91 Ko) Télécharger le fichier
Boxplot_etadec_K4_est1000.png (13.15 Ko) Télécharger le fichier
Boxplot_etadec_K4_pred.pdf (8.55 Ko) Télécharger le fichier
Boxplot_etadec_K4_pred1000.png (23.27 Ko) Télécharger le fichier
RebuttalEXP3.pdf (68.45 Ko) Télécharger le fichier
Tmax_plot.pdf (8.4 Ko) Télécharger le fichier
Tmax_plotNsim1000.png (97.84 Ko) Télécharger le fichier
Tmax_plotNsimbis.png (21.64 Ko) Télécharger le fichier
differencepdelta2arms.png (3.54 Ko) Télécharger le fichier
erreuretaconstant2bras.png (3.98 Ko) Télécharger le fichier
erreuretaconstant4bras.png (4.57 Ko) Télécharger le fichier
estimationerrorplot1.png (3.06 Ko) Télécharger le fichier
example_paper.pdf (204.17 Ko) Télécharger le fichier
icml_numpapers.pdf (2.76 Ko) Télécharger le fichier
predictionerror.png (4.23 Ko) Télécharger le fichier
proba.pdf (5.26 Ko) Télécharger le fichier
vrais.pdf (6.86 Ko) Télécharger le fichier
Origin Files produced by the author(s)
Origin Files produced by the author(s)
Origin Files produced by the author(s)

Dates and versions

hal-04083986 , version 1 (10-05-2023)
hal-04083986 , version 2 (11-10-2023)

Licence

Identifiers

Cite

Julien Aubert, Luc Lehéricy, Patricia Reynaud-Bouret. On the convergence of the MLE as an estimator of the learning rate in the Exp3 algorithm. 2023. ⟨hal-04083986v2⟩
146 View
65 Download

Altmetric

Share

Gmail Mastodon Facebook X LinkedIn More