Sadegh Talebi
Tenure Track Adjunkt
Machine Learning
Universitetsparken 1
2100 København Ø
11 - 11 ud af 11Pr. side: 10
- 2024
- Udgivet
Logarithmic regret in communicating MDPs: Leveraging known dynamics with bandits
Saber, H., Pesquerel, F., Maillard, O. & Talebi, Mohammad Sadegh, 2024, Proceedings of the 15th Asian Conference on Machine Learning. PMLR, s. 1167-1182 (Proceedings of Machine Learning Research, Bind 222).Publikation: Bidrag til bog/antologi/rapport › Konferencebidrag i proceedings › Forskning › fagfællebedømt
ID: 235125478
Flest downloads
-
51
downloads
Adversarial Bandits with Corruptions
Publikation: Bidrag til bog/antologi/rapport › Konferencebidrag i proceedings › Forskning › fagfællebedømt
Udgivet -
41
downloads
Tightening Exploration in Upper Confidence Reinforcement Learning
Publikation: Bidrag til bog/antologi/rapport › Konferencebidrag i proceedings › Forskning › fagfællebedømt
Udgivet -
22
downloads
Scaling Up Q-Learning via Exploiting State–Action Equivalence
Publikation: Bidrag til tidsskrift › Tidsskriftartikel › Forskning › fagfællebedømt
Udgivet