Том 18, № 1Страницы 35 - 45 A Limiting Description in a Gaussian One-Armed Bandit Problem with Both Unknown Parameters
A.V. KolnogorovМы рассматриваем предельное описание управления в задаче о гауссовском одноруком бандите, которая является математической моделью оптимизации пакетной обработки больших данных при наличии двух альтернативных методов с известной эффективностью первого метода. Установлено, что это описание дается дифференциальным уравнением в частных производных второго порядка, в котором дисперсия одношаговых доходов является известной. Этот результат означает, что в случае больших данных дисперсия может быть сколь угодно точно оценена на коротком начальном этапе обработки, а затем полученная оценка использована управляющей стратегией.
Полный текст- Ключевые слова
- однорукий бандит; байесовский и минимаксный подходы; инвариантное описание; пакетная обработка.
- Литература
- 1. Kolnogorov A.V. Invariant Description of Control in a Gaussian One-Armed Bandit Problem. Bulletin of the South Ural State University. Series: Mathematical Modelling, Programming and Computer Software, 2024, vol. 17, no. 1, pp. 27-36. DOI: 10.14529/mmp240103
2. Sragovich V.G. Mathematical Theory of Adaptive Control. Singapore, World Scientific, 2006. DOI: 10.1142/5857
3. Lattimore T., Szepesvari C. Bandit Algorithms. Cambridge, Cambridge University Press, 2020. DOI: 10.1017/9781108571401
4. Kolnogorov A.V. One-Armed Bandit Problem for Parallel Data Processing Systems. Problems of Information Transmission, 2015, vol. 51, no. 2, pp. 177-191. DOI: 10.1134/S0032946015020088
5. Bather J.A. The Minimax Risk for the Two-Armed Bandit Problem. Mathematical Learning Models - Theory and Algorithms, 1983, vol. 20, pp. 1-11. DOI: 10.1007/978-1-4612-5612-0_1
6. Chernoff H., Ray S.N. A Bayes Sequential Sampling Inspection Plan. The Annals of Mathematical Statistics, 1965, vol. 36, pp. 1387-1407. DOI: 10.1214/aoms/1177699898
7. Bradt R.N., Johnson S.M., Karlin S. On Sequential Designs for Maximizing the Sum of n Observations. The Annals of Mathematical Statistics, 1956, vol. 27, pp. 1060-1074. DOI: 10.1214/aoms/1177728073