№ 35 (211), выпуск 6Страницы 91 - 103

О восстановлении программ из контрольных точек

А.Ю. Поляков
В работе описаны два подхода к проблеме восстановления распределенных программ из контрольных точек. Предложен алгоритм восстановления взаимосвязей типа <<родитель-потомок>> и алгоритм принадлежности к группам и сеансам для набора процессов в рамках элементарной машины распределенной вычислительной системы. Предложен алгоритм координированного восстановления набора связанных процессов, перезапускаемых раздельно (на различных элементарных машинах или терминалах). Описанные подходы реализованы в системе создания контрольных точек extitDMTCP ( extitDistributed MultiThreaded CheckPointing).
Полный текст
Ключевые слова
распределенные вычислительные системы, контрольные точки восстановления, отказоустойчивость
Литература
1. Хорошевский, В.Г. Архитектура вычислительных систем / В.Г. Хорошевский. - М.: МГТУ им. Н.Э. Баумана, 2008. - 520 с.
2. TOP500 supercomputer site [Электронный ресурс].- Режим доступа: http://www.top500.org/ . - Загл. с экрана. - яз. англ.
3. A survey of rollback-recovery protocols in message-passing systems / E.N. Elnozahy, L. Alvisi, Y.M. Wang, D.B. Johnson // ACM Computing Surveys. - 2002. - V. 34, № 3. - P. 375 - 408.
4. Ansel, J. DMTCP: Transparent Checkpointing for Cluster Computations and the Desktop / J. Ansel, K. Arya, G. Cooperman // Proc. of IEEE International Parallel and Distributed Processing Symposium (IPDPS'09). - Rome, 2009. - P. 1 - 12. - ISBN: 978-1-4244-3751-1.
5. Hargrove, P.H. Berkeley Lab Checkpoint/Restart (BLCR) for Linux Clusters / P.H. Hargrove, J.C. Duell // In Proceedings of SCIENTIFIC DISCOVERY THROUGH ADVANCED COMPUTING (SciDAC 2006). - Denver, 2006. - V. 46. - P. 494 - 499. - ISSN 1742-6588.
6. Checkpoint and migration of UNIX processes in the Condor distributed processing system / M. Litzkow, T. Tannenbaum, J. Basney, M. Livny // Technical report 1346, University of Wisconsin, Madison. - Wisconsin, 1997. - P. 8.
7. Libckpt: Transparent checkpointing under Unix / J.S. Plank, M. Beck, G. Kingsley, K. Li // In Proc. of the USENIX Winter 1995 Technical Conference. - New Orleans, 1995. - P. 213 - 323.
8. The design and implementation of checkpoint/restart process fault tolerance for Open MPI / J. Hursey, J. M. Squyres, T. I. Mattox, A. Lumsdaine // In Proceedings of the 21st IEEE International Parallel and Distributed Processing Symposium (IPDPS). IEEE Computer Society. - Long Beach, 2007. - P. 1 - 8. - ISBN: 1-4244-0910-1.
9. Application-transparent checkpoint/restart for MPI programs over InfiniBand / Q. Gao, W. Yu, W. Huang, D. K. Panda // Proceedings of the 2006 International Conference on Parallel Processing / IEEE Computer Society. - Washington, 2006. - P. 471 - 478.
10. FT-MPI, Fault-Tolerant Metacomputing and Generic Name Services: A Case Study / D. Dewolfs, J. Broeckhove, V. Sunderam, G. Fagg // Lecture Notes in Computer Science, Springer Berlin. - Heidelberg, 2006. - P. 133 - 140.
11. Temporal Debugging using URDB / A.M. Visan, A. Polyakov, P.S. Solanki, K. Arya, T. Denniston, G. Cooperman // 2009. - Режим доступа: http://arxiv.org/abs/0910.5046v1.