Как быстро найти причины сбоев и предотвратить отказ сервисов? Рассказала команда GMonit
17 апреля мы провели технический вебинар «Как расследовать ИТ-инциденты с GMonit — метрики сами подскажут ответ», в ходе которого обсудили, как определить источник и масштаб сбоев, выстроить непрерывное наблюдение за состоянием систем и минимизировать время простоя программ.
Юрий Махоткин, тимлид разработки GMonit, в рамках live demo разобрал кейс устранения инцидента в инфраструктуре с помощью observability платформы. Зрители трансляции получили практические рекомендации по оптимизации процессов и повышению устойчивости ПО. В рамках этой темы обсудили структуры «бабочки» и «рыбы» — визуальные и логические модели, которые помогают упорядочивать информацию о сбоях, выявлять корневые причины ошибок и выстраивать систему защиты от повторных нарушений.
Спикер показал методику расследования инцидентов — от автоматического детектирования проблем через алерты до глубокого мониторинга с использованием данных телеметрии. Участники узнали, как эффективно идентифицировать источник ошибок. Также специалист продемонстрировал ключевые графики и метрики, отражающие поведение программ:
— время недоступности (downtime);
— график количества ошибок (error rate);
— среднее время отклика приложения (response time) на уровне транзакций и вызовов сервисов;
— метрики производительности (performance metrics);
— нагрузка на базу данных со стороны приложения (DB query rate/latency);
— пример трассировки (tracing) обработки конкретного запроса — для анализа цепочки вызовов и выявления узких мест.
В заключение Юрий рассказал про настройку полезного алертинга и детектирование аномалий с ИИ в GMonit. Благодаря методам Machine Learning бизнес может предсказывать потенциальные риски и заранее принимать меры для защиты критичных сервисов. После — спикер провел сессию вопросов и ответов.
Предлагаем к просмотру видеозапись выступления:
— ВКонтакте: https://vk.com/video-216320775_456239033
— Rutube: https://rutube.ru/video/c28d2f06973f48bf7e658821d034bc24/
— YouTube: https://youtu.be/LyAneB3OUIo
Источник: https://gmonit.ru/blog/it-incidents