SDCast #43: в гостях Николай Сивко, сооснователь проекта OKMeter.io

sd-podcast-logo Встречайте 43-й выпуск подкаста! На этот раз речь пойдет о devops, эксплуатации и мониторинге. У меня в гостях Николай Сивко, сооснователь проекта OKMeter.io.

В этом выпуске мы говорим про мониторинг в целом, каким он бывает, когда стоит задумываться о мониторинге своих сервисов, как внедрять мониторинг в уже работающие решения. Обсудили какие метрики надо собирать, какие есть способы сбора метрик в принципе и какие есть уже готовые инструменты для этого.

Так же обсудили с Николаем как получить наглядное представление о наблюдаемой системе, какие средства визуализации хороши, и какие способы представления информации дают наилучшее понимание о текущем состоянии системы.

Далее Николай рассказал о том, как устроен сам сервис OKMeter.io, какова его архитектура, из каких компонентов он состоит и какие инструменты используются «под капотом». Рассказал, как и какие метрики собираются, обрабатываются, хранятся и в дальнейшем используются для построения графиков и гистограм. Отдельно обсудили тему отказоустойчивости и масштабирования решения по мониторингу.

Ссылки на ресурсы по темам выпуска:

  • Сервис OKMeter.io
  • statsd. Daemon for easy but powerful stats aggregation
  • Доклад Николая «Детальный мониторинг PostgreSQL с помощью OKmeter.io» со встречи #PostgreSQLRussia:
Скачать (mp3, 29 MB) Скачать (ogg, 32 MB)
  • Денис К.

    Хороший подкаст, спасибо за старания. Интервью часто выходят унылыми, а у вас я с удовольствием слушаю каждый раз.

  • janitor_rb_rus

    Интересно было послушать. Интервью у вас действительно выходят хорошие – задаете хорошие вопросы.

  • B7W

    Вопрос к Николаю. Я не услышал внятного ответа почему не использовали стандартные инструменты, а многое писали сами. К примеру туже Cassandra.

    Ничего не было сказано про возможность okmeter ни как сервис, часто ли заказчики хотят такое?

    • Николай Сивко

      Стандартные инструменты не соответствуют нашим требованиям по производительности (в основном это задержки при чтении данных).

      Пока okmeter мы поставляем либо в виде сервиса, либо внедрение нашими силами на оборудование заказчика (просят достаточно часто те, кто по каким-то причинам не может лить свои метрики за пределы своей сети). Мы начали делать коробочное решение, но пока не готово.

  • Vadim

    Здравствуйте !
    Спасибо, было очень познавательное обсуждение.
    Но есть некоторые вопросы.
    1) Как удается, используя достаточно большое количество метрик, которые достаточно часто что то анализируют, записывают, передают по сети, избежать их влияния на всю систему, на компоненты, которые они измеряют ? Или оно существенно, но не настолько, чтобы заботиться об этом (скажем, у клиента куча одноранговых нод и все работает нормально)
    2) 29:30, можно подробнее, почему 95 процентиль не равен 95% пользователей, у которых все хорошо ? Имеется в виду в общем виде, когда мерили на app server, а на nginx были проблемы ?
    3) Что есть кумулятивные счетчики, по которым берут производную ? Что то тут вообще стало не понятно. Из экономики, это отвечает за предсказание будущих тенденций, а при получении различных метрик, что это ?
    4) Зачем SSL при отправке метрик ? Некий злоумышленник решит перехватить данные вида “время,пользователь,метрикаID,значение” и далее, используя эти перехватываемые данные, варьировать частоту запросов, чтобы негативно воздействовать на сервер жертвы ?
    5) Как понимаю, у OKMeter.io были мысли (и даже консультации) о мониторинге Docker, на какой сейчас это стадии ?