Архив метки: Big Data

SDCast #50: в гостях Иван Гуз, директор аналитического департамента в Avito

sd-podcast-logoТоварищи, рад представить вам 50-й выпуск SDCast’а! На этот раз речь пойдет об аналитике, анализе больших данных, машинном обучении и прочих смежных темах. У меня в гостях Иван Гуз, директор аналитического департамента в Avito.

По традиции, в начале Иван рассказал немного про себя, о том, как и почему он ушел из большого enterprise мира в, тогда еще, стартап под названием «Avito» и что представляет Avito из себя сейчас. Рассказал про разные аналитические задачи, которые он и его команда решают, среди которых, например, анализ поведения пользователя на сайте, распознавание дубликатов товаров, дифференциация реальных пользователей и ботов и многие другие.

Не обошли мы стороной и техническую составляющую: Иван рассказал про то, какие инструменты, языки программирования, тулкиты и фреймворки они используют для решения своих задач.

В завершении выпуска, обсудили с Иваном, как развивалась аналитическая отрасль в ретроспективе, что интересного происходит сейчас, насколько важно и востребовано данное направление в ИТ, да и в бизнесе в целом, и каково направление развития и основные тенденции в ближайшем будущем. Читать далее SDCast #50: в гостях Иван Гуз, директор аналитического департамента в Avito

Скачать (mp3, 43 MB) Скачать (ogg, 34 MB)

SDCast #36: в гостях Дмитрий Павлов, администратор хранилищ данных банка Тинькофф

sd-podcast-logo Рад представить вам первый выпуск 2016 года, за номером 36. У меня в гостях Дмитрий Павлов, администратор хранилищ данных банка Тинькофф. В этом выпуске речь идет про хранилища данных, чем они отличаются от просто баз данных, какими отличительными возможностями они обладают, для какой нагрузки они предназначены по сравнению с RDBMS.

Дмитрий рассказал про архитектуру хранилища данных, построенную в банке Тинькофф, на чем она построена, из каких компонент состоит, как происходит загрузка данных из online-систем, как устроен ETL-процесс, что используется для расчетов, какие есть интеграции с внешними системами и как они устроены. Не обошли мы стороной и вопрос мониторинга всей системы. Дмитрий рассказал, какие метрики для хранилищ данных важны, что имеет значение, как их собирать и как за ними следить, и какие инстументы мониторинга они используют у себя.

Хранилище данных базируется на БД GreenPlum, которая, в свою очередь, базируется на PostgreSQL, из которых построено несколько кластеров, так же GreenPlum интегрирован с Hadoop и Informatica BDE, в которых производятся расчеты, а мониторится это все с помощью Graphite/Grafana/Cabot.
Читать далее SDCast #36: в гостях Дмитрий Павлов, администратор хранилищ данных банка Тинькофф

Скачать (mp3, 25 MB) Скачать (ogg, 29 MB)