SDCast #80: в гостях Николай Голов, руководитель Data Platform в Авито

Встречайте 80-й выпуск SDCast’а! У меня в гостях Николай Голов, руководитель Data Platform в Авито. Помимо прочего, Николай преподаёт в НИУ ВШЭ и занимается научными исследованиями в области современных методологий построения хранилищ данных, таких как Data Vault и Anchor Modeling. В этом выпуске мы говорим о хранилищах данных, микросервисах и даже блокчейн!

Вначале мы обсудили тему построения хранилищ данных. Николай рассказал про подходы к построению эффективных и расширяемых хранилищ, обсудили способы хранения информации, механизмы загрузки данных в хранилище, отличие ETL и ELT подходов. Николай рассказал про устройство хранилища данных в Авито, которое построено на базе HP Vertica, о том, как оно появилось, эволюционировало и разрасталось. Для справки, в год в Авито в хранилище поступает порядка 2.5 петабайт !! сырых данных! При этом само хранилище занимает всего около 200 терабайт! Подискутировали и о будущем баз данных.

Затронули тему микросервисов, в особенности способы достижения консистентности данных в распределённой среде. Николай рассказал про возможные подходы к решению этой проблемы, и в особенности про паттерн «Сага», точнее даже целом семействе паттернов, какие бывают, как и где их стоит применять. Подискутировали мы о плюсах и минусах этих подходов, вспомнили про «event sourcing» и CQRS.

Николай интересуется темой блокчейн. Пообщались мы и про это направление в ИТ. Николай рассказал про Telegram Open Network (TON) и вообще современных тенденциях в мире блокчейн. Обсудили где и как в мире больших данных могут применятся блокчейн технологии.

Читать далее

SDCast #50: в гостях Иван Гуз, директор аналитического департамента в Avito

sd-podcast-logoТоварищи, рад представить вам 50-й выпуск SDCast’а! На этот раз речь пойдет об аналитике, анализе больших данных, машинном обучении и прочих смежных темах. У меня в гостях Иван Гуз, директор аналитического департамента в Avito.

По традиции, в начале Иван рассказал немного про себя, о том, как и почему он ушел из большого enterprise мира в, тогда еще, стартап под названием «Avito» и что представляет Avito из себя сейчас. Рассказал про разные аналитические задачи, которые он и его команда решают, среди которых, например, анализ поведения пользователя на сайте, распознавание дубликатов товаров, дифференциация реальных пользователей и ботов и многие другие.

Не обошли мы стороной и техническую составляющую: Иван рассказал про то, какие инструменты, языки программирования, тулкиты и фреймворки они используют для решения своих задач.

В завершении выпуска, обсудили с Иваном, как развивалась аналитическая отрасль в ретроспективе, что интересного происходит сейчас, насколько важно и востребовано данное направление в ИТ, да и в бизнесе в целом, и каково направление развития и основные тенденции в ближайшем будущем.

Читать далее

SDCast #45: в гостях Виктор Тарнавский, руководитель разработки аналитических продуктов в Яндексе

sd-podcast-logo А вот знаете ли вы, дорогие слушатели, как выстроить архитектуру, которая будет выдерживать десятки миллиардов запросов в день, ворочить петабайты данных, и при это быть быстрой и отзывчивой? Ответы на эти и не только вопросы вы можете услышать в свежем выпуске SDCast’а! У меня в гостях Виктор Тарнавский, руководитель разработки аналитических продуктов в Яндексе.

В этом выпуске Виктор подробно рассказывает про архитектуру и внутреннее устройство Яндекс.Метрики, о том, из каких программных компонентов она состоит, как происходит обработка поступающих событий, как они обрабатываются и складываются в базу данных ClickHouse, каким способом достигается масштабируемость и отказоустойчивость всей системы.

Отдельно ведем разговор про аналитическую базу данных ClickHouse, которую компания Яндекс недавно выложила в opensource. Виктор рассказал про историю зарождения проекта, который появился в следствие эксперимента и попытки написать БД, которая будет быстро работать с сырыми, не агрегированными данными. Рассказал про внутреннюю архитектуру проекта: как устроено хранение данных, обработка запросов и взаимодействие с внешним миром. Не обошли мы стороной и тему публикации проекта в открытый доступ. Виктор рассказал о том, есть ли интерес у сообщества к проекту, чего ещё нужно сделать, чтобы проектом было легко и удобно начать пользоваться, есть ли запросы на новые фичи и пулл-реквесты. Так же Виктор поделился мнением о том, когда следует использовать ClickHouse и для какого рода задач она подходит наилучшим образом. В завершении выпуска обсудили планы по развитию проекта на ближайшее будущее.

Читать далее

SDCast #36: в гостях Дмитрий Павлов, администратор хранилищ данных банка Тинькофф

sd-podcast-logo Рад представить вам первый выпуск 2016 года, за номером 36. У меня в гостях Дмитрий Павлов, администратор хранилищ данных банка Тинькофф. В этом выпуске речь идет про хранилища данных, чем они отличаются от просто баз данных, какими отличительными возможностями они обладают, для какой нагрузки они предназначены по сравнению с RDBMS.

Дмитрий рассказал про архитектуру хранилища данных, построенную в банке Тинькофф, на чем она построена, из каких компонент состоит, как происходит загрузка данных из online-систем, как устроен ETL-процесс, что используется для расчетов, какие есть интеграции с внешними системами и как они устроены. Не обошли мы стороной и вопрос мониторинга всей системы. Дмитрий рассказал, какие метрики для хранилищ данных важны, что имеет значение, как их собирать и как за ними следить, и какие инстументы мониторинга они используют у себя.

Хранилище данных базируется на БД GreenPlum, которая, в свою очередь, базируется на PostgreSQL, из которых построено несколько кластеров, так же GreenPlum интегрирован с Hadoop и Informatica BDE, в которых производятся расчеты, а мониторится это все с помощью Graphite/Grafana/Cabot.

Читать далее

Software Development podCAST #10

sd-podcast-logo
Ну что ж, друзья! Встречайте долгожданный 10-й, можно сказать юбилейный, выпуск SDCast’а! На этот раз речь пойдет о хранилищах данных и BigData. У меня в гостях, Алексей Константинов, архитектор в компании EasyData в настоящее время, и один из ведущих архитекторов хранилища данных в компании Yota в прошлом. В этом выпуске освещаются интереснейшие вопросы устройства, внутренней архитектуры и проблемы построения хранилищ данных в общем и хранилищ на базе HP Vertica в частности.

Затрагиваются такие темы как:

  • Источники данных, вопросы их сбора и агрегации
  • Проектирование хранилищ данных
  • Проблемы масштабирования и способы их решения
  • Отказоустойчивость
  • Кластеризация и шардинг
  • История возникновения и развития HP Vertica
  • ETL процесс
  • и многое другое!

Читать далее