Архив метки: Data Warehouse

SDCast #36: в гостях Дмитрий Павлов, администратор хранилищ данных банка Тинькофф

sd-podcast-logo Рад представить вам первый выпуск 2016 года, за номером 36. У меня в гостях Дмитрий Павлов, администратор хранилищ данных банка Тинькофф. В этом выпуске речь идет про хранилища данных, чем они отличаются от просто баз данных, какими отличительными возможностями они обладают, для какой нагрузки они предназначены по сравнению с RDBMS.

Дмитрий рассказал про архитектуру хранилища данных, построенную в банке Тинькофф, на чем она построена, из каких компонент состоит, как происходит загрузка данных из online-систем, как устроен ETL-процесс, что используется для расчетов, какие есть интеграции с внешними системами и как они устроены. Не обошли мы стороной и вопрос мониторинга всей системы. Дмитрий рассказал, какие метрики для хранилищ данных важны, что имеет значение, как их собирать и как за ними следить, и какие инстументы мониторинга они используют у себя.

Хранилище данных базируется на БД GreenPlum, которая, в свою очередь, базируется на PostgreSQL, из которых построено несколько кластеров, так же GreenPlum интегрирован с Hadoop и Informatica BDE, в которых производятся расчеты, а мониторится это все с помощью Graphite/Grafana/Cabot.
Читать далее SDCast #36: в гостях Дмитрий Павлов, администратор хранилищ данных банка Тинькофф

Скачать (mp3, 25 MB) Скачать (ogg, 29 MB)

Software Development podCAST #10

sd-podcast-logo
Ну что ж, друзья! Встречайте долгожданный 10-й, можно сказать юбилейный, выпуск SDCast’а! На этот раз речь пойдет о хранилищах данных и BigData. У меня в гостях, Алексей Константинов, архитектор в компании EasyData в настоящее время, и один из ведущих архитекторов хранилища данных в компании Yota в прошлом. В этом выпуске освещаются интереснейшие вопросы устройства, внутренней архитектуры и проблемы построения хранилищ данных в общем и хранилищ на базе HP Vertica в частности.

Затрагиваются такие темы как:

  • Источники данных, вопросы их сбора и агрегации
  • Проектирование хранилищ данных
  • Проблемы масштабирования и способы их решения
  • Отказоустойчивость
  • Кластеризация и шардинг
  • История возникновения и развития HP Vertica
  • ETL процесс
  • и многое другое!

Читать далее Software Development podCAST #10

Скачать (mp3, 37 MB)