Google Cloud Bigtable: петабайтная база данных NoSQL для масштабируемых вычислений – Дмитрий Тимофеев

YOUTUBE · 22.11.2025 04:26

Ключевые темы и таймкоды

Введение в Bigtable

0:22
  • Bigtable - технология, лежащая в основе всех сервисов Google с многомиллиардными пользователями.
  • Bigtable используется для обработки петабайтов данных, обеспечения предсказуемой задержки и высокой пропускной способности.

История Bigtable

3:03
  • Разработка и первоначальная реализация Bigtable началась в 2004 году.
  • Bigtable была разработана для очень больших наборов данных, с сотнями и тысячами атрибутов.

Cloud Bigtable

9:56
  • Cloud Bigtable - сервис для работы с большими базами данных NoSQL.
  • Обеспечивает те же услуги, что и Bigtable, с высокой пропускной способностью и предсказуемой задержкой.

Пропускная способность и масштабируемость

13:23
  • Добавление узлов происходит в полностью линейном режиме с увеличением масштаба.
  • При добавлении узлов пропускная способность увеличивается.
  • Реальные цифры: 300 узлов - 3 миллиона QPS.

Введение в Bigtable

14:56
  • В видео рассказывается о том, как включить двухэтапную проверку в облачной консоли для защиты учетной записи от взломов и фишинга.
  • Затем автор переходит к демонстрации того, как запустить свой собственный кластер Bigtable и начать его использовать.
  • Он также упоминает, что если у вас есть вопросы или хотите узнать больше, вы можете получить подарок, который позволит вам запустить свой собственный кластер для экспериментов.

Подключение и использование Bigtable

16:01
  • Автор объясняет, как создать пользовательский интерфейс и использовать его для подключения к Bigtable.
  • Он также упоминает о различных клиентах, которые можно использовать для подключения, включая клиент Python и инструмент командной строки CBT.

Интеграция с Hadoop и Apache Spark

21:45
  • Автор рассказывает о том, как Bigtable может быть интегрирована с Hadoop и Apache Spark.
  • Он упоминает о различных операциях, которые поддерживает Bigtable, и о том, как они могут быть использованы для обработки данных в больших масштабах.

Облачный поток данных

25:00
  • Автор объясняет, что после хранения данных в Bigtable, необходимо иметь возможность обрабатывать их в больших масштабах.
  • Он представляет облачный поток данных, который может подключаться к Bigtable и обрабатывать данные автоматически.
  • Он также упоминает о других хранилищах данных, которые могут быть использованы вместе с потоком данных, включая Bigtable, BigQuery и классическое хранилище данных.

Использование Google Cloud Dataproc

27:46
  • Видео обсуждает использование Google Cloud Dataproc для запуска запросов Hive или Spark поверх существующих процессоров обработки.
  • Это позволяет разработчикам сосредоточиться на своей работе, а не на управлении кластером и выполнении заданий.
  • Dataproc предоставляет API для отправки заданий, выполнения полного сканирования больших таблиц и получения выходных данных.

Планирование заданий и экономия ресурсов

29:17
  • Dataproc API позволяет запускать обработку данных только тогда, когда это необходимо, что экономит ресурсы и время.
  • Плата за использование кластера взимается только тогда, когда он используется, что позволяет избежать ненужных затрат.

Выбор базы данных

30:01
  • В Google есть множество различных стратегий и продуктов, таких как BigQuery, Cloud SQL и Firebase.
  • Для выбора подходящего варианта рекомендуется использовать дерево решений, доступное на сайте компании.