Выпуск Apache Cloudberry 2.0.0, открытой альтернативы СУБД Greenplum

Представлен выпуск распределённой СУБД Apache Cloudberry 2.0.0, продолжающей развитие открытой кодовой базы СУБД Greenplum, которая была превращена компанией Broadcom в закрытый продукт после приобретения VMware. Apache Cloudberry 2.0.0 отмечен как первый выпуск проекта, после передачи кода сообществу Apache. Проект пока находится в инкубаторе Apache и будет переведён в число первичных проектов Apache после готовности инфраструктуры и сопровождающих.

СУБД Cloudberry представляет собой распределённую редакцию открытой СУБД PostgreSQL, оптимизированную для выполнения аналитических запросов над большими массивами данных (Data Warehouse). Для параллельной обработки данных применяется массово-параллельная архитектура (MPP, massively parallel processing), обеспечивающая масштабируемость хранилища до петабайтных размеров за счёт разделения данных на сегменты и задействования для их хранения и обработки кластера из группы серверов.

Среди улучшений в Apache Cloudberry 2.0.0:

  • Осуществлён переход на кодовую базу PostgreSQL 14 (Greenplum базировался на PostgreSQL 12).
  • Добавлена поддержка динамических таблиц, позволяющих автоматически обновлять результаты запросов. Новая возможность полезна при необходимости работы с актуальными данными, например, для анализа данных в режиме реального времени, архитектур Lakehouse и автоматизированных обработчиков ETL (Extract, Transform, Load).
  • Реализован новый гибридный формат хранилища PAX (Partition Attributes Across), сочетающий возможности хранилищ на основе строк и столбцов. Формат PAX позволяет добиться высокой производительности как при высокой нагрузке на запись, так и при выполнении аналитических запросов.
  • Значительно оптимизировано планирование и выполнение распределённых запросов.
  • Улучшено управление ресурсами: повышена эффективность работы с памятью и CPU на узлах кластера.
  • Улучшено распределение данных по узлам и параллельная обработка запросов.
  • Расширены стратегии резервного копирования в распределённых окружениях.
  • Информация о лицензиях и оформление заголовков файлов с кодом приведены к соответствию требованиям Фонда Apache. Из релизов в исходном коде исключены бинарные артефакты.
  • Улучшен процесс сборки компонентов проекта на языках C++ и Python.
Release. Ссылка here.