Представлен выпуск распределённой СУБД Apache Cloudberry 2.0.0, продолжающей развитие открытой кодовой базы СУБД Greenplum, которая была превращена компанией Broadcom в закрытый продукт после приобретения VMware. Apache Cloudberry 2.0.0 отмечен как первый выпуск проекта, после передачи кода сообществу Apache. Проект пока находится в инкубаторе Apache и будет переведён в число первичных проектов Apache после готовности инфраструктуры и сопровождающих.
СУБД Cloudberry представляет собой распределённую редакцию открытой СУБД PostgreSQL, оптимизированную для выполнения аналитических запросов над большими массивами данных (Data Warehouse). Для параллельной обработки данных применяется массово-параллельная архитектура (MPP, massively parallel processing), обеспечивающая масштабируемость хранилища до петабайтных размеров за счёт разделения данных на сегменты и задействования для их хранения и обработки кластера из группы серверов.
Среди улучшений в Apache Cloudberry 2.0.0:
- Осуществлён переход на кодовую базу PostgreSQL 14 (Greenplum базировался на PostgreSQL 12).
- Добавлена поддержка динамических таблиц, позволяющих автоматически обновлять результаты запросов. Новая возможность полезна при необходимости работы с актуальными данными, например, для анализа данных в режиме реального времени, архитектур Lakehouse и автоматизированных обработчиков ETL (Extract, Transform, Load).
- Реализован новый гибридный формат хранилища PAX (Partition Attributes Across), сочетающий возможности хранилищ на основе строк и столбцов. Формат PAX позволяет добиться высокой производительности как при высокой нагрузке на запись, так и при выполнении аналитических запросов.
- Значительно оптимизировано планирование и выполнение распределённых запросов.
- Улучшено управление ресурсами: повышена эффективность работы с памятью и CPU на узлах кластера.
- Улучшено распределение данных по узлам и параллельная обработка запросов.
- Расширены стратегии резервного копирования в распределённых окружениях.
- Информация о лицензиях и оформление заголовков файлов с кодом приведены к соответствию требованиям Фонда Apache. Из релизов в исходном коде исключены бинарные артефакты.
- Улучшен процесс сборки компонентов проекта на языках C++ и Python.