DataBricks с открытым исходным кодом Декларативная ETL-структура питания на 90% более быстрые конвейеры

admin

Присоединяйтесь к событию, которым доверяют лидеры предприятия в течение почти двух десятилетий. VB Transform объединяет людей, строящих реальную стратегию ИИ предприятия. Узнать больше


Сегодня, на своем ежегодном саммите данных + AI, DataBricks объявил, что он открыт свой основной декларативный ETL-структуру в качестве декларативных трубопроводов Apache Spark, что делает его доступным для всего сообщества Apache Spark в предстоящем выпуске.

DataBricks запустила фреймворк как Delta Live Tables (DLT) в 2022 году и с тех пор расширил это до Помогите командам создавать и управлять надежными, масштабируемыми конвейерными трубопроводами. Переход к открытым исходным кодам он усиливает приверженность компании открывать экосистемы, отмечая усилия для одноразового соперника, которая недавно запустила свою собственную услугу OpenFlow для интеграции данных-важнейшего компонента разработки данных.

Предложение Snowflake Taps Apache Nifi для централизации любых данных из любого источника в свою платформу, в то время как DataBricks делает свои собственные технологии конвейеры открытыми, позволяя пользователям запускать ее в любом месте Apache Spark, а не только на собственной платформе.

Объявить трубопроводы, пусть закрасните остальным

Традиционно, инженерия данных была связана с тремя основными болевыми точками: сложные авторизации трубопровода, накладные расходы ручных операций и необходимость поддерживать отдельные системы для партийных и потоковых рабочих нагрузок.

С помощью декларативных трубопроводов Spark инженеры описывают, что должен делать их трубопровод, используя SQL или Python, а Apache Spark обрабатывает выполнение. Структура автоматически отслеживает зависимости между таблицами, управляет созданием и эволюцией таблицы и обрабатывает рабочие задачи, такие как параллельное выполнение, контрольно -пропускные пункты и повторные изделия в производстве.

«Вы объявляете серию наборов данных и потоков данных, а Apache Spark выясняет правильный план выполнения», — сказал в интервью VentureBeat, Майкл Армбруст, отличительный инженер программного обеспечения в DataBricks.

Структура поддерживает пакетные, потоковые и полуструктурированные данные, включая файлы из систем хранения объектов, таких как Amazon S3, ADL или GC, из коробки. Инженеры просто должны определить как в режиме реального времени, так и периодическую обработку через один API, при этом определения трубопроводов подтверждены перед выполнением, чтобы рано улавливать проблемы-нет необходимости поддерживать отдельные системы.

«Он предназначен для реалий современных данных, таких как переводы данных, шины сообщений и аналитики в реальном времени, которые питают системы ИИ. Если Apache Spark может обработать их (данные), эти трубопроводы могут справиться с ним»,-пояснил Армбруст. Он добавил, что декларативный подход отмечает последние усилия от данных DataBricks, чтобы упростить Apache Spark.

«Во-первых, мы сделали функциональную функцию распределенных вычислений с RDDS (устойчивые распределенные наборы данных). Затем мы сделали декларативную декларативную выполнение запроса Spark SQL. Мы принесли ту же модель для потоковой передачи со структурированным потоковым потоком и сделали облачное хранение с помощью Delta Lake. Теперь мы предпринимаем следующий скачок создания экономных трубопроводов»,-сказал он.

Проверено в масштабе

В то время как декларативная структура трубопровода установлена ​​для того, чтобы быть приверженной базой кодовой Spark, ее мастерство уже известно тысячам предприятий, которые использовали ее в рамках решения DataBricks для обработки рабочих нагрузок, начиная от ежедневных отчетов о пакетах и ​​заканчивая приложениями потокового передачи.

Преимущества довольно одинаковы по всем направлениям: вы тратите гораздо меньше времени на разработку трубопроводов или на задачи технического обслуживания и достигаете гораздо лучших производительности, задержки или затрат, в зависимости от того, для чего вы хотите оптимизировать.

Компания Financial Services Block использовала структуру для сокращения времени разработки более чем на 90%, в то время как федеральный федеральный кредитный союз ВМС сократил время обслуживания трубопроводов на 99%. Структурированный потоковый двигатель Spark, на котором строятся декларативные трубопроводы, позволяет командам адаптировать трубопроводы для их конкретных задержек, вплоть до потоковой передачи в реальном времени.

«Как инженерный менеджер, мне нравится тот факт, что мои инженеры могут сосредоточиться на том, что наиболее важно для бизнеса», — сказал Цзянь Чжоу, старший инженерный менеджер военно -морского флота Федерального кредитного союза. «Захватывающе видеть, что этот уровень инноваций теперь открывается с открытым исходным кодом, что делает его доступным для еще большего количества команд».

Брэд Тернбо, старший инженер данных на 84,51 °, отметил, что структура «облегчила поддержку как партии, так и потоковой передачи, не сшивая отдельные системы», одновременно уменьшая объем кода, который должен управлять его командой.

Отличный подход от снежинки

Snowflake, один из крупнейших соперников Databricks, также предпринял шаги на своей недавней конференции по решению проблем с данными, дебютировав в службе приема под названием OpenFlow. Тем не менее, их подход немного отличается от подхода данных DataBricks с точки зрения объема.

OpenFlow, построенный на Apache NIFI, фокусируется в первую очередь на интеграции данных и перемещении в платформу Snowflake. Пользователям по -прежнему нужно чистить, преобразовать и собирать данные, как только они прибывают в снежинка. С другой стороны, Spark Declarative Tipelines выходит за рамки перехода от источника к полезным данным.

«Spark Declarative Pipelines создан для того, чтобы позволить пользователям раскрутить сквозные конвейеры данных-сосредоточив внимание на упрощении преобразования данных и сложных операциях с трубопроводом, которые лежат в основе этих преобразований»,-сказал Армбруст.

Природа с открытым искравными декларативными трубопроводами также отличает его от проприетарных решений. Пользователям не нужно быть клиентами DataBricks для использования технологии, согласуясь с историей компании, внося вклад в крупные проекты, такие как Delta Lake, Mlflow и Unity Catalog для сообщества с открытым исходным кодом.

Временная шкала доступности

Декларативные трубопроводы Apache Spark будут посвящены кодовой базе Apache Spark в предстоящем выпуске. Точный график, однако, остается неясным.

«Мы были взволнованы перспективой открытых источников нашей декларативной структуры трубопровода с тех пор, как мы его запустили»,-сказал Армбруст. «За последние 3 с лишним лет мы многое узнали о моделях, которые работают лучше всего, и исправили те, которые нуждались в хорошей настройке. Теперь это доказано и готово к процветанию под открытым небом».

Развертывание с открытым исходным кодом также совпадает с общей доступностью DataBricks Declarative Pipelines, коммерческой версии технологии, которая включает в себя дополнительные предприятия и поддержку.

DataBricks Data + AI Summit работает с 9 по 12 июня 2025 года.



Источник

Рекомендуем

Оставить комментарий