Уровни контроля версий данных с открытым исходным кодом LakeFS до 1,0

admin

Присоединяйтесь к событию, которым доверяют лидеры предприятия в течение почти двух десятилетий. VB Transform объединяет людей, строящих реальную стратегию ИИ предприятия. Узнать больше


Treeverse, создатели системы контроля версий данных с открытым исходным кодом, сегодня объявили о выпуске LakeFS 1.0. Это основное обновление привносит стабильность, безопасность и производительность на уровне производства в программное обеспечение управления версиями версий Data Lake.

Проект LakeFS получил свое начало еще в 2020 году и неуклонно улучшается за годы, предоставляя технологию с открытым исходным кодом, чтобы помочь организациям с контролем версий для данных на основе объектов, хранящихся в озерах данных.

Treeverse, ведущая компания, стоящая за технологией, собрала 23 миллиона долларов в 2021 году, чтобы создать концепцию, которая обеспечивает возможности, аналогичные системе управления версиями версий с открытым исходным кодом, для озеров данных. В 2022 году технология получила облачный сервис с Treeverse Lakefs Cloud, предлагающим управление версиями данных управляемой облачной службы. По словам Treeverse, подход LakeFS нашел восприимчивую аудиторию, в том числе крупные предприятия, включая Lockheed Martin, Volvo и Arm среди пользователей технологии.

Технология LakeFS 1.0 в настоящее время также может интегрироваться с другими технологиями Lake Data, включая DataBricks, а также с технологией Apache Apache с открытым исходным кодом, который все чаще широко используется поставщиками облачных данных, включая Cloudera и Snowflake и другие.

«У нас есть большая база инсталляций и действительно продукт, который отражает то, что нужно людям для контроля версий данных над озером данных»,-заявил Einat Orr, соучредитель и генеральный директор Einat Orr, в Einat Orr.

Какое управление версиями данных LakeFS привнести на рынок озера Data Lake

Управление версией данных позволяет пользователям отслеживать изменения в данных с течением времени, аналогично тем, как системы управления версиями, такие как GIT -треки, в код.

Благодаря системе управления версиями GIT с открытым исходным кодом, то есть в основе GitHub и большей части современной разработки приложений, существует концепция возможности иметь разные версии кода и разных ветвей. Это очень популярный подход к развитию, который LakeFS распространил на мир данных, хранящихся в озерах данных.

Идея развертывания версий в развертываниях озера данных имеет много нюансов, поскольку несколько поставщиков и технологий имеют различные степени возможности управления версиями. Орр отметил, что, хотя другие технологии, включая DataBricks и Apache Araceberg, могут разрешить создание версий таблиц или схем, это отличается от полной системы управления версиями данных.

Орр объяснил, что LakeFS предоставляет полный опыт управления версией во всем озеро организации, а не только конкретные таблицы или схемы. Это позволяет совместно разглашать все трубопроводы и рабочие процессы. Технология LakeFS хранит метаданные о каждой версии и изменениях, которые важны для воспроизводимости и интеграции.

Treeverse не обязательно позиционирует LakeFS в качестве конкурента для таких технологий, как DataBricks или Apache Areberg, а скорее как дополнительная технология, которая предоставляет пользователям дополнительные преимущества. ORR также отметил, что LakeFS интегрируется с инструментами оркестровки данных, включая воздушный поток Apache, префект и дагстер, внедряя мощность управления версией данных в рабочем процессе трубопровода данных.

Пересечение Lakefs и AI

Существует ряд различных анализов данных и вариантов использования ИИ для технологии LakeFS.

Рассматривая ИИ и машинное обучение (МЛ), Орр сказал, что один из интересных вариантов использования заключается в том, что ученые по данным могут использовать LakeFS для данных локально для целей разработки и тестирования моделей через новые локальные возможности LakeFS.

Орр объяснил, что ученые по данным и разработчики моделей AI/ML часто сталкиваются с большим количеством данных. Тем не менее, она отметила, что для тестирования и разработчиков разработчики иногда будут проводить исследования в своих местных системах, что помогает обеспечить новые возможности LakeFS.

В ожидании, Орр сказала, что ее компания находится на ранних стадиях выяснения, как интегрировать и обеспечить возможность управления версиями данных для технологий векторной базы данных.

«Наше видение состоит в том, чтобы быть инструментом управления версиями, который работает над всеми вашими источниками данных, и предоставляет вам возможность контролировать ваши конвейеры по данным, независимо от того, где находятся данные», — сказала она.



Источник

Рекомендуем

Оставить комментарий