Dataiku Data Science Studio (DSS) – это платформа, которая пытается удовлетворить потребности специалистов по данным, инженеров данных, бизнес-аналитиков и потребителей искусственного интеллекта. В основном это удается. Кроме того, Dataiku DSS пытается охватить весь процесс машинного обучения, то есть от подготовки данных до MLOps и поддержки приложений. Опять же, в основном это удается.

Пользовательский интерфейс Dataiku DSS представляет собой комбинацию графических элементов, блокнотов и кода, как мы увидим позже в обзоре. Как пользователь, у вас часто есть выбор, как вы хотите продолжить, и обычно вы не ограничены своим первоначальным выбором, учитывая, что графические варианты могут создавать редактируемые записные книжки и сценарии.

Во время моего первоначального обсуждения с Dataiku их старший менеджер по маркетингу продуктов прямо спросил меня, предпочитаю ли я графический интерфейс или писать код для науки о данных. Я сказал: «Обычно я заканчиваю писать код, но я буду использовать графический интерфейс, когда это быстрее и проще». Это встретило одобрение: многие из их клиентов придерживаются такого же прагматичного отношения.

Dataiku конкурирует практически со всеми платформами обработки данных и машинного обучения, но также является партнером некоторых из них, включая Microsoft Azure, Databricks, AWS и Google Cloud. я полагаю KNIME аналогично DSS в использовании блок-схем и по крайней мере полдюжины платформ, аналогичных DSS в использовании ноутбуков Jupyter, включая четырех партнеров, о которых я упоминал. DSS похож на DataRobot, H2O.ai, и другие в реализации AutoML.

Возможности Dataiku DSS

Датику говорит, что это ключевые возможности это подготовка данных, визуализация, машинное обучение, DataOps, MLOps, аналитические приложения, совместная работа, управление, объяснимость и архитектура. Он поддерживает дополнительные возможности через плагины.

Подготовка данных Dataiku включает визуальный поток, в котором пользователи могут создавать конвейеры данных с наборами данных, рецептами для объединения и преобразования наборов данных, а также кодом и многократно используемыми элементами подключаемых модулей.

Dataiku выполняет быстрый визуальный анализ столбцов, включая распределение значений, верхние значения, выбросы, инвалидность и общую статистику. Для категориальных данных визуальный анализ включает распределение по значению, включая количество и% значений для каждого значения. Возможности визуализации позволяют выполнять исследовательский анализ данных, не прибегая к Tableau, хотя Dataiku и Tableau являются партнерами.

Машинное обучение Dataiku включает AutoML и разработку функций, как показано на рисунке ниже. Каждый проект Dataiku имеет визуальный поток DataOps, включая конвейер наборов данных и рецептов, связанных с проектом.

dataiku 02 IDG

Dataiku DSS предлагает три типа моделей AutoML и три типа экспертных моделей.

Для MLOps унифицированное средство развертывания Dataiku управляет перемещением файлов проекта между узлами проектирования Dataiku и производственными узлами для пакетной оценки и оценки в реальном времени. Пакеты проектов включают в себя все, что нужно проекту, от среды разработки до работы в производственной среде.

Dataiku позволяет легко создавать информационные панели проекта и делиться ими с бизнес-пользователями. Визуальный поток Dataiku – это холст, на котором команды работают над проектами данных; он также представляет DataOps и обеспечивает простой способ доступа к деталям отдельных шагов. Разрешения Dataiku определяют, кто в команде может получать доступ, читать и изменять проект.

Dataiku предоставляет критически важные возможности для объяснимого ИИ, включая отчеты о важности функций, графики частичной зависимости, анализ подгруппы населения и объяснения индивидуальных прогнозов. Это в дополнение к предоставлению интерпретируемых моделей.

DSS имеет большую коллекцию плагины и коннекторы. Например, модели прогнозирования временных рядов поставляются в виде подключаемого модуля; так же поступают интерфейсы к сервисам искусственного интеллекта и машинного обучения AWS и Google Cloud, таким как API Amazon Rekognition для компьютерного зрения, машинное обучение Amazon SageMaker, Google Cloud Translation и Google Cloud Vision. Не все плагины и соединители доступны для всех планов.

Dataiku нацелен на специалистов по обработке данных, инженеров по обработке данных, бизнес-аналитиков и потребителей искусственного интеллекта. Я прошел через учебник Dataiku Data Scientist, который, кажется, наиболее соответствует моим навыкам, и делал снимки экрана по ходу.

dataiku 03 IDG

В настоящее время Dataiku предлагает краткие руководства для четырех человек: бизнес-аналитиков, специалистов по обработке данных, инженеров по обработке данных и потребителей искусственного интеллекта.

Dataiku подготовка и визуализация данных

Исходное состояние потоков в этом руководстве отражает то, что некоторые из настроек, поиска данных, очистки данных и присоединения выполняются кем-то другим, предположительно аналитиком данных или инженером по данным. В командных усилиях это вполне вероятно. Для соло-практикующего это не так. Dataiku может поддерживать оба варианта использования, но приложил значительные усилия для поддержки групп на предприятиях.

dataiku 04 IDG

Учебное пособие Dataiku DSS Data Scientist Quick Start содержит два потока: один для подготовки данных, а второй – для оценки модели.

Щелчок по значку набора данных в потоке вызывает его на листе.

dataiku 05 IDG

Dataiku DSS отображает табличные данные в виде таблицы. Обратите внимание на затенение отсутствующих значений.

Показывать данные полезно, но разведочный анализ данных даже полезнее. Здесь мы создаем записную книжку Jupyter для одного набора данных, который, в свою очередь, был создан путем объединения двух подготовленных наборов данных.

Здесь я должен немного пожаловаться. Все готовые или сгенерированные записные книжки, которые я использовал, были написаны на Python 2, но это больше не является допустимой средой DSS, поскольку Python 2 (наконец-то) устарел Python Software Foundation. Мне пришлось отредактировать множество ячеек записной книжки для Python 3, что раздражало и отнимало много времени. К счастью, это было довольно просто: наиболее частым решением было добавление круглых скобок вокруг аргументов print функции, которые требуются в Python 3. Dataiku действительно стоит обновить свои шаблоны записных книжек для Python 3.

dataiku 06 IDG

В Dataiku DSS есть ряд предопределенных шаблонов для записных книжек, которые могут визуализировать наборы данных.

Созданный блокнот использует стандартные библиотеки Python, такие как Pandas, Matplotlib, Seaborn и SciPy, для обработки данных, создания графиков и вычисления описательной статистики.

dataiku 07 IDG

Пара щелчков мышью и несколько секунд вычислений создали этот блокнот, который выполняет исследовательский анализ данных для одного набора данных. Ноутбук продолжает отображать более интересную графику и описательную статистику, такую ​​как коробчатые диаграммы и тесты Шапиро-Уилка.

Машинное обучение Dataiku и оценка моделей

Прежде чем я смог что-либо сделать с зоной потока Model Assessment, мне пришлось добавить рецепт, чтобы проверить, не превышает ли доход клиента конкретную барьерную переменную, которая определяется глобально. Рецепт создал high_value набор данных, в котором есть дополнительный столбец для классификации. Как правило, рецепты в потоке (кроме шагов подготовки данных, которые удаляют строки или столбцы) добавляют столбец с новыми вычисленными значениями. Затем мне пришлось построить все выходные потоки, доступные на этапе разделения.

dataiku 08 IDG

Шаг разделения просматривает столбец data_source и использует его для разделения вывода на тестовые и обучающие наборы данных. Контекстное меню, вызываемое щелчком правой кнопкой мыши, дает доступ, среди прочего, к «Выходные данные Build Flow, доступные отсюда».

Dataiku AutoML, интерпретируемые модели и высокопроизводительные модели

В этом руководстве мы переходим к созданию и запуску сеанса AutoML с интерпретируемыми моделями, такими как Случайный лес, а не высокопроизводительными моделями (просто другой исходный выбор моделей) или моделями глубокого обучения (Keras / TensorFlow, с использованием кода Python). Как оказалось, в моем облачном экземпляре Booster Plan Dataiku не было среды Python, которая могла бы поддерживать глубокое обучение, и не было графических процессоров. Оба могут быть добавлены с использованием более дорогого плана Orbit, который также добавляет поддержку распределенной Spark.

Я был ограничен тренировкой в ​​памяти с Scikit-Learn и кастомные модели на двух процессорах, что было хорошо для исследовательских целей. Большинство параметров проектирования функций в модели DSS AutoML были отключены для целей данного руководства. Это было хорошо для учебных целей, но я бы использовал их для настоящего проекта по науке о данных.

dataiku 09 IDG

Этот сеанс AutoML с использованием интерпретируемых моделей, включая пользовательские модели, показал, что Random Forest дал наибольшую площадь под кривой ROC (рабочая характеристика приемника). Цена первого приобретенного товара и возраст покупателя были самыми важными переменными, влияющими на прогнозирование ценных клиентов.

Развертывание Dataiku и MLOps

Найдя выигрышную модель в сеансе AutoML, я развернул ее и исследовал некоторые особенности MLOps DSS, используя сценарии. Сценарий, поставляемый с потоком для этого руководства, использует сценарий Python для перестроения модели и замены развернутой модели, если новая модель имеет более высокое значение ROC AUC. В упражнении по проверке этой возможности используется внешняя переменная для изменения определения особо ценного клиента, что не так уж и интересно, но делает упор на автоматизацию MLOps.

В целом Dataiku DSS – очень хорошая сквозная платформа для анализа данных, инженерии данных, анализа данных, MLOps и просмотра AI. Цены на самообслуживание в облаке разумны, но недешевы; то основа для предприятия разумная цена, хотя у меня нет конкретной информации о ее действительный ценообразование предприятия.

Dataiku изо всех сил пытается поддержать непрограммистов в DSS с помощью графического интерфейса и визуального машинного обучения. Визуальные аспекты продукта позволяют создавать записные книжки с кодом, который программист может настраивать, что экономит много времени.

Однако я не совсем уверен, что «гражданские специалисты по данным», не занимающиеся программированием, могут эффективно выполнять инженерию и анализ данных, даже с использованием всех инструментов и обучения, которые предоставляет Dataiku. Группам по анализу данных нужен как минимум один член, который может программировать, и как минимум один член, обладающий интуицией для проектирования функций и построения моделей, не обязательно один и тот же человек. В худшем случае вам, возможно, придется полагаться на консультантов Dataiku за советом.

Конечно, стоит сделать бесплатную оценку Dataiku DSS. Вы можете использовать либо загруженную версию Community Edition (бесплатно навсегда, три пользователя, файлы или базы данных с открытым исходным кодом), либо 14-дневную облачную пробную версию (пять пользователей, два процессора, 16 ГБ ОЗУ, 100 ГБ плюс облачное хранилище BYO).

Расходы

Размещенные облачные планы самообслуживания: План зажигания: 348 долларов в месяц, 1 ЦП, 8 ГБ ОЗУ, 100 ГБ облачного хранилища, загрузка файлов, DSS плюс Python, один пользователь. План Booster: 1128 долларов в месяц, 2 процессора, 16 ГБ ОЗУ, 100 ГБ плюс облачное хранилище BYO, файлы плюс базы данных плюс приложения, DSS плюс Python плюс Snowflake, пять пользователей. План Orbit: 1700 долларов в месяц и выше, добавляет Spark, масштабируемые ресурсы, 10 пользователей.

Планы локального / собственного облака: Community Edition: бесплатно, до трех пользователей. Discover Edition (до пяти пользователей), Business Edition (до 20 пользователей), Enterprise Edition: цены на основе подписки зависят от типа лицензии, количества пользователей и типа пользователей (дизайнеры или исследователи).

Платформа

Dataiku Cloud; Linux x86-x64, оперативная память 16 ГБ; macOS 10.12+ (только ознакомительная версия); Amazon EC2, Google Cloud, Microsoft Azure, VirtualBox, VMware. 64-битный JDK или JRE, Python, R. Поддерживаемые браузеры: последние версии Chrome, Firefox и Edge.

Авторские права © 2021 IDG Communications, Inc.


#Обзор #Dataiku #наука #данных #подходит #для #предприятий

Source link