Apache NiFi: Основы потоковой обработки данных ETL.

Name: Apache NiFi: Основы потоковой обработки данных ETL.
Rating: 4.4 (5 reviews)

Изучите мощный инструмент для создания эффективных ETL-пайплайнов и управления данными

Created byNikita Kozachevskyi

Last updated 6/2026

Russian

What you'll learn

После прохождения курса Вы научитесь строить цепочки ETL.
После прохождения курса Вы овладеете навыками создания эффективных потоков данных, интеграции различных источников и управления процессами в Apache NiFi.
После прохождения курса вы овладеете ETL инструментом Apache NiFi
После прохождения курса вы овладеете ETL-инструментом Apache NiFi, умея создавать, настраивать и оптимизировать потоки данных.

Course content

8 sections • 29 lectures • 3h 25m total length

Apache NiFi Установка локального сервера Windows3:06
Шаги урока:
Выбор версии и загрузка: Первым шагом является выбор подходящей версии Apache NiFi с официального сайта (ссылка в разделе "Вешний ресурс"). Загрузите архив с последней версией для вашей операционной системы.
Распаковка архива: После завершения загрузки распакуйте скачанный архив в папку на вашем компьютере. На Windows, вы можете использовать встроенный в ОС архиватор, а на Linux и macOS можно воспользоваться командной строкой или программами для архивации.
Настройка конфигурации (по желанию): В папке с распакованным архивом найдите файл nifi.properties, в котором можно настроить различные параметры, такие как порт HTTP-сервера, размер памяти Java и другие.
Запуск Apache NiFi: После настройки перейдите в директорию, в которую был распакован архив, и выполните запуск Apache NiFi. На Windows это может быть файл nifi.bat, на Linux и macOS - nifi.sh. После запуска откройте веб-браузер и перейдите по адресу (ссылка в разделе внешних ресурсах), чтобы получить доступ к веб-интерфейсу управления.
Проверка работоспособности: Убедитесь, что Apache NiFi успешно запустился и вы видите веб-интерфейс управления. По умолчанию, вы будете перенаправлены на страницу "Flow Status", где вы сможете увидеть текущий статус системы.
Поздравляю, вы успешно установили Apache NiFi на вашем компьютере!
Apache NiFi Установка локального сервера Ubuntu7:56
Цель урока: Изучить процесс установки и настройки локального сервера Apache NiFi на платформе Ubuntu для работы с потоковой обработкой данных.
Описание урока:
Введение в Apache NiFi:
Обзор возможностей Apache NiFi для управления потоками данных и его применение в различных сценариях обработки информации.
Понимание ключевых концепций NiFi, таких как процессоры, очереди и потоки данных.
Шаг 1: Установка Java JDK 8
Обновление пакетов системы и установка Java Development Kit (JDK).
Проверка установки Java и нахождение каталога установки, а также настройка переменной окружения JAVA_HOME.
Шаг 2: Загрузка и установка Apache NiFi
Загрузка и распаковка Apache NiFi на локальном сервере.
Шаг 3: Запуск Apache NiFi
Запуск, перезапуск и остановка сервера Apache NiFi с помощью соответствующих команд.
Шаг 4: Установка Nano
Установка текстового редактора Nano для редактирования конфигурационных файлов и настройка необходимых параметров.
Шаг 5: Получение учетных данных для доступа к Apache NiFi
Поиск файла nifi-app.log для получения сгенерированных учетных данных для доступа к веб-интерфейсу, включая сгенерированные логин и пароль.
Тестирование и отладка:
Проверка работоспособности настроенного сервера и мониторинг потоков данных через интерфейс NiFi.
Лучшие практики и советы:
Рекомендации по оптимизации конфигурации Apache NiFi для повышения производительности, а также советы по обработке ошибок и настройке резервного копирования.
Этот урок поможет освоить установку и базовую настройку локального сервера Apache NiFi на Ubuntu, что позволит начать работу с потоковой обработкой данных и исследовать возможности NiFi для интеграции и трансформации информации.

Знакомство с интерфейсом Apache NiFi9:31
В этом уроке мы подробно разберем пользовательский интерфейс (UI) Apache NiFi и поможем вам понять его основные компоненты. Вот что мы рассмотрим:
Навигация по интерфейсу: изучим расположение элементов, панель инструментов и рабочее пространство.
Процессоры и группы процессов: как добавлять, настраивать и управлять компонентами.
Соединения и очереди: управление потоками данных между процессорами.
Мониторинг и логирование: отслеживание движения данных и выявление проблем.
К концу этого урока вы освоите работу с интерфейсом NiFi и будете готовы к созданию своего первого потока данных. Приступим!

Работа с процессором GetFile в Apache NiFi2:56
В этом уроке мы познакомимся с процессором GetFile в Apache NiFi, который используется для получения файлов из локальной файловой системы и их обработки в потоках данных.
Разберем принцип работы GetFile и его основные настройки.
Узнаем, как указать директорию для чтения файлов.
Рассмотрим параметры удаления или перемещения обработанных файлов.
Подключим GetFile к другим процессорам для создания потока данных.
После этого урока вы сможете использовать GetFile для автоматического чтения файлов и их дальнейшей обработки в NiFi.
Работа с процессором GenerateFlowFile в Apache NiFi3:59
В этом видео мы познакомимся с процессором GenerateFlowFile в Apache NiFi. Этот процессор используется для генерации тестовых FlowFile, что особенно полезно при отладке и тестировании потоков данных.
Вы узнаете:
Что такое GenerateFlowFile и зачем он нужен
Как его настроить и какие параметры можно изменить
Как использовать его для создания тестовых данных
Этот урок поможет вам освоить основы работы с данным процессором и понять его роль в построении потоков данных в NiFi.
Работа с процессором InvokeHTTP в Apache NiFi4:01
В этом видео мы рассмотрим процессор InvokeHTTP в Apache NiFi. Этот процессор позволяет отправлять HTTP-запросы и получать данные из внешних API, веб-сервисов или других источников.
Вы узнаете:
Какие задачи решает InvokeHTTP
Как настроить основные параметры запроса (URL, метод, заголовки)
Как обработать полученные ответы
Этот урок поможет вам понять, как интегрировать NiFi с внешними системами и работать с HTTP-запросами в потоках данных.
Работа с процессором ConvertExcelToCSVProcessor в Apache NiFi5:09
В этом видео мы познакомимся с процессором ConvertExcelToCSVProcessor в Apache NiFi. Этот процессор используется для преобразования файлов Excel в формат CSV, что упрощает дальнейшую обработку и анализ данных.
Вы узнаете:
Для чего нужен ConvertExcelToCSVProcessor
Как настроить процессор для корректного преобразования данных
Какие параметры можно изменить и как это влияет на выходные данные
Этот урок поможет вам понять, как эффективно работать с Excel-файлами в NiFi и конвертировать их в удобный для обработки формат.
Работа с процессором UpdateRecord в Apache NiFi5:23
В этом видео мы познакомимся с процессором UpdateRecord в Apache NiFi. На примере файла username.csv, полученного с локального компьютера с помощью GetFile, мы рассмотрим, как добавить уникальные идентификаторы (UUID) в каждую строку данных и преобразовать формат выходных данных.
Вы узнаете:
Как настроить процессор UpdateRecord для добавления UUID в контекст каждой записи
Как использовать CSVReader и JsonRecordSetWriter для преобразования данных из CSV в JSON
Какие настройки важны для корректной обработки записей и сохранения структуры данных
Этот урок поможет вам понять, как обогащать и трансформировать поток данных с помощью UpdateRecord, а также как переходить между различными форматами данных в Apache NiFi.

Apache NiFi Интеграция данных с использованием разбор и загрузка JSON10:40
Шаги урока:
Введение в JSON: Мы начнем с краткого обзора формата JSON (JavaScript Object Notation) и его основных характеристик. Рассмотрим структуру JSON и примеры его использования.
Подготовка данных: Подготовим пример данных в формате JSON, которые будем использовать для демонстрации процесса интеграции с Apache NiFi.
Настройка Apache NiFi: Установим и запустим Apache NiFi на нашем компьютере. Создадим базовый поток данных (flow), который будет разбирать и загружать JSON-данные.
Создание процессоров: В Apache NiFi мы будем использовать различные процессоры для обработки JSON-данных. Научимся использовать процессоры для чтения JSON, разбора данных и загрузки в целевую систему.
Настройка соединений и маршрутизации: Настроим соединения между процессорами в нашем потоке данных и определим логику маршрутизации для обработки различных типов данных.
Тестирование и мониторинг: Проведем тестирование нашего потока данных, убедимся в успешной загрузке JSON-данных, и настроим мониторинг процесса с помощью инструментов Apache NiFi.
Apache NiFi Как эффективно обогащать данные с помощью LookupRecord.9:45
Описание урока:
Как эффективно обогащать данные с помощью LookupRecord в Apache NiFi" представляет собой продолжение изучения Apache NiFi с углублением в процесс обогащения данных. Мы сфокусируемся на использовании процессора LookupRecord для объединения данных из различных источников и обогащения основного потока данных.
Шаги урока:
Введение в LookupRecord: Мы начнем с обзора функциональности и возможностей процессора LookupRecord в Apache NiFi. Рассмотрим, как этот процессор используется для обогащения данных с использованием справочников.
Подготовка данных и справочников: Подготовим примеры данных и справочников, которые будем использовать для демонстрации процесса обогащения данных.
Настройка Apache NiFi: Установим и запустим Apache NiFi на нашем компьютере. Создадим новый поток данных и добавим процессор LookupRecord для обогащения данных.
Конфигурация LookupRecord: Настроим процессор LookupRecord для соединения с справочником данных и определим правила объединения и обогащения данных.
Тестирование и мониторинг: Проведем тестирование нашего потока данных с помощью процессора LookupRecord и убедимся в успешном обогащении данных. Настроим мониторинг процесса для отслеживания производительности и результатов.
Итог урока:
По завершении урока вы сможете эффективно использовать процессор LookupRecord в Apache NiFi для обогащения данных из различных источников. Вы научитесь объединять данные с помощью справочников и применять этот процессор для решения разнообразных задач интеграции и анализа данных.
Apache NiFi Перенос XML-шаблонов на сервер NiFi2:35
Цель урока: Изучить процесс переноса XML-шаблонов на сервер Apache NiFi для дальнейшего использования в потоках данных.
Описание урока:
Перенос XML-шаблонов на сервер Apache NiFi" посвящен процессу загрузки и управления XML-шаблонами на сервере Apache NiFi. XML-шаблоны представляют собой предварительно настроенные конфигурации процессоров и потоков данных, которые могут быть многократно использованы для обработки данных.
Шаги урока:
Понимание XML-шаблонов: Мы начнем с обзора структуры и содержания XML-шаблонов в Apache NiFi. Рассмотрим, какие компоненты могут включать в себя эти шаблоны и как они могут быть использованы для создания потоков данных.
Подготовка XML-шаблонов: Создадим примеры XML-шаблонов, которые будем использовать в уроке. Эти шаблоны могут содержать настройки процессоров, связи между процессорами, правила маршрутизации и другие параметры.
Загрузка XML-шаблонов на сервер: Перенесем подготовленные XML-шаблоны на сервер Apache NiFi. Рассмотрим различные методы загрузки, включая использование веб-интерфейса NiFi или инструментов командной строки.
Импорт и использование шаблонов: После загрузки XML-шаблонов на сервер Apache NiFi импортируем их в среду разработки. Рассмотрим процесс использования импортированных шаблонов для создания новых потоков данных или обновления существующих.
Тестирование и мониторинг: Проведем тестирование новых потоков данных, созданных на основе импортированных XML-шаблонов, и настроим мониторинг для отслеживания их работы и производительности.
Итог урока:
По завершении урока вы научитесь эффективно переносить XML-шаблоны на сервер Apache NiFi и использовать их для создания и управления потоками данных. Вы сможете оптимизировать процесс разработки и управления потоками данных, используя готовые конфигурации и шаблоны.
Apache NiFi QueryRecord Выполняем SELECT к FLOWFILE4:18
Цель урока: Изучить процесс выполнения запросов SELECT к данным внутри FLOWFILE с использованием процессора QueryRecord в Apache NiFi.
Описание урока:
"QueryRecord: Выполнение SELECT к FLOWFILE в Apache NiFi" посвящен использованию процессора QueryRecord для выполнения запросов SELECT к данным, содержащимся в FLOWFILE. Этот процессор позволяет нам извлекать, преобразовывать и фильтровать данные прямо внутри Apache NiFi, что обеспечивает гибкость и эффективность в обработке данных.
Шаги урока:
Введение в QueryRecord: Начнем с обзора функциональности процессора QueryRecord в Apache NiFi и его возможностей. Рассмотрим, как этот процессор может быть использован для выполнения запросов SELECT к данным внутри FLOWFILE.
Подготовка данных: Создадим пример данных, которые будем использовать в уроке. Эти данные будут представлять собой простую таблицу или набор данных в формате, который может быть обработан процессором QueryRecord.
Настройка процессора QueryRecord: Настроим процессор QueryRecord для выполнения запроса SELECT к данным, содержащимся в FLOWFILE. Укажем SQL-запрос и определим настройки преобразования данных.
Применение результатов запроса: После выполнения запроса QueryRecord получит результаты запроса и применит их к данным внутри FLOWFILE. Рассмотрим различные способы использования результатов запроса, включая запись результатов в новый FLOWFILE или передачу данных на следующий этап обработки.
Тестирование и мониторинг: Проведем тестирование нашего процесса выполнения запроса SELECT к данным и убедимся в правильности и эффективности его работы. Настроим мониторинг процесса для отслеживания результатов и производительности.
Итог урока:
По завершении урока вы научитесь эффективно использовать процессор QueryRecord в Apache NiFi для выполнения запросов SELECT к данным внутри FLOWFILE. Вы сможете извлекать нужные данные, преобразовывать их и применять к ним различные операции, что обеспечит гибкость и мощные возможности в обработке данных.
Apache NiFi "Конфигурационная таблица и таблица логов"18:43
Цель урока: Изучить процесс создания и использования конфигурационной таблицы и таблицы логов в потоках данных Apache NiFi.
Описание урока:
"Конфигурационная таблица и таблица логов в Apache NiFi" посвящен созданию и использованию специальных таблиц для хранения конфигурационных данных и логов в Apache NiFi. Эти таблицы позволяют эффективно управлять параметрами и отслеживать состояние работы потоков данных.
Шаги урока:
Введение в конфигурационные таблицы и таблицы логов: Начнем с обзора концепции конфигурационных таблиц и таблиц логов в Apache NiFi. Рассмотрим их назначение и преимущества использования в потоках данных.
Создание конфигурационной таблицы: Настроим конфигурационную таблицу для хранения параметров конфигурации, таких как настройки подключения к внешним источникам данных или параметры обработки.
Создание таблицы логов: Создадим таблицу логов для отслеживания событий и ошибок в потоках данных. Рассмотрим типичные поля логов и методы их записи.
Использование таблиц в потоках данных: Интегрируем конфигурационную таблицу и таблицу логов в наши потоки данных. Рассмотрим примеры использования этих таблиц для динамической настройки процессоров и отслеживания работы потоков данных.
Тестирование и мониторинг: Проведем тестирование и мониторинг работы наших потоков данных с использованием конфигурационной таблицы и таблицы логов. Убедимся в их эффективности и полезности для управления и отладки потоков данных.
Итог урока:
По завершении урока вы научитесь создавать и использовать конфигурационные таблицы и таблицы логов в Apache NiFi для эффективного управления и отслеживания работы ваших потоков данных. Вы сможете динамически настраивать параметры и отслеживать состояние вашей системы обработки данных, что обеспечит более высокую производительность и надежность в работе.

Apache NiFi Преобразование JSON в CSV с помощью стратегий ReplaceText6:58
Цель урока: Изучить различные стратегии и возможности процессора ReplaceText для преобразования данных из формата JSON в формат CSV в потоках данных Apache NiFi.
Описание урока:
"Возможности стратегий ReplaceText для преобразования JSON в CSV в Apache NiFi" посвящен использованию процессора ReplaceText для конвертации данных из формата JSON в формат CSV в потоках данных Apache NiFi. Это позволяет эффективно обрабатывать и анализировать данные, представленные в различных форматах.
Шаги урока:
Введение в JSON и CSV форматы данных: Начнем с краткого обзора форматов данных JSON и CSV и их структуры. Рассмотрим основные различия и особенности каждого из них.
Подготовка данных: Создадим пример данных в формате JSON, которые будем использовать для демонстрации процесса преобразования в формат CSV.
Настройка процессора ReplaceText: Настроим процессор ReplaceText для преобразования данных из формата JSON в формат CSV с помощью различных стратегий и регулярных выражений.
Применение стратегий преобразования: Перед применением стратегий преобразования мы рассмотрим различные варианты их использования и их влияние на итоговый результат преобразования данных.
Тестирование и мониторинг: Проведем тестирование нашего процесса преобразования данных из формата JSON в формат CSV с помощью процессора ReplaceText и настроим мониторинг процесса для отслеживания его работы и производительности.
Итог урока:
По завершении урока вы научитесь эффективно использовать процессор ReplaceText в Apache NiFi для преобразования данных из формата JSON в формат CSV. Вы сможете выбирать наиболее подходящие стратегии преобразования и настраивать их в соответствии с требованиями вашего проекта.
Apache NiFi Работа с API "курс валют" : Эффективная обработка данных8:14
Цель урока: Изучить процесс интеграции с API курсов валют в Apache NiFi для эффективной обработки данных.
Описание урока:
1. Введение в работу с API курсов валют: Мы начнем с обзора концепции работы с API курсов валют и рассмотрим возможности и преимущества использования Apache NiFi для этой цели.
2. Настройка компонента InvokeHTTP: Мы научимся использовать компонент InvokeHTTP для взаимодействия с API курсов валют. Рассмотрим методы передачи запросов и обработки ответов.
3. Обработка данных о курсах валют: Мы разберемся в полученных данных о курсах валют и рассмотрим методы их обработки и анализа в Apache NiFi.
4. Интеграция данных в поток: Мы научимся интегрировать полученные данные о курсах валют в наш поток данных Apache NiFi. Рассмотрим различные стратегии обработки данных и их применение в нашем процессе.
5. Тестирование и мониторинг: Проведем тестирование нашего процесса интеграции с API курсов валют и настроим мониторинг для отслеживания работы и производительности процесса.
Итог урока:
По завершении урока вы научитесь эффективно использовать Apache NiFi для работы с API курсов валют, интегрировать полученные данные в поток данных и обрабатывать их для последующего анализа и использования.
Apache NiFi Динамическое извлечение и конвертация данных из таблиц8:58
Цель урока: Изучить процесс динамического извлечения данных из таблиц базы данных и их последующей конвертации с использованием Apache NiFi.
Описание урока:
Введение в динамическое извлечение данных: Мы начнем с обзора концепции динамического извлечения данных из таблиц базы данных и рассмотрим возможности, которые это предоставляет для эффективной обработки данных в Apache NiFi.
Конфигурация компонента GenerateFlowFile: Научимся использовать компонент GenerateFlowFile для запуска процесса динамического извлечения данных из таблиц базы данных.
Извлечение данных с использованием ExecuteSQLRecord и EvaluateJsonPath: Рассмотрим методы использования компонентов ExecuteSQLRecord и EvaluateJsonPath для извлечения данных из таблиц базы данных и их преобразования в формат JSON для дальнейшей обработки.
Разделение данных с помощью SplitJson: Применим компонент SplitJson для разделения данных в формате JSON на отдельные записи для более эффективной обработки.
Конвертация и загрузка данных обратно в базу данных: Снова воспользуемся компонентами ExecuteSQLRecord и EvaluateJsonPath для конвертации и загрузки данных обратно в базу данных после их обработки.
Этот урок поможет вам освоить методы динамического извлечения и конвертации данных из таблиц базы данных с использованием Apache NiFi для более эффективной обработки информации.
Apache NiFi: Повторное обращение к базе данных, если база отдала NULL4:13
Цель урока: Изучить методы повторного обращения к базе данных в случае получения значения NULL в Apache NiFi.
Описание урока:
Введение в проблему получения NULL: Начнем с обзора ситуаций, когда база данных возвращает значение NULL в ответ на запрос, и рассмотрим возможные причины и последствия этого для процесса обработки данных в Apache NiFi.
Настройка повторного обращения: Рассмотрим методы настройки Apache NiFi для повторного обращения к базе данных в случае получения значения NULL. Определим оптимальные стратегии повторных запросов и интервалы между ними.
Обработка повторных результатов: Изучим методы обработки повторных результатов запросов к базе данных, включая фильтрацию и перенаправление данных, а также логирование и отслеживание процесса.
Оптимизация процесса: Рассмотрим возможности оптимизации процесса повторного обращения к базе данных, включая использование кэширования результатов и оптимизацию запросов.
Тестирование и мониторинг: Проведем тестирование нашего процесса повторного обращения к базе данных и настроим мониторинг для отслеживания работы и производительности процесса.
Этот урок поможет вам освоить методы обработки ситуации получения значения NULL из базы данных и эффективно управлять повторными обращениями для обеспечения непрерывности процесса обработки данных в Apache NiFi.
Apache NiFi Функция для Копирования Ошибок, возобновление предыдущего FlowFile.3:21
Цель урока: Изучить методы обработки ошибок и возможности автоматического возобновления предыдущих FlowFile после перезапуска сервера в Apache NiFi.
Описание урока:
Введение в обработку ошибок в Apache NiFi: Рассмотрим концепцию обработки ошибок в Apache NiFi и ее важность для обеспечения непрерывности потока данных.
Настройка функции копирования ошибок: Изучим методы настройки функции копирования ошибок в Apache NiFi для сохранения данных о FlowFile при возникновении ошибки в процессе обработки.
Возобновление предыдущего FlowFile после перезапуска сервера: Рассмотрим возможности автоматического возобновления предыдущего FlowFile после перезапуска сервера Apache NiFi. Определим шаги для настройки этой функции и проверим ее работоспособность.
Перезапуск сервера: Изучим процесс перезапуска сервера Apache NiFi и его влияние на поток данных. Определим оптимальные стратегии для минимизации простоев и потерь данных при перезапуске.
Тестирование и мониторинг: Проведем тестирование нашего процесса копирования ошибок и возобновления предыдущего FlowFile после перезапуска сервера и настроим мониторинг для отслеживания работы и производительности процесса.
Этот урок поможет вам освоить методы обработки ошибок и обеспечения непрерывности работы потока данных в Apache NiFi при перезапуске сервера.
Apache NiFi: Подключение к базе данных PostgreSQL4:52
Цель урока: Изучить процесс подключения Apache NiFi к базе данных PostgreSQL для эффективной обработки данных.
Описание урока:
Введение в Apache NiFi и PostgreSQL:
Обзор Apache NiFi и его возможностей.
Знакомство с PostgreSQL как реляционной базой данных.
Подготовка к работе:
Загрузка и установка PostgreSQL: (ссылка в разделе "Вешний ресурс")
Загрузка JDBC драйвера для PostgreSQL: (ссылка в разделе "Вешний ресурс")
Настройка подключения в Apache NiFi:
Создание контроллера JDBC в Apache NiFi.
Настройка параметров подключения к базе данных PostgreSQL.
Использование процессоров для работы с данными:
Пример использования процессора ExecuteSQL для выполнения SQL запросов к PostgreSQL.
Использование QueryDatabaseTable для извлечения данных из таблицы PostgreSQL.
Тестирование и мониторинг:
Запуск и тестирование процессоров в Apache NiFi.
Мониторинг работы процессоров и производительности запросов к базе данных.
Лучшие практики и советы:
Оптимизация производительности и обработка ошибок.
Реализация масштабируемости и отказоустойчивости в работе с PostgreSQL через Apache NiFi.
Этот урок поможет вам научиться эффективно использовать Apache NiFi для подключения и работы с базой данных PostgreSQL, открывая новые возможности для обработки и интеграции данных.
Apache NiFi: Подключение к MySQL для потоковой обработки данных4:44
Цель урока: Изучить процесс подключения Apache NiFi к базе данных MySQL для потоковой обработки данных.
Описание урока:
Введение в Apache NiFi и MySQL:
Обзор Apache NiFi и его возможностей.
Описание MySQL как реляционной базы данных и ее преимуществ.
Подготовка к работе:
Загрузка и установка MySQL: (ссылка в разделе "Вешний ресурс")
Загрузка JDBC драйвера для MySQL: (ссылка в разделе "Вешний ресурс")
Настройка подключения в Apache NiFi:
Создание контроллера JDBC в Apache NiFi.
Настройка параметров подключения к базе данных MySQL.
Использование процессоров для работы с данными:
Пример использования процессора ExecuteSQL для выполнения SQL запросов к MySQL.
Использование QueryDatabaseTable для извлечения данных из таблицы MySQL.
Тестирование и мониторинг:
Запуск и тестирование процессоров в Apache NiFi.
Мониторинг работы процессоров и производительности запросов к базе данных.
Лучшие практики и советы:
Оптимизация производительности и обработка ошибок.
Реализация масштабируемости и отказоустойчивости в работе с MySQL через Apache NiFi.
Этот урок поможет вам освоить процесс подключения и использования Apache NiFi для работы с базой данных MySQL, открывая новые возможности для обработки и интеграции данных в потоковом режиме.
Apache NiFi: Обработка Json + загрузка в PostgreSQL15:08
Цель урока: Изучить процесс работы с данными в Apache NiFi через подключение к базе данных, трансформацию данных и использование различных процессоров для потоковой обработки.
Описание урока:
Введение в Apache NiFi и базу данных:
Обзор Apache NiFi и его возможностей в потоковой обработке данных.
Подключение к реляционной базе данных для обработки и трансформации данных в режиме реального времени.
Подготовка к работе:
Установка базы данных и драйверов:
Настройка базы данных (PostgreSQL).
Загрузка и настройка JDBC драйвера для подключения к базе данных через Apache NiFi.
Подключение к базе данных через Apache NiFi:
Создание и настройка JDBC Connection Pool для подключения к базе данных.
Проверка соединения и подготовка к использованию процессоров для работы с SQL-запросами.
Использование процессоров для работы с данными:
Работа с процессами генерации данных:
Использование GenerateFlowFile для создания тестовых данных в NiFi.
Извлечение данных из базы данных:
Пример использования процессоров ExecuteSQLRecord и ExecuteSQL для выполнения SQL-запросов и получения данных из базы данных.
Обработка и трансформация данных:
Пример использования UpdateRecord для изменения записей на основе определенных атрибутов.
Применение SplitJson для разделения JSON данных на более мелкие части.
Использование EvaluateJsonPath для извлечения значений из JSON и передачи их в атрибуты.
Запись данных обратно в базу данных:
Пример использования процессора PutDatabaseRecord для добавления данных в базу после их обработки.
Запуск функций на стороне базы данных:
Пример использования ExecuteSQL для вызова хранимых процедур и функций базы данных для дальнейшей обработки данных, например, перекладывания данных между таблицами.
Тестирование и мониторинг:
Запуск процесса обработки данных в Apache NiFi.
Мониторинг процесса через интерфейс NiFi:
Просмотр данных, ошибок и производительности каждого этапа обработки.
Лучшие практики и советы:
Оптимизация производительности потоков данных в NiFi.
Обработка ошибок на каждом этапе: работа с недостающими данными, некорректными форматами и повторными попытками.
Реализация масштабируемости и отказоустойчивости для больших объемов данных и высокой нагрузки.
Этот урок поможет освоить подключение к базе данных через Apache NiFi, трансформацию и обработку данных с использованием различных процессоров. Вы изучите, как эффективно управлять данными, улучшить производительность потоков данных и автоматизировать важные задачи по интеграции данных.
Apache NiFi: Работа с данными в Apache NiFi с использованием Python и CSV11:49
Цель урока: Ознакомиться с использованием процессора ExecuteScript в Apache NiFi для обработки и трансформации данных, используя Python и различные библиотеки.
Описание урока:
Введение в Apache NiFi и обработку данных:
Обзор возможностей Apache NiFi для потоковой обработки данных.
Значение Python в контексте NiFi и его применение для расширения функциональности.
Подготовка к работе с данными:
Установка и настройка необходимых библиотек (например, Pandas, NumPy) для работы в среде NiFi.
Подготовка CSV данных для обработки, включая их структуру и форматирование.
Использование процессора ExecuteScript:
Применение ExecuteScript для запуска Python-скриптов и обработки входящих данных.
Примеры использования библиотек для генерации, обработки и трансформации данных.
Обработка и преобразование данных:
Применение функций библиотек для работы с данными: создание и заполнение датафреймов, применение фильтров и агрегаций.
Конвертация обработанных данных обратно в CSV или другие форматы для дальнейшей передачи или сохранения.
Тестирование и мониторинг:
Запуск потоков обработки данных с использованием Apache NiFi.
Использование интерфейса NiFi для мониторинга выполнения процессов и обработки ошибок.
Лучшие практики:
Оптимизация производительности скриптов Python в NiFi.
Обработка ошибок и управление исключениями для обеспечения надежности процесса.
Этот урок предоставит участникам глубокое понимание интеграции Python с Apache NiFi, а также навыки работы с данными в формате CSV, что поможет повысить эффективность обработки и интеграции данных в реальных сценариях.
Apache NiFi: Работа с данными в NiFi, LookupAttribute и UnpackContent, ZIP-файл15:07
Цель лекции: Изучить динамическую обработку данных в Apache NiFi с использованием процессоров LookupAttribute, UnpackContent и разархивирования ZIP-файлов. Лекция также охватит сценарии, где выбор таблицы и выполнение SQL-запросов зависят от атрибутов потока данных.
План лекции:
Введение в процессоры LookupAttribute и UnpackContent:
Обзор возможностей UnpackContent и его роли в разархивировании ZIP-файлов.
Применение LookupAttribute для поиска значений атрибутов в потоке данных.
Разархивирование ZIP-файлов:
Настройка UnpackContent для работы с ZIP-файлами.
Пример обработки ZIP-файла с JSON-данными: извлечение файлов для последующей обработки.
Подготовка данных:
Пример структуры JSON-файлов, распакованных из ZIP-архива.
Подготовка данных к дальнейшей обработке в NiFi.
Использование LookupAttribute:
Динамический выбор таблицы для SQL-запроса на основе атрибутов потока данных.
Пример использования LookupAttribute для динамической логики SQL-запросов.
Формирование динамических SQL-запросов:
Вставка атрибутов в SQL-запросы с помощью процессора ExecuteSQLRecord.
Пример создания SELECT-запроса с использованием переменных из атрибутов.
Пример потока данных:
Разархивирование ZIP-файла с помощью UnpackContent.
Обогащение данных: выбор таблицы с помощью LookupAttribute для выполнения SQL-запроса.
Формирование динамического SQL-запроса и выполнение его с помощью ExecuteSQLRecord.
Загрузка результатов в целевую таблицу базы данных.
Мониторинг и отладка:
Как мониторить процесс разархивирования и выполнение SQL-запросов в NiFi.
Обработка ошибок в случае проблем с разархивированием или SQL-запросами.
Оптимизация и лучшие практики:
Оптимизация работы процессоров для разархивирования и динамической обработки данных.
Управление исключениями для повышения надежности работы потоков данных.
Apache NiFi: GetFile затирает файл, QueryRecord с CASE, CAST, NULLIF, CONCAT5:50
Цель лекции:
Ознакомиться с основами использования процессоров Apache NiFi для загрузки файлов и выполнения запросов с использованием конструкций SQL, таких как CASE, CAST, NULLIF, и конкатенация строк (CONCAT). Лекция охватывает сценарии, когда необходимо гибко работать с данными и их трансформацией на этапе запроса.
План лекции:
Введение в работу с файлами и процессор GetFile:
Обзор возможностей процессора GetFile для получения файлов с локальной файловой системы.
Как NiFi может обрабатывать файлы и работать с потоками данных.
Настройка GetFile для автоматической обработки файлов и конфигурация его поведения (в том числе предупреждение о затирании файлов).
Загрузка и обработка файлов:
Пример работы с процессором GetFile: как настроить захват файлов из директории.
Важные параметры, такие как выбор источника файлов и что происходит с файлами после их обработки (затирание, перемещение, удаление).
Использование QueryRecord для SQL-запросов:
Обзор процессора QueryRecord и его роли в обработке данных с помощью SQL.
Пример использования QueryRecord для выборки и трансформации данных из потока на основе SQL-запросов.
Примеры использования SQL-функций в QueryRecord:
CASE: Пример использования условных выражений для изменения данных в зависимости от условий.
Пример: Как на основе значения поля менять результат в выходном потоке.
CAST: Пример приведения типов данных (например, конвертация числовых значений в текстовые).
NULLIF: Как избежать ошибок при работе с нулевыми значениями и сделать данные более корректными.
CONCAT: Конкатенация строк для создания объединенного представления данных.
Пример потока данных:
Получение файла с помощью процессора GetFile.
Обогащение данных с использованием процессора QueryRecord и примеров с CASE, CAST, NULLIF, и CONCAT:
Условное преобразование данных на основе значений в полях.
Преобразование типов данных и замена нулевых значений.
Объединение строк для создания полного представления информации.
Загрузка результатов:
Сохранение обработанных данных в другой процессор или базу данных с использованием PutSQL или PutFile.
Пример записи результата в новый файл или таблицу базы данных.
Мониторинг и отладка:
Как контролировать работу процессора GetFile, чтобы избежать проблем с загрузкой или затиранием файлов.
Использование журнала NiFi для отслеживания выполнения SQL-запросов.
Обработка ошибок, возникающих при выполнении SQL-запросов или загрузке данных.
Оптимизация и лучшие практики:
Настройка GetFile для правильного управления файлами: перемещение файлов после обработки вместо их затирания.
Оптимизация запросов в QueryRecord для более эффективной работы с большими объемами данных.
Работа с нулевыми значениями и управление исключениями при преобразовании данных.
Apache NiFi: Ознакомиться с вызовом хранимых процедур в NiFi8:33
Цель лекции: Ознакомиться с вызовом хранимых процедур в Apache NiFi, продемонстрировать работу с хранимыми процедурами с параметрами и динамическое подставление таблиц в хранимые процедуры на примере Microsoft SQL Server. Лекция охватывает сценарии интеграции NiFi с базами данных, позволяя гибко управлять данными на уровне серверных процедур.
План лекции:
1. Введение в вызов хранимых процедур в Apache NiFi:
Обзор возможностей интеграции NiFi с базами данных через процессоры для выполнения хранимых процедур.
Как настроить подключение к базе данных через процессор DBCPConnectionPool.
Почему вызов хранимых процедур удобен для выполнения сложных операций с данными.
2. Работа с процессором PutDatabaseRecord и хранимыми процедурами:
Настройка процессора PutDatabaseRecord для вызова хранимых процедур в SQL Server.
Пример вызова хранимой процедуры с параметрами через NiFi.
Динамическая подстановка значений параметров процедуры на основе данных из потока.
3. Пример работы с хранимыми процедурами в SQL Server:
Пример 1: Хранимая процедура с параметрами для загрузки данных из временной таблицы:
Показать пример процедуры, принимающей несколько параметров, таких как дата и имя таблицы.
Демонстрация, как NiFi передает эти параметры в хранимую процедуру.
Пример 2: Динамическая хранимая процедура для подстановки таблицы:
Показать процедуру, которая принимает имя таблицы как параметр и выполняет операции над этой таблицей.
Пример динамической подстановки имени таблицы из потока данных NiFi.
4. Настройка процессора PutDatabaseRecord для вызова хранимых процедур с динамическими параметрами:
Как передавать параметры в хранимую процедуру через атрибуты потока данных.
Использование выражений NiFi Expression Language для динамической подстановки значений параметров.
5. Обработка результатов выполнения хранимых процедур:
Как обработать результаты, возвращаемые хранимой процедурой, используя процессоры NiFi.
Пример сохранения результатов выполнения процедуры в файл с использованием процессора PutFile или загрузки в другую таблицу через PutSQL.
6. Мониторинг и отладка вызовов хранимых процедур:
Как отслеживать выполнение хранимых процедур и анализировать ошибки через журналы NiFi.
Настройка логгирования для отладки ошибок при выполнении SQL-запросов или вызове процедур.
7. Обработка ошибок и работа с исключениями:
Как управлять исключениями в хранимых процедурах и корректно обрабатывать ошибки в NiFi.
Настройка маршрутизации ошибок через процессоры RouteOnAttribute и LogAttribute.
8. Оптимизация и лучшие практики:
Как оптимизировать работу с хранимыми процедурами при работе с большими объемами данных.
Лучшая практика для динамического управления таблицами и параметрами при вызове процедур.
Настройка эффективного управления транзакциями и обработки результатов выполнения процедур в базе данных.
Заключение:
Вызов хранимых процедур с параметрами через NiFi позволяет гибко управлять данными, автоматизировать сложные операции и интегрироваться с SQL Server.
Динамическое подставление значений и таблиц в хранимые процедуры упрощает обработку данных и улучшает производительность при работе с изменяющимися данными.
Apache NiFi: Ознакомиться с выравниванием и покраской процессоров2:27
Цель лекции: Научиться форматировать и управлять расположением элементов в NiFi, настроить визуальные маркеры для упрощения навигации и улучшения наглядности данных. Лекция охватывает настройки вертикального и горизонтального выравнивания элементов, регулировку расстояния между ними, а также использование цветовой кодировки для различных типов процессоров, например, выделение процессоров логирования жёлтым.
План лекции:
Введение в форматирование и выравнивание элементов в NiFi:
Обзор интерфейса NiFi и возможностей по форматированию элементов.
Как выровнять и организовать элементы для удобной структуры потока данных.
Работа с выравниванием элементов:
Как использовать инструменты для выравнивания элементов по вертикали и горизонтали.
Настройка равномерного расстояния между элементами для удобства визуального восприятия потока.
Управление расстоянием между элементами:
Регулировка интервалов между процессорами для улучшения читаемости и организации потока данных.
Советы по оптимальному распределению элементов при создании сложных потоков.
Применение цветовой кодировки для типов процессоров:
Как настраивать цветовые маркеры для процессоров разного типа (логирование, обработка данных и т.д.).
Пример: выделение процессоров логирования жёлтым цветом для легкой идентификации.
Примеры оформления и цветовой кодировки в практическом сценарии:
Практический пример, где используются элементы с разной цветовой кодировкой в зависимости от выполняемой задачи.
Создание цветовых групп для каждой стадии обработки данных (например, логирование, трансформация, загрузка и т.д.).
Настройка и применение цветовой кодировки к различным процессорам:
Как выделить процессоры в зависимости от их роли и задачи для быстрого визуального анализа.
Настройка цветовой кодировки для повышения наглядности данных в сложных потоках NiFi.
Советы и лучшие практики по визуальному оформлению потока:
Лучшая практика при расположении и оформлении элементов для улучшения читабельности и логики потока.
Как организовать группы элементов для лёгкого редактирования и навигации в NiFi.
Заключение:
Форматирование и цветовая кодировка элементов в NiFi позволяет упростить восприятие и повысить наглядность потоков данных, улучшая производительность и удобство работы.
Автоматизация миграции данных с MySQL в PostgreSQL с цикличной проверкой NiFi9:42
Цель лекции: Изучить подходы к миграции данных из MySQL в PostgreSQL с использованием Apache NiFi, с акцентом на настройку автоматической проверки и обработки новых данных. Лекция демонстрирует работу с процессорами NiFi, такими как RouteOnAttribute, для динамического подсчёта записей, и создание цикличного потока, ожидающего появления новых данных для миграции.
План лекции:
Введение в миграцию данных с MySQL в PostgreSQL:
Обзор стратегии миграции данных с одной базы данных в другую.
Зачем использовать Apache NiFi для упрощения и автоматизации процесса миграции.
Настройка процессора RouteOnAttribute для мониторинга данных:
Как настроить RouteOnAttribute для подсчета записей в базе данных.
Пример использования выражения ${record.count:equals(0)} для определения наличия данных.
Автоматическая обработка и проверка новых записей:
Настройка условий, при которых RouteOnAttribute направляет FlowFile на ExecuteSQLRecord, если записей нет.
Как NiFi ждёт, пока клиент добавит новые данные в таблицу, и выполняет миграцию по мере их появления.
Создание цикличного потока, отслеживающего новые данные:
Настройка цикла в NiFi, который периодически проверяет таблицу на наличие новых записей.
Как создать интеграцию, которая автоматически запускается при обнаружении новых данных.
Использование ExecuteSQLRecord для миграции данных:
Пример настройки ExecuteSQLRecord для извлечения и загрузки данных из MySQL в PostgreSQL.
Создание целостного процесса, где данные забираются и загружаются автоматически при их появлении.
Контроль целостности данных и проверка результатов миграции:
Как отслеживать успешность миграции и проверять целостность данных в PostgreSQL.
Настройка обработки ошибок и маршрутизация ошибок для предотвращения сбоев в миграции.
Лучшие практики по автоматизации миграции данных:
Как оптимизировать цикл проверки на новые данные для минимизации нагрузки на сервер.
Лучшая практика по настройке автоматической миграции данных между базами.
Заключение:
Создание цикличного потока данных в NiFi позволяет автоматизировать процесс миграции и мониторить изменения в базе клиента, обеспечивая актуальность данных и поддерживая целостность данных между MySQL и PostgreSQL.
Apache NiFi: Работа с FlattenJson и запись сложных структур в PostgreSQL7:43
Цель лекции:
Познакомиться с процессором FlattenJson в Apache NiFi, научиться работать с вложенными JSON-структурами и преобразовывать их в формат, подходящий для записи в PostgreSQL. Лекция также демонстрирует, как сохранить значение ключа, содержащего несколько значений, в виде структуры map в Python и корректно записать его в строку PostgreSQL.
План лекции:
Введение в работу с JSON-данными в NiFi
Почему JSON — один из самых распространённых форматов данных.
Особенности обработки вложенных JSON-структур.
Использование FlattenJson для работы со сложными JSON-объектами
Разбор работы процессора FlattenJson.
Преобразование многослойных JSON-структур в удобный для работы формат.
Конвертация сложных структур данных в строку для PostgreSQL
Как в Python сохранить данные в формате map.
Преобразование JSON-данных в строковое представление для SQL-запроса.
Запись данных в PostgreSQL
Использование процессора PutSQL для записи данных в базу.
Работа с типами данных и преобразование map-структур в строку для хранения в SQL.
Практический пример: запись ключа с несколькими значениями в PostgreSQL
Настройка NiFi для работы с подобными данными.
Проверка корректности обработки данных после записи.
Заключение и лучшие практики
Оптимизация работы с JSON-данными в NiFi.
Рекомендации по хранению сложных данных в PostgreSQL.

Apache NiFi: Практика готовые шаблоны для тренировки0:07
В этом разделе вы найдёте готовые шаблоны Apache NiFi, которые можно загрузить в свою среду и сразу начать использовать.

Они помогут вам закрепить материал, разобраться в реальных сценариях и поэкспериментировать с пайплайнами без необходимости строить их с нуля.

Requirements

Базовая компьютерная грамотность

Description

Добро пожаловать на курс 'Основы Apache NiFi: Эффективная обработка данных'! Этот курс представляет собой глубокое погружение в уникальный мир Apache NiFi, мощного инструмента для создания и управления потоками данных. В течение курса вы познакомитесь с широким спектром функциональных возможностей Apache NiFi, начиная с основных концепций и компонентов и заканчивая созданием сложных ETL-пайплайнов.

Мы пройдем через каждый этап процесса обработки данных, углубившись в понимание процессоров, роутеров, контроллеров и других компонентов Apache NiFi. Вы узнаете, как интегрировать различные источники данных, такие как базы данных, файловые системы и API, а также направлять данные в различные назначения, включая хранилища данных и веб-сервисы.

Особое внимание уделяется практическим навыкам, с которыми вы будете работать в течение всего курса. Мы предоставим вам доступ к реальным проектам и заданиям, которые позволят вам применить полученные знания на практике и уверенно решать разнообразные задачи в области обработки данных.

По завершении этого курса вы будете готовы создавать, настраивать и оптимизировать сложные пайплайны обработки данных с помощью Apache NiFi, а также применять свои навыки в реальных проектах вашей организации или ваших собственных исследованиях. Присоединяйтесь к нам и начните свой путь к мастерству в области обработки данных с Apache NiFi!

Помимо освоения ключевых концепций и инструментов Apache NiFi, этот курс также обеспечит вас глубоким пониманием лучших практик в области обработки данных. Вы узнаете, как эффективно масштабировать и оптимизировать ваши пайплайны, чтобы обеспечить высокую производительность и отказоустойчивость. Кроме того, мы погрузимся в вопросы безопасности данных и методы их обеспечения в рамках Apache NiFi.

Наши опытные инструкторы будут сопровождать вас на протяжении всего курса, гарантируя, что вы получите не только теоретические знания, но и практические навыки, необходимые для успешного применения Apache NiFi в вашей работе или проектах. Присоединяйтесь к нашей программе обучения сегодня и откройте для себя мир возможностей Apache NiFi в области обработки данных!

Who this course is for:

Этот курс предназначен для начинающих и опытных разработчиков, программистов, дата-инженеров и любых специалистов, заинтересованных в обработке данных и создании высокопроизводительных пайплайнов ETL.

Apache NiFi: Основы потоковой обработки данных ETL.

What you'll learn

Explore related topics

Course content

Введение2 lectures • 11min

Apache NiFi: Знакомство с интерфейсом и основными возможностями1 lecture • 10min

Знакомство с процессорами Apache NiFi5 lectures • 21min

Тест кейсы (практика)5 lectures • 46min

Тест №1 Apache NiFi0

Практика - Apache NiFi + SQL15 lectures • 1hr 58min

Тест: Основы Apache NiFi0

Apache NiFi: Практика готовые шаблоны для тренировки1 lecture • 1min

Requirements

Description

Who this course is for: