
Instructor holds Databricks Data Engineer Professional, Databricks Machine Learning Professional, Snowflake advanced certifications, and AWS Solutions Architect Professional.
**Exam Domain Weighting**
Model Development: 44%
MLOps: 44%
Model Deployment: 12%
## 1. Model Development 44%
This domain is the core foundation of the certification. It focuses on the ability to design and develop enterprise-scale machine learning solutions, using native Databricks capabilities to build scalable, reusable, and traceable end-to-end ML development workflows. It fully covers the official focus areas: scalable Spark ML pipelines, distributed training and hyperparameter tuning, advanced MLflow capabilities, and automated Feature Store pipelines.
### 1.1 Build Distributed and Scalable End-to-End ML Pipelines with Spark ML
Advanced use of core Spark ML components, including Transformer, Estimator, Pipeline, and PipelineModel, for enterprise-level encapsulation and reuse.
Development and integration of custom Spark ML Transformers and Estimators to support customized feature processing and model inference requirements.
Distributed feature engineering with PySpark and Spark ML for large-scale structured and unstructured data, including distributed encoding, standardization, missing value imputation, feature selection, dimensionality reduction, and distributed sampling for imbalanced datasets.
Deep integration between ML pipelines and Delta Lake, enabling ACID guarantees, version management, and incremental reads for feature data, training data, and test data.
Pipeline reuse, versioning, and cross-team sharing for standardized enterprise ML development.
Integration of Spark ML pipelines with Structured Streaming to support streaming feature processing and standardized incremental model training workflows.
### 1.2 Distributed Training and Hyperparameter Tuning
Integration of distributed training frameworks, including Horovod on Databricks for multi-node and multi-GPU training.
Deep integration of PyTorch and TensorFlow distributed training with Databricks Runtime for Machine Learning.
GPU cluster resource configuration, training fault tolerance, and performance optimization.
Enterprise-level hyperparameter tuning with Hyperopt and SparkTrials, including distributed Bayesian optimization, parallel search resource management, early stopping, custom loss functions, and automatic MLflow Tracking integration.
Large-scale distributed cross-validation with Spark, including distributed K-fold validation and model performance evaluation without single-node bottlenecks.
### 1.3 Advanced MLflow Capabilities
Advanced MLflow Tracking for end-to-end pipeline observability, including nested runs for multi-step ML pipelines.
Batch logging of custom metrics, artifacts, and parameters.
Configuration and access to MLflow Tracking Servers across workspaces.
Large-scale comparison and analysis of training experiments.
Enterprise model packaging with MLflow Models, including custom model flavors and Python Function models.
Packaging and persistence of multi-model pipeline workflows.
Definition of model signatures and input validation rules.
Precise dependency locking with Conda, requirements files, or Poetry to ensure model consistency across environments.
Advanced MLflow Model Registry management, including full model version lifecycle management across Staging, Production, and Archived stages.
Permission control, approval workflows, and end-to-end model lineage from data and features to training runs and registered model versions.
### 1.4 Databricks Feature Store and Automated Feature Pipelines
Design and development of offline feature tables, including primary keys, partitioning strategies, time-series properties, feature metadata, and standardized business feature definitions.
Automated feature pipeline development with Delta Live Tables or Spark Jobs for incremental feature computation and updates.
Feature backfilling and historical feature data management.
Avoidance of training-serving skew by reusing the same feature pipeline logic during both training and inference.
Automatic recording of feature table metadata during model training.
Automatic retrieval of the correct feature logic and feature versions during inference.
Configuration, publishing, and low-latency lookup for online feature tables.
Consistency synchronization between offline and online features, and integration with real-time model serving.
Feature governance, including version management, lineage tracking, cross-team sharing, reuse, feature search, and metadata management.
## 2. MLOps 44%
This domain is another core focus of the certification and carries the same weight as Model Development. It focuses on the production operations, automation, testing, and governance capabilities required for enterprise ML systems. It fully covers the official focus areas: ML testing strategies, environment management with Databricks Asset Bundles, automated retraining workflows, and drift detection with Lakehouse Monitoring.
### 2.1 Enterprise ML Testing Strategy
Data and feature testing with Delta Live Tables Expectations or Great Expectations, including data completeness, schema consistency, distribution validation, feature value ranges, feature correlations, and missing value checks.
Validation of distribution consistency between training and test datasets.
Unit and integration testing for ML pipelines, custom Transformers, and model inference logic.
End-to-end ML pipeline integration tests and model performance regression tests.
Model compliance and robustness testing, including fairness testing, explainability with SHAP or LIME, adversarial robustness testing, business rule validation, and privacy compliance checks for GDPR, CCPA, and similar requirements.
Automated testing in CI/CD workflows, including GitOps integration, test execution on code commits and pull requests, automated test reports, and release gates.
### 2.2 Environment and Resource Management with Databricks Asset Bundles
Databricks Asset Bundles project structure and resource definition standards, including Jobs, clusters, MLflow resources, Feature Store tables, and Delta Live Tables pipelines.
Multi-environment configuration and isolation across development, test, and production environments.
Parameterization, resource isolation, permission control, and consistent deployments across environments.
Infrastructure as Code and GitOps integration, including bundle packaging, validation, deployment, rollback, and branch-based release management.
Cross-workspace deployment across development and production Databricks workspaces and across cloud environments.
Service principal permissions and automated deployment authentication.
### 2.3 Automated Model Retraining Workflows
Retraining trigger mechanisms, including scheduled retraining, event-based retraining when new data arrives, data drift, model drift, or performance degradation.
Automated retraining triggered by MLflow Registry webhooks or Delta Lake Change Data Feed.
Retraining pipeline gates, including baseline comparison, automated evaluation, acceptance criteria, and promotion only when the new model outperforms the production baseline.
Failure handling, alerting, rollback mechanisms, and full pipeline observability.
End-to-end logging, metrics, and lineage tracking for retraining workflows, with deep integration into MLflow and Lakehouse Monitoring.
Automated notifications and approval workflows for retraining results.
Champion-challenger framework implementation, including automated comparison between the production Champion model and newly trained Challenger models, A/B testing, and production switching workflows.
### 2.4 Monitoring and Drift Detection with Lakehouse Monitoring
Core Lakehouse Monitoring architecture, including monitoring asset configuration, metric computation, metric storage, and native integration with Delta Lake.
Detection of data drift, feature drift, prediction drift, and label drift.
Configuration and interpretation of drift statistics such as PSI, KL divergence, JS divergence, and KS tests.
Custom drift thresholds and alert rules.
Continuous tracking of model performance metrics for classification, regression, and time-series models, including accuracy, AUC, RMSE, and MAE.
Automatic detection and alerting for model performance degradation.
Integration between drift or degradation events and automated retraining workflows.
Root-cause analysis dashboards and historical monitoring trend analysis.
### 2.5 ML System Compliance and Governance
End-to-end lineage tracking from raw data, feature engineering, model training, deployment, and inference.
Full traceability for compliance audits.
Fine-grained access control for ML resources through Unity Catalog, including feature tables, models, experiments, and serving endpoints.
Least-privilege service principal configuration.
Automated generation of model explainability reports, fairness audits, bias mitigation workflows, and enterprise-compliant model lifecycle documentation.
## 3. Model Deployment 12%
This domain focuses on production model release and service management. It assesses the ability to deploy models across multiple serving scenarios, implement custom model services, and manage the model release lifecycle on Databricks. It fully covers the official focus areas: deployment strategies, custom model serving, and model release management.
### 3.1 Enterprise Model Deployment Strategies and Scenario Selection
Core deployment scenarios and best practices:
Batch Inference: development and optimization of large-scale offline inference pipelines, incremental inference with Delta Lake, distributed inference resource scheduling, and performance optimization.
Streaming Inference: real-time incremental inference pipelines with Structured Streaming, exactly-once guarantees, and integration with message queues such as Kafka.
Real-Time Serving: low-latency online inference, service-level agreement requirements, and resource configuration.
Deployment scenario selection based on business latency requirements, data volume, and cost constraints.
Training-inference consistency strategies for production ML systems.
### 3.2 Custom Model Serving
Databricks Model Serving architecture, including serverless real-time inference endpoint configuration and management.
GPU-accelerated inference endpoint configuration and autoscaling strategy setup.
Development of custom model services with custom preprocessing and postprocessing logic.
Deployment of multi-model inference services and custom Python Function models.
Configuration of custom dependencies, environment variables, and private container images.
Serving endpoint REST API integration with external API gateways and business systems.
Token authentication, service principal access control, endpoint network isolation, and compliance configuration.
Feature serving integration, including automatic feature lookup from the online Feature Store during inference to prevent training-serving skew.
Implementation of logic that combines online features with request-time data.
### 3.3 Model Release and Production Lifecycle Management
Model release governance from Staging to Production, including approval workflows, pre-release load testing, performance validation, and compliance checks.
Canary deployment strategies, traffic splitting, multi-version traffic allocation, and dynamic traffic adjustment.
A/B testing implementation in production environments.
Blue-green deployment strategies, fast rollback mechanisms, service degradation handling, and fault-tolerant operations.
Real-time monitoring of serving endpoint latency, throughput, error rates, and resource utilization.
Alert rule configuration and incident response workflows.
::inbox-item{title="ML Professional outline translated" summary="Full English version ready to use"}
Der Dozent besitzt die Zertifizierungen Databricks Data Engineer Professional, Databricks Machine Learning Professional, fortgeschrittene Snowflake-Zertifizierungen sowie AWS Solutions Architect Professional.
**Prüfungsgewichtung**
Model Development: 44 %
MLOps: 44 %
Model Deployment: 12 %
## 1. Model Development 44 %
Dieses Modul bildet die zentrale Grundlage der Zertifizierung. Es konzentriert sich auf die Fähigkeit, unternehmensweite Machine-Learning-Lösungen im großen Maßstab zu entwerfen und zu entwickeln. Der Schwerpunkt liegt darauf, mit nativen Databricks-Funktionen skalierbare, wiederverwendbare und nachvollziehbare End-to-End-ML-Workflows aufzubauen. Es deckt die offiziellen Kernbereiche ab: skalierbare Spark-ML-Pipelines, verteiltes Training und Hyperparameteroptimierung, fortgeschrittene MLflow-Funktionen sowie automatisierte Feature-Store-Pipelines.
### 1.1 Verteilte und skalierbare End-to-End-ML-Pipelines mit Spark ML
Fortgeschrittene Nutzung zentraler Spark-ML-Komponenten wie Transformer, Estimator, Pipeline und PipelineModel für unternehmensweite Kapselung und Wiederverwendung.
Entwicklung und Integration benutzerdefinierter Spark-ML-Transformer und Estimatoren zur Unterstützung individueller Feature-Verarbeitung und Modellinferenz.
Verteiltes Feature Engineering mit PySpark und Spark ML für große strukturierte und unstrukturierte Datenmengen, einschließlich verteilter Kodierung, Standardisierung, Behandlung fehlender Werte, Feature-Auswahl, Dimensionsreduktion sowie verteilter Stichprobenverfahren für unausgewogene Datensätze.
Tiefe Integration von ML-Pipelines mit Delta Lake, um ACID-Garantien, Versionsverwaltung und inkrementelles Lesen für Feature-Daten, Trainingsdaten und Testdaten zu ermöglichen.
Wiederverwendung, Versionierung und teamübergreifende Freigabe von Pipelines für standardisierte ML-Entwicklung im Unternehmen.
Integration von Spark-ML-Pipelines mit Structured Streaming zur Unterstützung von Streaming-Feature-Verarbeitung und standardisierten Workflows für inkrementelles Modelltraining.
### 1.2 Verteiltes Training und Hyperparameteroptimierung
Integration verteilter Trainingsframeworks, einschließlich Horovod on Databricks für Multi-Node- und Multi-GPU-Training.
Tiefe Integration von verteiltem Training mit PyTorch und TensorFlow in Databricks Runtime for Machine Learning.
Konfiguration von GPU-Cluster-Ressourcen, Fehlertoleranz beim Training und Leistungsoptimierung.
Unternehmensweite Hyperparameteroptimierung mit Hyperopt und SparkTrials, einschließlich verteilter bayesscher Optimierung, Ressourcenmanagement für parallele Suche, Early Stopping, benutzerdefinierter Verlustfunktionen und automatischer Integration mit MLflow Tracking.
Groß angelegte verteilte Kreuzvalidierung mit Spark, einschließlich verteilter K-Fold-Validierung und Modellbewertung ohne Single-Node-Engpässe.
### 1.3 Fortgeschrittene MLflow-Funktionen
Fortgeschrittenes MLflow Tracking für vollständige Beobachtbarkeit von ML-Pipelines, einschließlich Nested Runs für mehrstufige ML-Pipelines.
Massenprotokollierung benutzerdefinierter Metriken, Artefakte und Parameter.
Konfiguration und Zugriff auf MLflow Tracking Server über mehrere Workspaces hinweg.
Groß angelegte Gegenüberstellung und Analyse von Trainingsexperimenten.
Unternehmensweite Modellverpackung mit MLflow Models, einschließlich benutzerdefinierter Model Flavors und Python-Function-Modelle.
Verpackung und Persistierung von Multi-Modell-Pipeline-Workflows.
Definition von Model Signatures und Eingabevalidierungsregeln.
Präzise Abhängigkeitssperrung mit Conda, requirements-Dateien oder Poetry, um Modellkonsistenz über Umgebungen hinweg sicherzustellen.
Fortgeschrittenes MLflow Model Registry Management, einschließlich vollständiger Verwaltung des Modellversionslebenszyklus über Staging, Production und Archived.
Berechtigungssteuerung, Freigabeprozesse und End-to-End-Modell-Lineage von Daten und Features bis zu Trainingsläufen und registrierten Modellversionen.
### 1.4 Databricks Feature Store und automatisierte Feature-Pipelines
Entwurf und Entwicklung von Offline-Feature-Tabellen, einschließlich Primärschlüsseln, Partitionierungsstrategien, Zeitreiheneigenschaften, Feature-Metadaten und standardisierten fachlichen Feature-Definitionen.
Entwicklung automatisierter Feature-Pipelines mit Delta Live Tables oder Spark Jobs für inkrementelle Feature-Berechnung und Aktualisierung.
Feature-Backfilling und Verwaltung historischer Feature-Daten.
Vermeidung von Training-Serving-Skew durch Wiederverwendung derselben Feature-Pipeline-Logik während Training und Inferenz.
Automatische Erfassung von Feature-Tabellen-Metadaten während des Modelltrainings.
Automatisches Abrufen der passenden Feature-Logik und Feature-Versionen während der Inferenz.
Konfiguration, Veröffentlichung und Low-Latency-Lookups für Online-Feature-Tabellen.
Konsistente Synchronisierung zwischen Offline- und Online-Features sowie Integration mit Echtzeit-Modellbereitstellung.
Feature Governance, einschließlich Versionsverwaltung, Lineage Tracking, teamübergreifender Freigabe, Wiederverwendung, Feature-Suche und Metadatenmanagement.
## 2. MLOps 44 %
Dieses Modul ist ein weiterer zentraler Schwerpunkt der Zertifizierung und hat die gleiche Gewichtung wie Model Development. Es konzentriert sich auf Produktionsbetrieb, Automatisierung, Testing und Governance von unternehmensweiten ML-Systemen. Es deckt die offiziellen Kernbereiche ab: ML-Teststrategien, Umgebungsmanagement mit Databricks Asset Bundles, automatisierte Retraining-Workflows und Drift-Erkennung mit Lakehouse Monitoring.
### 2.1 Unternehmensweite ML-Teststrategie
Daten- und Feature-Tests mit Delta Live Tables Expectations oder Great Expectations, einschließlich Vollständigkeit, Schema-Konsistenz, Verteilungsvalidierung, Feature-Wertebereichen, Feature-Korrelationen und Prüfungen auf fehlende Werte.
Validierung der Verteilungskonsistenz zwischen Trainings- und Testdatensätzen.
Unit- und Integrationstests für ML-Pipelines, benutzerdefinierte Transformer und Modellinferenzlogik.
End-to-End-Integrationstests für ML-Pipelines und Regressionstests der Modellleistung.
Modell-Compliance- und Robustheitstests, einschließlich Fairness-Tests, Erklärbarkeit mit SHAP oder LIME, adversarialer Robustheitstests, Validierung fachlicher Regeln und Datenschutz-Compliance für GDPR, CCPA und ähnliche Anforderungen.
Automatisierte Tests in CI/CD-Workflows, einschließlich GitOps-Integration, Testausführung bei Code-Commits und Pull Requests, automatisierter Testberichte und Release-Gates.
### 2.2 Umgebungs- und Ressourcenmanagement mit Databricks Asset Bundles
Projektstruktur und Standards für Ressourcendefinitionen in Databricks Asset Bundles, einschließlich Jobs, Clustern, MLflow-Ressourcen, Feature-Store-Tabellen und Delta-Live-Tables-Pipelines.
Konfiguration und Isolation mehrerer Umgebungen für Entwicklung, Test und Produktion.
Parametrisierung, Ressourcenisolation, Berechtigungssteuerung und konsistente Deployments über Umgebungen hinweg.
Infrastructure as Code und GitOps-Integration, einschließlich Bundle-Paketierung, Validierung, Deployment, Rollback und branchbasierter Release-Verwaltung.
Workspace-übergreifendes Deployment über Entwicklungs- und Produktions-Workspaces sowie verschiedene Cloud-Umgebungen hinweg.
Berechtigungen für Service Principals und Authentifizierung für automatisierte Deployments.
### 2.3 Automatisierte Modell-Retraining-Workflows
Retraining-Auslöser, einschließlich zeitgesteuertem Retraining, eventbasiertem Retraining bei neuen Daten, Data Drift, Model Drift oder Leistungsabfall.
Automatisiertes Retraining ausgelöst durch MLflow Registry Webhooks oder Delta Lake Change Data Feed.
Gating-Mechanismen für Retraining-Pipelines, einschließlich Vergleich mit Produktions-Baselines, automatisierter Bewertung, Akzeptanzkriterien und Promotion nur dann, wenn das neue Modell die Produktions-Baseline übertrifft.
Fehlerbehandlung, Alarmierung, Rollback-Mechanismen und vollständige Beobachtbarkeit der Pipeline.
End-to-End-Protokollierung, Metriken und Lineage Tracking für Retraining-Workflows mit tiefer Integration in MLflow und Lakehouse Monitoring.
Automatisierte Benachrichtigungen und Freigabeprozesse für Retraining-Ergebnisse.
Implementierung eines Champion-Challenger-Frameworks, einschließlich automatischem Vergleich zwischen Produktionsmodell und neu trainierten Challenger-Modellen, A/B-Tests und Umschaltprozessen in der Produktion.
### 2.4 Monitoring und Drift-Erkennung mit Lakehouse Monitoring
Kernarchitektur von Lakehouse Monitoring, einschließlich Konfiguration von Monitoring Assets, Berechnung und Speicherung von Metriken sowie nativer Integration mit Delta Lake.
Erkennung von Data Drift, Feature Drift, Prediction Drift und Label Drift.
Konfiguration und Interpretation von Drift-Statistiken wie PSI, KL-Divergenz, JS-Divergenz und KS-Tests.
Benutzerdefinierte Drift-Schwellenwerte und Alarmregeln.
Kontinuierliches Tracking von Modellleistungsmetriken für Klassifikations-, Regressions- und Zeitreihenmodelle, einschließlich Accuracy, AUC, RMSE und MAE.
Automatische Erkennung und Alarmierung bei Leistungsabfall des Modells.
Integration von Drift- oder Degradationsereignissen mit automatisierten Retraining-Workflows.
Dashboards für Ursachenanalyse und historische Monitoring-Trendanalyse.
### 2.5 Compliance und Governance für ML-Systeme
End-to-End-Lineage Tracking von Rohdaten, Feature Engineering, Modelltraining, Deployment und Inferenz.
Vollständige Nachvollziehbarkeit für Compliance-Audits.
Feingranulare Zugriffskontrolle für ML-Ressourcen über Unity Catalog, einschließlich Feature-Tabellen, Modelle, Experimente und Serving Endpoints.
Least-Privilege-Konfiguration für Service Principals.
Automatische Erstellung von Modell-Erklärbarkeitsberichten, Fairness-Audits, Bias-Mitigation-Workflows und unternehmenskonformer Dokumentation des Modelllebenszyklus.
## 3. Model Deployment 12 %
Dieses Modul konzentriert sich auf die produktionsreife Veröffentlichung und Verwaltung von Modelldiensten. Es bewertet die Fähigkeit, Modelle in unterschiedlichen Serving-Szenarien bereitzustellen, benutzerdefinierte Model Services zu implementieren und den Release-Lifecycle von Modellen auf Databricks zu verwalten. Es deckt die offiziellen Kernbereiche ab: Deployment-Strategien, Custom Model Serving und Model Release Management.
### 3.1 Unternehmensweite Modellbereitstellungsstrategien und Szenarioauswahl
Zentrale Deployment-Szenarien und Best Practices:
Batch Inference: Entwicklung und Optimierung groß angelegter Offline-Inferenz-Pipelines, inkrementelle Inferenz mit Delta Lake, Ressourcenplanung für verteilte Inferenz und Performance-Optimierung.
Streaming Inference: Echtzeitfähige inkrementelle Inferenz-Pipelines mit Structured Streaming, Exactly-Once-Garantien und Integration mit Message Queues wie Kafka.
Real-Time Serving: Low-Latency-Online-Inferenz, SLA-Anforderungen und Ressourcenkonfiguration.
Auswahl des passenden Deployment-Szenarios auf Basis von Latenzanforderungen, Datenvolumen und Kostenrahmen.
Strategien zur Sicherstellung der Konsistenz zwischen Training und Inferenz in produktiven ML-Systemen.
### 3.2 Benutzerdefiniertes Model Serving
Databricks Model Serving Architektur, einschließlich Konfiguration und Verwaltung serverloser Echtzeit-Inferenz-Endpunkte.
Konfiguration GPU-beschleunigter Inferenz-Endpunkte und Autoscaling-Strategien.
Entwicklung benutzerdefinierter Model Services mit individueller Vor- und Nachverarbeitungslogik.
Deployment von Multi-Modell-Inferenzdiensten und benutzerdefinierten Python-Function-Modellen.
Konfiguration benutzerdefinierter Abhängigkeiten, Umgebungsvariablen und privater Container Images.
Integration von Serving Endpoint REST APIs mit externen API Gateways und Geschäftssystemen.
Token-Authentifizierung, Zugriffskontrolle über Service Principals, Netzwerkisolation von Endpunkten und Compliance-Konfiguration.
Integration von Feature Serving, einschließlich automatischem Feature Lookup aus dem Online Feature Store während der Inferenz zur Vermeidung von Training-Serving-Skew.
Implementierung der Logik zur Kombination von Online-Features mit Request-Time-Daten.
### 3.3 Model Release und Produktions-Lifecycle-Management
Governance des Modell-Release-Prozesses von Staging bis Production, einschließlich Freigabe-Workflows, Lasttests vor dem Release, Performance-Validierung und Compliance-Prüfungen.
Canary-Deployment-Strategien, Traffic Splitting, Traffic-Zuweisung auf mehrere Modellversionen und dynamische Traffic-Anpassung.
Implementierung von A/B-Tests in Produktionsumgebungen.
Blue-Green-Deployment-Strategien, schnelle Rollback-Mechanismen, Degradationsstrategien und fehlertoleranter Betrieb.
Echtzeit-Monitoring von Latenz, Durchsatz, Fehlerraten und Ressourcenauslastung von Serving Endpoints.
Konfiguration von Alarmregeln und Incident-Response-Workflows.
::inbox-item{title="ML Professional Text auf Deutsch" summary="Vollständige deutsche Version fertig"}