SPARKANOS
Aprenda a desenvolver um Data Lake 100% Open Source
Bem Vindo ao
SPARKANOS
Bem-vindo ao curso "Sparkanos", onde a força, a disciplina e a estratégia dos antigos espartanos são trazidas para o mundo do Big Data. Inspirado pelos guerreiros que se preparavam incansavelmente para grandes batalhas, este curso foi criado para equipar você com as habilidades necessárias para enfrentar e vencer os desafios do mercado de dados atual.
Neste treinamento intensivo, você aprenderá a dominar Apache Spark, MiniO, Trino, Apache Superset, Airflow e Open Metadata, integrando essas ferramentas para criar um lakehouse com quatro camadas robustas: landing zone, bronze, silver e gold. Prepare-se para uma jornada que transformará seus dados em informações valiosas e acionáveis, com a precisão e eficiência dos lendários guerreiros.
- Capacitar os participantes a construir e gerenciar um lakehouse completo.
- Ensinar técnicas avançadas de processamento e análise de dados com Apache Spark.
- Implementar um sistema de armazenamento de dados eficiente com MiniO.
- Executar consultas distribuídas de alto desempenho com Trino.
- Desenvolver visualizações e dashboards interativos com Apache Superset.
- Orquestrar fluxos de trabalho e automação de tarefas com Apache Airflow.
- Gerenciar e governar dados eficientemente com Open Metadata.
E o melhor tudo isso num Docker, uma vez desenvolvido todo o projeto do Treinamento você poderá replicar essa arquitetura na sua empresa e gerar ainda mais valor nos teus projetos.
O que você irá aprender no SPARKANOS
PySpark e Scala
Spark Submit
Notebooks
Spark SQL
Recursos do Delta
Time Travel
Change Data Feed
Vacuum
Evolução de Esquema
Merge
Ingestão de Dados no Lake
Extração de dados do PostgreSQL com um pipeline dinâmico
Criação de funções reutilizáveis
Particionamento de tabelas (por mês/ano)
Escrita de dados em Parquet na camada de landing
Construção do Lakehouse
Construção das camadas bronze/prata/ouro
Carga Completa
Carga Incremental
Geração de Dados em Quase Tempo Real
Processamento em Quase Tempo Real (Spark Structured Streaming)
Orquestração de Dados
Construção de DAG para Airflow
Operadores do Airflow
Operador Docker
Agendamento de DAG
Catálogo e Governança de Dados
Catálogo de dados com Open Metadata
Testes de Qualidade de Dados com Open Metadata
Depoimentos
Desenho da solução do Curso
APRENDIZADO GARANTIDO
O Aluno que participar do treinamento e conseguir colocar em prática o conteúdo do treinamento estará preparado não só para diversos projetos na área quanto para começar a prestar a sua próprias consultorias, pois tem o que os clientes procuram: Conhecimento e também entregar valor para as empresas.
E claro, a nossa metodologia tão reconhecida pelos nossos alunos, 99% Hand-ons, onde iremos criar uma plataforma de dados juntos, etapa por etapa! São 16 horas de Treinamento com muito conteúdo compartilhado e também com um network com diversos profissionais da área de dados!
Aproveite essa incrível oportunidade em mais um lançamento da Arruda Consulting.
Sobre o Instutor
Wallace Camargo
MBA em Business Intelligence (BI) - Administrador, profissional com mais de 6 anos de experiência na área de dados, tendo trabalhado focado em análise no início e desde de 2022 totalmente dedicado à engenharia de dados.