Logo XP Educacao
logo_xpe

Aproveite nosso investback:

acesse diversos bootcamps com 40%

Bootcamp
Engenheiro de Dados

Aprenda com especialistas do mercado a trabalhar com Engenharia de Dados na construção e automatização de pipelines de dados e em outras soluções envolvendo etapas de coleta, preparação, armazenamento e processamento de dados.

Matricule-se

Acelere sua jornada profissional.

Muito além do Bootcamp

Você se matricula para realizar o Bootcamp e acessa uma plataforma completa com muito mais conteúdo para você.

Quero me matricular

Hub de Conexões

Estude com profissionais de grandes empresas

Início das aulas

A partir de

13 de junho

Duração

10 semanas

Certificado

Ao vivo e online

Mundo real, problemas reais

Aqui você aprende com desafios reais, de empresas reais, com interação de alunos e professores. 


Assim como fará a vida toda.

Conheça o conteúdo do bootcamp

  • Módulo 0 - As linguagens SQL e Python

    • Teoria de Banco de Dados Relacional e as 12 regras de Codd
    • Overview de Teoria de Conjuntos e Álgebra Relacional
    • Introdução à Linguagem SQL
    • Padrão ANSI / ISO SQL
    • As Classes da Linguagem SQL: DDL, DML, TCL e DCL
    • Overview do SQL Server
    • Linguagem de Definição de Dados (DDL)
    • Linguagem de Manipulação de Dados (DML)
    • Código Armazenado (procedures, functions, triggers e views)
    • Propriedades ACID
    • Linguagem de Controle de Transação (TCL)
    • Linguagem de Controle de Acesso a Dados (DCL)
    • Interoperabilidade (queries distribuídas)
    • Introdução à Linguagem Python
    • Lógica de programação Python
    • Programação Orientada a Objetos em Python
    • Estruturas de Dados em Python
    • Estruturas de repetição (loop)
    • Fundamentos dos pacotes Pandas e Numpy

  • Módulo 1 - Fundamentos em Engenharia de Dados

    Tópicos de Estudo


    • Tipos de Workloads de Dados
    • Transacional (OLTP)
    • Analítico (OLAP): batch e streaming
    • Conceitos básicos de Big Data, Data Lake, Data Lakehouse e Delta Lake
    • Introdução à Engenharia de Dados
    • Visão geral do pipeline de ciência de dados: coleta, preparação, armazenamento, processamento/análise, visualização
    • O processo de Engenharia de Dados
    • ETL x ELT
    • Papéis, responsabilidades, hard e soft skills do(a) Engenheiro(a) de Dados
    • Visão geral dos processos de coleta, armazenamento e preparação de dados
    • Exemplo prático de coleta, preparação e armazenamento de dados
    • Formatos de Dados mais usados no pipeline de Engenharia de Dados
    • JSON
    • Parquet
    • ORC (Optimized Row Columnar)
    • Avro
    • Arrow
    • SequenceFile
    • Mineração de Dados
    • Pré-processamento de dados: limpeza, integração e transformação
    • Seleção de atributos
    • Técnicas de mineração de dados: associação, classificação, agrupamento e análise de sequências
    • Avaliação de modelos de mineração de dados
    • Arquitetura de dados batch, realtime e near-realtime
    • Arquitetura Lambda x Arquitetura Kappa
    • Arquitetura orientada a eventos (Event-driven Architecture)
    • Arquitetura de microsserviços
    • Conceitos e aplicações
    • Virtualização x containers
    • Docker e Kubernetes: conceitos básicos
    • Kubernetes na prática
    • Modern Data Stack
    • Data Mesh
    • Zero ETL Approach
    • DataOps

    ------------------------------------------------------



    Trabalho Prático


    Dado um determinado cenário organizacional, elaborar um projeto de engenharia de dados para solucionar determinado problema, contemplando desde os formatos de dados a serem usados, até a arquitetura mais adequada para a implantação do pipeline.


    ------------------------------------------------------



    Desafio


    A ser alinhado entre o professor e o coordenador do curso.

  • Módulo 2 - Pipeline de Dados

    Tópicos de Estudo


    • Atividades do pipeline de dados: aquisição, transformações, ingestão
    • Coleta (extração) de Dados
    • Fontes de dados
    • Métodos de coleta de dados
    • Ferramentas de coleta de dados
    • Boas práticas de coleta de dados
    • Extração de Dados do Twitter
    • Configurando uma conta de DEV no Twitter
    • Criando um app e pegando as chaves de acesso
    • Construindo um crawler para fazer streaming de tweets
    • Processamento (transformação) de Dados
    • Modelos de processamento de dados
    • Ferramentas e tecnologias de processamento de dados
    • Técnicas de transformação de dados
    • Boas práticas de processamento de dados
    • Transformação de Dados Extraídos do Twitter
    • Entendendo o formato do tweet
    • Limpeza e organização dos dados do Twitter
    • Ingestão de dados do Twitter
    • Soluções de ETL
    • Introdução às Soluções de ETL
    • Pentaho
    • Apache Nifi e Apache Airflow
    • KubeFlow
    • Prefect
    • Data Flow na prática com AirFlow
    • Instalação do AirFlow
    • AirFlow rodando na nuvem
    • Tasks do AirFlow
    • Programando execuções do Pipeline
    • Condicionais
    • Paralelismos
    • Integrações para entrega
    • Soluções de Telemetria para Pipelines de Dados
    • Coletando métricas com o Prometheus
    • Criando Dashboards com Grafana
    • Monitorando o pipeline de ponta a ponta

    -----------------------------------------------------



    Trabalho Prático


    Implementação de um ETL.



    ------------------------------------------------------



    Desafio


    Implementação de um Data Flow com AirFlow.

  • Módulo 3 - Soluções de Big Data e Data Lake

    Tópicos de Estudo


    • Computação distribuída, conceitos básicos;
    • Arquiteturas para projetos de Big Data;
    • Ecossistema Apache Hadoop
    • Arquitetura;
    • Principais componentes;
    • Hadoop Distributed File System (HDFS);
    • Hive: processamento de dados em SQL;
    • Pig: processamento de dados em linguagem de script;
    • HBase: banco de dados NOSQL;
    • Spark: processamento de dados em memória;
    • Kafka: plataforma de streaming de dados;
    • ZooKeeper: sistema de coordenação distribuída.
    • MapReduce
    • Conceitos básicos de processamento distribuído de dados;
    • Arquitetura do MapReduce;
    • Fases do MapReduce: map, shuffle e reduce;
    • Exemplos de aplicações com MapReduce.
    • Arquitetura de Data Lake
    • Camadas Bronze (RAW Data), Prata e Ouro;
    • Modelagem de Data Lake com Apache Hadoop;
    • Soluções de Data Lake em Nuvem.
    • Apache Spark
    • Introdução ao Apache Spark;
    • Vantagens e desvantagens do Spark;
    • Estudos de Caso;
    • Arquitetura e Conceitos do Apache Spark;
    • Instalação e Configuração do Apache Spark;
    • Primeiro programa com Spark: contando números;
    • Transformações e ações no Apache Spark;
    • Desempenho de Operações no Apache Spark.
    • Estratégias de particionamento de dados;
    • API de Dataframes
    • Introdução aos Dataframes;
    • Transformações sobre Dataframes;
    • Estatística Descritiva com Dataframes.
    • Utilizações do Apache Spark: PySpark, Spark SQL, Scala;
    • Spark SQL
    • A Linguagem SQL e Engenharia de Dados;
    • Consultas com Spark SQL;
    • Formatos de Dados;
    • Fontes de Dados;
    • Usando UDFs no Spark.
    • Processamento de Dados Massivos;
    • Leituras de arquivos de diversos formatos (CSV, json, parquet, ORC);
    • Escrita de arquivos em diversos formatos (CSV, json, parquet, ORC);
    • Técnicas de otimização do Spark;
    • Outros módulos do Spark
    • Spark ML;
    • Spark GraphX.
    • Spark na Nuvem.

    ------------------------------------------------------



    Trabalho Prático



    Implementação de uma arquitetura para Data Lake.


    ------------------------------------------------------



    Desafio


    Implementação de uma solução usando Spark.

  • Módulo 4 - Fluxos Contínuos de Dados

    Tópicos de Estudo


    • Event Stream;
    • Stream Processing Applications;
    • Arquitetura de Sistemas de Stream
    • Arquiteturas orientadas a evento;
    • Lambda Architecture;
    • Kappa Architecture.
    • Apache Kafka
    • Arquitetura do Kafka;
    • Operações básicas de gerenciamento de tópicos no Kafka;
    • Replicação de dados e tolerância a falhas no Kafka.
    • Apache Flink
    • Conceitos básicos de processamento de fluxos de dados com Flink;
    • Arquitetura do Flink;
    • Operações básicas de processamento de fluxos com Flink;
    • Exemplos de aplicações com Flink;
    • Operadores de fluxos em Flink;
    • Processamento de janelas em Flink;
    • Processamento de padrões em Flink;
    • Uso de APIs de alto nível em Flink;
    • Processamento de gráficos em Flink;
    • Processamento de streams SQL em Flink.
    • Apache Spark Streaming
    • Conceitos básicos de processamento de fluxos de dados com Spark Streaming;
    • Arquitetura do Spark Streaming;
    • Operações básicas de processamento de fluxos com Spark Streaming;
    • Exemplos de aplicações com Spark Streaming;
    • Operadores de fluxos em Spark Streaming;
    • Processamento de janelas em Spark Streaming;
    • Processamento de padrões em Spark Streaming;
    • Uso de APIs de alto nível em Spark Streaming;
    • Processamento de gráficos em Spark Streaming;
    • Processamento de streams SQL em Spark Streaming;
    • Integração do Spark Streaming com outras tecnologias de big data;
    • Boas práticas de desenvolvimento com Spark Streaming.

    ------------------------------------------------------



    Trabalho Prático


    Coleta de dados em redes sociais ou simuladores de dados utilizando Kafka.



    ------------------------------------------------------


    Desafio


    Processamento de Dados near real time usando Spark Streaming.

  • Desafio Final

    Desenho e implementação de uma solução completa de dados utilizando ferramentas batch e de processamento de dados real time.


Nós investimos na sua carreira.

Assine agora

Invista na sua carreira em tecnologia e alcance seus objetivos

Habilite-se para conduzir o planejamento e a implementação de soluções integradas envolvendo etapas de coleta, preparação, armazenamento e processamento do pipeline de dados, com as melhores tecnologias de gerenciamento no mercado e por meio de arquiteturas escaláveis e robustas.

Estude de forma imersiva, prática e interativa

Imersivo

Abordagem hands-on de alto impacto para formar skills técnicas muito mais rápido que o ensino tradicional.

Prático

Programa de ensino imersivo focado nas habilidades técnicas para atuar imediatamente no mercado de trabalho.

Interativo

Aulas semanais ao vivo e online para facilitar o aprendizado e o networking com os colegas do bootcamp.

Aprenda com quem faz

Conheça seus professores

Aqui você aprende com especialistas que respiram a atmosfera do mercado e que vão conduzir a sua carreira rumo ao sucesso.

Marcílio Andrade

Desde 1999 na área de TI com atuação técnica e gerencial em diversos projetos de diferentes áreas de negócios. Nesse período, vivenciando cenários heterogêneos de missão crítica e com tecnologias diversas como: Business Intelligence/Analytics; Cloud Computing; SAP; sistemas operacionais Windows, Linux e AIX; plataformas Intel e Power; bases SQL Server, DB2, Progress, Oracle e Couchbase.

Certificado digital da XP Educação

Ao chegar ao fim do bootcamp, você receberá seu certificado oficial da XP Educação, para evidenciar sua conquista e fortalecer o seu posicionamento no mercado.

Investimento

Faça esse bootcamp e muitos outros por apenas

R$ 39/mês

Assine agora

Referente a assinatura anual em 12x da plataforma XP Educação Multi+.

XP Educação, uma empresa

Nascemos de um sonho grande de transformar a educação com a mesma lógica de quem transformou o mercado financeiro.


Aqui, o mercado é sua sala de aula.

XP Educação 

A escola que nasceu dentro da XP, uma empresa inovadora e disruptiva.

Inovação

Ensino prático, imersivo e interativo, com aulas ao vivo e online, com tecnologia e qualidade.

Portfólio

Graduações e Pós-graduações em Tech, Gestão e Finanças, além de bootcamps e conteúdos abertos. 

100% dos professores

São profissionais atuantes no mercado. Aprenda com quem está na linha de frente de grandes empresas.

Share by: