Formação - Data Science

Modalidade

100% online

Início

Outubro/2020

Tempo de acesso ao conteúdo

6 meses

Forma de Pagamento

Parcelado no cartão ou à vista no boleto

Objetivo do curso

Com esta formação, você estará preparado para realizar a análise de dados com a ferramenta Python e apresentar informações mais assertivas para tomar decisões.

Nossos professores

Cássia Sampaio

Felipe Farias

Guilherme Silveira

Rodrigo Fernando Dias

  1. Começando com Data Science
  2. Aprenda a utilizar as bibliotecas Python para realizar uma análise aprofundada dos seus dados.

    Módulo: Data Science: Primeiros Passos

    Conteúdo detalhado:

    • Data Science: dados e visualizações - Conhecendo nossos dados e o pandas, visualizando dados com histograma e boxplot;
    • Análise exploratória e Variáveis - Análise exploratória de dados e mais gráficos, tipos de variáveis;
    • Data visualization e Estatística - Visualizando gráficos por categoria, passando uma mensagem através de visualização, visualizando as outras categorias, refinando visualizações, média, mediana, desvio padrão, boxplot, histograma, tendência central e dispersão, como tudo isso se encaixa.

    Módulo: Data Science: Introdução ao Python Pandas

    • Conhecendo Jupyter - Introdução, instalação Anaconda, ambiente Virtual;
    • Importando dados - Importando a base, conhecendo o Jupyter, conhecendo a base de dados, informações de um Data Frame, (Opcional) Importando dados de outras fontes, funções para obtenção de dados;
    • Limpando observações - Projeto da aula anterior, removendo valores repetidos, utilizando métodos no pandas, redefinindo o index, índice das linhas de um Data Frame, (Opcional) criando estruturas de dados #1, (Opcional) criando estruturas de dados #2, conhecendo melhor as estruturas de dados, formas de criação de um DataFrame;
    • Filtrando imóveis - Projeto da aula anterior, imóveis residenciais, determinando seleções, exportando base de dados, revisando o que aprendemos, (Opcional) organizando dataframes, o funcionamento do sort_index, mais sobre classificações;
    • Frequências de imóveis - Projeto da aula anterior, seleções e frequências, Data Frame para os próximos exercícios, seleções de nível;
    • Tratando de dados faltantes - Projeto da aula anterior, tirando valores nulos, conhecimentos básicos sobre missing values, tratamento condicional, revisando o processo, (Opcional) métodos de interpolação, preenchendo dados faltantes;
    • Novas variáveis - Projeto da aula anterior, criando novas variáveis, identifique o erro na criação de variáveis, excluindo variáveis, métodos de exclusão de variáveis, (Opcional) contadores, testando moedas;
    • Estatísticas descritivas - Projeto da aula anterior, criando agrupamentos, sumarizando informações, estatísticas descritivas, selecionando as estatísticas descritivas, (Opcional) criando faixas de valor, conhecendo a função cut();
    • Removendo Outliers - Projeto da aula anterior, identificando e Removendo Outliers, estatísticas do box plot, identificando e removendo Outliers por Grupo, sobre o box plot, (Opcional) mais sobre gráficos, a biblioteca matplotlib, consolidando o seu conhecimento, projeto do curso.
  3. Modelos Data Science
  4. Utilize a técnica de Regressão Temporal para compreender as variáveis existentes e como distribuir os seus dados.

    Módulo: Data Analytics: introdução a séries temporais e análises

    Conteúdo detalhado:

    • Séries temporais - O que são, cuidados ao trabalhar com séries temporais, posição, velocidade e aceleração, corrigindo valores com dias úteis e fins de semana, carregando um CSV no Google Docs;
    • Mais séries temporais - Trabalhando com dados em branco, estimando valores em branco suavização (smoohing) e médias móveis4, decomposição de séries temporais: Tendência, sazonalidade e ruído, sazonalidades aditivas e multiplicativas;
    • Dados e estatísticas básicas - Histogramas e distribuições, medidas de tendência central: Média, Mediana, Desvio Padrão, crescimento mês a mês: média geométrica, comparando os tipos de médias: Aritmética, Geométrica e Harmônica, como calcular o churn (perda de clientes), análise de grupos (Cohort), tempo médio de vida.

    Módulo: Data Science: Modelo e Regressão Linear

    Conteúdo detalhado:

    • Análises preliminares - Projeto inicial do treinamento, conhecendo o dataset, criando um DataFrame pandas, fontes de dados, análises preliminares, correlação entre as variáveis;
    • Comportamento da variável dependente - Projeto da aula anterior, comportamento da variável dependente, utilizando o matplotlib, box plot, por que utilizar um box plot?, box plot com duas variáveis, comparando distribuições, distribuição de frequências, avaliando a distribuição da variável dependente;
    • Variável dependente vs Variáveis explicativas - Projeto da aula anterior, Pairplot, relação entre as variáveis do modelo, Jointplot, ferramentas gráficas, Lmplot, mais sobre a dispersão dos dados;
    • Datasets de treino e teste - Projeto da aula anterior, datasets de treino e teste, machine Learning, conjuntos de treino e teste, estimando um modelo de regressão linear, estimando um modelo de regressão linear, obtendo previsões pontuais, obtendo previsões com o modelo estimado, interpretação dos coeficientes estimados, significado dos parâmetros, análises gráficas das previsões, obtendo os resíduos do modelo, gráficos de análise;
    • Comparando modelos - Projeto da aula anterior, comparando modelos, comparação entre modelos, outras métricas de regressão, métricas de comparação;
    • Salvando e carregando o modelo - Projeto da aula anterior, salvando e carregando o modelo, armazenando o nosso modelo em um arquivo, regressão Linear - Novo Projeto - Exercício, revisando o conteúdo, regressão Linear - Novo Projeto - Solução, revisando o conhecimento um pouco mais, simulador interativo, criando formulários interativos no Jupyter, consolidando o seu conhecimento, projeto do curso.

    Módulo: Data Science: Regressão, assimetria, statsmodel

    Conteúdo detalhado:

    • Análises preliminares - Conhecendo o dataset, obtendo informações de um DataFrame pandas, análises preliminares, avaliação descritiva dos dados do modelo;
    • Análises gráficas - Projeto da aula anterior, comportamento da variável dependente, box-Plot, distribuição de frequências, assimetria dos dados, dispersão entre as variáveis, relação entre variáveis dependente e explicativas;
    • Transformação de variáveis - Projeto da aula anterior, transformando os dados, por que transformar os dados?, verificando a relação linear, um pouco mais sobre transformações logarítmicas;
    • Regressão linear com StatsModels - Projeto da aula anterior, criando os datasets de treino e teste, procedimento padrão em Data Science, estimando um modelo de regressão linear com o StatsModels, trabalhando com StatsModels, teste formais de regressão linear, avaliando o modelo estimado, interpretando os testes, modificando o modelo e avaliando o ajuste;
    • Regressão linear com Scikit Learn - Projeto da aula anterior, estimando o modelo com os dados de treino, processo de estimação, obtendo previsões pontuais, previsões com dados transformados, interpretação dos coeficientes estimados, entendendo o significado dos parâmetros estimados, análises gráficas dos resultados do modelo, verificando os resultados da estimação, consolidando o seu conhecimento, projeto do curso.
  5. Visualização de Dados
  6. Aprenda como a construção de gráficos é essencial para a análise de dados.

    Módulo: Data Visualization parte 1: Introdução ao design de gráficos

    Conteúdo detalhado:

    • A importância do uso dos gráficos para a visualização dos dados - Introdução, diferença entre a tabela e gráfico de linha, o gráfico de linha e a informação que queremos passar, alterando a informação ao alterar o título, destacando pontos principais do gráfico, corrigindo o gráfico;
    • Analisando três conjuntos de dados - Criando os gráficos da Ana, João e Camila, limpando os gráficos do João e da Camila, entendendo a tendência do gráfico da Camila, destacando as informações com cores, visualizando o gráfico em preto e branco, melhorando a legenda, exibindo valores e reais na linha, entendendo a Visão Z;
    • Aprendendo como passar informação e usando fórmulas para explorar os dados - Apresentando os dados de modo resumindo, usando fórmulas na planilha, modos de mostrar o valor total e o valor da meta, análise dos dados e problemas oriundos da perda de informação, mais sobre a perda de informação com o uso de dados extrapolados;
    • A questão do gráfico de pizza - Cinema e pizza, pizza, e agora?, desafio dos números, salvando a pizza;
    • Usando outros gráficos: colunas e barras - Explorando as possibilidades com o gráfico de colunas, aproximando o gráfico de colunas do gráfico de pizza, inclusão do percentual no gráfico de barra, limpando o gráfico de barras, finalizando o gráfico de barras.

    Módulo: Data Visualization parte 1: Introdução ao design de gráficos

    Conteúdo detalhado:

    • Visualizando a composição - A pizza estática, a pizza estática, empilhamento, temos períodos demais, o sanduíche de áreas;
    • Visualizando a comparação - Composição e comparação, uma comparação com muitos dados, o radar de comparações, diferença entre radar e linhas;
    • Visualizando o relacionamento - Sem comparação ou composição, dispersão e relacionamento, de duas para três dimensões nas bolhas, bolhas qualificadas;
    • Visualizando a distribuição - Distribuição de notas, distribuição e dispersão;
    • Alguns princípios da Gestalt - Proximidade, semelhança, continuidade.


  7. Testes com Data Science
  8. Neste módulo, você levantará hipóteses, entenderá o processo de distribuição de dados, e por fim, usará a linguagem Python para realizar testes.

    Módulo: Data science: introdução a testes estáticos com Python

    Conteúdo detalhado:

    • Visualização da distribuição dos dados coletados - Introdução, limpando os dados e visualizando uma distribuição, visualizando e limpando o movielens, visualizando a CDF;
    • Quantis - Visualizando outras informações e quantis quaisquer de forma numérica;
    • Teste com uma amostra - O efeito do tamanho de uma amostra, intervalo de confiança da média com t e ztest;
    • Dificuldades práticas - ZTest para uma amostra, problemas de amostras pequenas;
    • Teste de uma variável com duas amostras - Comparando a média de duas amostras, visualizando graficamente, cuidado ao interpretar o intervalo de confiança;
    • Normalidade e não paramétricos - Comparando filmes, comparação não paramétrica com Wilcoxon Ranksums.

Workshop

Acontecerá um workshop no semestre, em que todas as turmas dos bootcamps serão reunidas para solucionar um problema de negócios em conjunto.

Webinars

Além dos conteúdos das aulas e workshop presencial, você poderá participar de webinars exclusivos com convidados especialistas nos temas dos módulos para conversar sobre trending topics específicos do mercado e aplicações práticas no seu dia a dia. Ao todo, serão 2 webinars ao longo do curso.

Powered by: