Introdução à Estatística
1.1 O que é Estatística?
Estatística é o ramo da matemática que se preocupa com a coleta, análise, interpretação e apresentação de dados. Ela pode ser dividida em dois principais subcampos:
- Estatística Descritiva: Focada na descrição e resumo dos dados.
- Estatística Inferencial: Usa uma amostra dos dados para fazer previsões ou generalizações sobre uma população.
Exemplo em Python (bibliotecas necessárias: pandas, NumPy):
import pandas as pd
import numpy as np
# Exemplo de dados
dados = [10, 20, 30, 40, 50]
media = np.mean(dados)
mediana = np.median(dados)
moda = pd.Series(dados).mode()
print(f"Média: {media}, Mediana: {mediana}, Moda: {moda}")
1.2 Tipos de Dados
Os dados podem ser categorizados em dois tipos principais:
- Dados Qualitativos (ou categóricos): Descrevem categorias ou qualidades.
- Dados Quantitativos: Medem quantidades e podem ser discretos ou contínuos.
1.3 Aplicações da Estatística em Diferentes Áreas
Estatística é aplicada em diversas áreas como:
- Saúde (ex.: estudos clínicos),
- Economia (ex.: análise de mercado),
- Tecnologia (ex.: aprendizado de máquina).
Coleta e Organização de Dados
2.1 Métodos de Coleta de Dados
Existem diversos métodos de coleta, como questionários, observações diretas, e experimentos controlados.
2.2 Tabelas e Gráficos
A organização dos dados pode ser feita em tabelas e gráficos, como histogramas e gráficos de barras.
Exemplo de criação de gráfico em Python (usando matplotlib):
import matplotlib.pyplot as plt
# Exemplo de dados
dados = [5, 10, 15, 20, 25]
plt.hist(dados, bins=5)
plt.title('Histograma de Exemplo')
plt.show()
2.3 Frequências e Distribuições de Frequências
As distribuições de frequências organizam dados por contagens de ocorrência.
Medidas de Tendência Central
3.1 Média Aritmética
A média é a soma de todos os valores dividida pelo número de observações.
Exemplo em Python:
dados = [1, 2, 3, 4, 5]
media = np.mean(dados)
print(f"Média: {media}")
3.2 Mediana
A mediana é o valor central em um conjunto de dados ordenados.
Exemplo em Python:
mediana = np.median(dados)
print(f"Mediana: {mediana}")
3.3 Moda
A moda é o valor que ocorre com maior frequência.
Exemplo em Python:
moda = pd.Series(dados).mode()
print(f"Moda: {moda}")
Medidas de Dispersão
4.1 Variância e Desvio Padrão
A variância mede o quanto os dados se desviam da média, enquanto o desvio padrão é a raiz quadrada da variância.
Exemplo em Python:
variancia = np.var(dados)
desvio_padrao = np.std(dados)
print(f"Variância: {variancia}, Desvio Padrão: {desvio_padrao}")
4.2 Amplitude e Intervalo Interquartil
A amplitude é a diferença entre o maior e o menor valor, enquanto o intervalo interquartil mede a dispersão dos dados em quartis.
Exemplo em Python:
amplitude = np.ptp(dados)
q1 = np.percentile(dados, 25)
q3 = np.percentile(dados, 75)
intervalo_interquartil = q3 - q1
print(f"Amplitude: {amplitude}, Intervalo Interquartil: {intervalo_interquartil}")
4.3 Coeficiente de Variação
O coeficiente de variação é a relação entre o desvio padrão e a média.
Probabilidade
5.1 Conceitos Básicos de Probabilidade
A probabilidade é a chance de um evento ocorrer, variando de 0 a 1.
5.2 Probabilidade Condicional
A probabilidade condicional é a probabilidade de um evento ocorrer dado que outro já ocorreu.
5.3 Teorema de Bayes
O Teorema de Bayes calcula a probabilidade de uma hipótese baseada em evidências.
Distribuições de Probabilidade
6.1 Distribuição Binomial
A distribuição binomial modela o número de sucessos em uma sequência de experimentos independentes.
Exemplo em Python (usando scipy):
from scipy.stats import binom
# Probabilidade de obter 3 sucessos em 10 lançamentos de uma moeda (p=0.5)
probabilidade_binomial = binom.pmf(3, 10, 0.5)
print(f"Probabilidade Binomial: {probabilidade_binomial}")
6.2 Distribuição Normal
A distribuição normal é simétrica em torno da média e tem a famosa forma de sino.
Exemplo em Python:
from scipy.stats import norm
# Probabilidade acumulada para z = 1.96 (distribuição normal padrão)
probabilidade_normal = norm.cdf(1.96)
print(f"Probabilidade Normal: {probabilidade_normal}")
6.3 Distribuição de Poisson
A distribuição de Poisson é usada para modelar a ocorrência de eventos em um intervalo de tempo fixo.
Estimativa Estatística
7.1 Estimativa Pontual
A estimativa pontual fornece uma estimativa única de um parâmetro populacional.
7.2 Intervalo de Confiança
O intervalo de confiança fornece uma faixa de valores que, com um certo nível de confiança, contém o parâmetro populacional.
7.3 Tamanho da Amostra e Erro Amostral
O tamanho da amostra afeta a precisão da estimativa, e o erro amostral mede o quão longe a estimativa está do verdadeiro valor populacional.
Teste de Hipóteses
8.1 Hipóteses Nula e Alternativa
A hipótese nula é uma suposição de que não há efeito, enquanto a hipótese alternativa sugere o contrário.
8.2 Testes Z e Testes T
Os testes Z e T são usados para comparar médias de diferentes grupos.
8.3 Erro Tipo I e Erro Tipo II
O erro tipo I ocorre ao rejeitar uma hipótese nula verdadeira, enquanto o erro tipo II ocorre ao não rejeitar uma hipótese falsa.
Correlação e Regressão
9.1 Coeficiente de Correlação de Pearson
Mede a força e a direção da relação linear entre duas variáveis.
Exemplo em Python:
from scipy.stats import pearsonr
# Exemplo de duas variáveis
x = [1, 2, 3, 4]
y = [2, 3, 4, 5]
correlacao, _ = pearsonr(x, y)
print(f"Correlação de Pearson: {correlacao}")
9.2 Regressão Linear Simples
Modela a relação entre uma variável dependente e uma independente.
9.3 Regressão Múltipla
Extensão da regressão linear para múltiplas variáveis independentes.
Análise de Variância (ANOVA)
10.1 Conceito de ANOVA
A ANOVA é usada para comparar as médias de três ou mais grupos.
10.2 ANOVA de Um Fator
Compara as médias entre grupos baseados em um único fator.
10.3 ANOVA de Dois Fatores
Compara médias considerando dois fatores independentes.
Esta apostila cobre os principais conceitos de estatística e como implementá-los usando Python.

Leave a comment