Capítulo 4: Inferência Estatística

4.1. Introdução à Inferência Estatística

A inferência estatística é o processo de fazer afirmações ou previsões sobre uma população com base em uma amostra de dados. Ela permite que os estatísticos tirem conclusões e façam generalizações a partir dos dados coletados.

Objetivos da Inferência Estatística

Os principais objetivos da inferência estatística são:

  • Estimativa: Determinar valores aproximados para parâmetros populacionais a partir de dados amostrais.
  • Testes de Hipótese: Verificar se os dados suportam uma hipótese específica sobre a população.
  • Previsão: Fazer previsões sobre futuros dados ou eventos com base nas observações atuais.

4.2. Estimativas e Intervalos de Confiança

Estimativas Pontuais

Uma estimativa pontual é um valor específico calculado a partir de dados amostrais para estimar um parâmetro populacional. Por exemplo, a média amostral pode ser usada como uma estimativa da média populacional.

Exemplo com Python:

Vamos calcular a estimativa pontual da média a partir de uma amostra.

import numpy as np

# Gerando uma amostra
sample_data = [23, 29, 31, 35, 28, 30, 33, 27, 31, 29]
sample_mean = np.mean(sample_data)

print(f"Estimativa Pontual da Média: {sample_mean}")

Intervalos de Confiança

Um intervalo de confiança fornece um intervalo estimado que é provável conter o valor do parâmetro populacional. É expresso como uma faixa de valores ao redor da estimativa pontual.

Fórmula para Intervalo de Confiança (para a média):
[ \text{IC} = \bar{x} \pm z \left(\frac{\sigma}{\sqrt{n}}\right) ]
onde:

  • ( \bar{x} ) é a média amostral,
  • ( z ) é o valor crítico da distribuição normal,
  • ( \sigma ) é o desvio padrão da amostra,
  • ( n ) é o tamanho da amostra.

Exemplo com Python:

Vamos calcular um intervalo de confiança de 95% para a média amostral.

import scipy.stats as stats

# Dados da amostra
sample_mean = np.mean(sample_data)
sample_std = np.std(sample_data, ddof=1)
sample_size = len(sample_data)

# Valor crítico para 95% de confiança
z_score = stats.norm.ppf(0.975)

# Calculando o intervalo de confiança
margin_of_error = z_score * (sample_std / np.sqrt(sample_size))
confidence_interval = (sample_mean - margin_of_error, sample_mean + margin_of_error)

print(f"Intervalo de Confiança de 95%: {confidence_interval}")

4.3. Testes de Hipótese

Os testes de hipótese são procedimentos usados para avaliar a evidência fornecida pelos dados amostrais em relação a uma hipótese específica sobre a população.

Hipóteses Nula e Alternativa

  • Hipótese Nula (H₀): A hipótese que se deseja testar, geralmente afirmando que não há efeito ou diferença.
  • Hipótese Alternativa (H₁): A hipótese que representa um efeito ou diferença que se deseja provar.

Erro Tipo I e Tipo II

  • Erro Tipo I (α): Rejeitar a hipótese nula quando ela é verdadeira.
  • Erro Tipo II (β): Não rejeitar a hipótese nula quando ela é falsa.

Teste t para a Média

O teste t é usado para comparar a média amostral com um valor conhecido ou com a média de outra amostra. É especialmente útil quando o tamanho da amostra é pequeno e a variância populacional é desconhecida.

Fórmula para o teste t:
[ t = \frac{\bar{x} – \mu}{s / \sqrt{n}} ]
onde:

  • ( \bar{x} ) é a média amostral,
  • ( \mu ) é a média populacional conhecida,
  • ( s ) é o desvio padrão amostral,
  • ( n ) é o tamanho da amostra.

Exemplo com Python:

Vamos realizar um teste t para verificar se a média amostral é significativamente diferente de um valor conhecido.

from scipy import stats

# Dados do teste
known_mean = 30
t_statistic, p_value = stats.ttest_1samp(sample_data, known_mean)

print(f"Estatística t: {t_statistic}")
print(f"Valor p: {p_value}")

# Decisão baseada no valor p
alpha = 0.05
if p_value < alpha:
    print("Rejeitamos a hipótese nula.")
else:
    print("Não rejeitamos a hipótese nula.")

4.4. Análise de Regressão

A análise de regressão examina a relação entre variáveis. A regressão linear simples, por exemplo, modela a relação entre uma variável dependente e uma variável independente.

Modelo de Regressão Linear Simples

A fórmula da regressão linear simples é:
[ Y = \beta_0 + \beta_1 X + \epsilon ]
onde:

  • ( Y ) é a variável dependente,
  • ( X ) é a variável independente,
  • ( \beta_0 ) é o intercepto,
  • ( \beta_1 ) é o coeficiente da regressão,
  • ( \epsilon ) é o erro.

Exemplo com Python:

Vamos ajustar um modelo de regressão linear simples e visualizar os resultados.

import numpy as np
import matplotlib.pyplot as plt
from sklearn.linear_model import LinearRegression

# Dados de exemplo
X = np.array([1, 2, 3, 4, 5]).reshape(-1, 1)
Y = np.array([2, 4, 5, 4, 5])

# Ajustando o modelo
model = LinearRegression()
model.fit(X, Y)

# Previsões
Y_pred = model.predict(X)

# Visualizando os resultados
plt.scatter(X, Y, color='blue', label='Dados Reais')
plt.plot(X, Y_pred, color='red', linewidth=2, label='Linha de Regressão')
plt.xlabel('X')
plt.ylabel('Y')
plt.title('Regressão Linear Simples')
plt.legend()
plt.show()

Este capítulo aborda os conceitos fundamentais de inferência estatística, incluindo estimativas, intervalos de confiança, testes de hipótese e análise de regressão. Usamos exemplos práticos em Python para ilustrar cada conceito e ajudar na compreensão das técnicas. Nos próximos capítulos, exploraremos tópicos adicionais, como análise de variância e testes não paramétricos, para ampliar ainda mais o conhecimento estatístico.

Edvaldo Guimrães Filho Avatar

Published by

Categories:

Leave a comment