Capítulo 4: Regressão Linear

Após explorar os conceitos de probabilidade e testes de hipóteses, agora entraremos no campo das relações entre variáveis. A regressão linear é uma das ferramentas estatísticas mais usadas para modelar a relação entre uma variável dependente e uma ou mais variáveis independentes. Esse método ajuda a entender como mudanças em uma variável explicativa podem influenciar uma variável de interesse.

4.1 O que é Regressão Linear?

A regressão linear é uma técnica estatística que busca modelar a relação entre duas ou mais variáveis através de uma equação linear. O objetivo principal é prever o valor de uma variável dependente (ou resposta) com base no valor de uma ou mais variáveis independentes (ou preditoras).

4.1.1 Regressão Linear Simples

Na regressão linear simples, temos apenas uma variável independente. A relação entre a variável independente ( X ) e a variável dependente ( Y ) é modelada pela seguinte equação:

[
Y = \beta_0 + \beta_1 X + \epsilon
]

Onde:

  • ( Y ) é a variável dependente (o que queremos prever).
  • ( X ) é a variável independente (o que usamos para fazer a previsão).
  • ( \beta_0 ) é o intercepto (ou constante), que representa o valor de ( Y ) quando ( X = 0 ).
  • ( \beta_1 ) é o coeficiente angular, que indica a inclinação da linha de regressão, ou seja, a quantidade pela qual ( Y ) muda para cada unidade de ( X ).
  • ( \epsilon ) é o termo de erro, representando a diferença entre os valores reais e os valores previstos pelo modelo.

4.1.2 Regressão Linear Múltipla

Na regressão linear múltipla, temos duas ou mais variáveis independentes. A equação do modelo é:

[
Y = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \dots + \beta_n X_n + \epsilon
]

Onde:

  • ( Y ) é a variável dependente.
  • ( X_1, X_2, \dots, X_n ) são as variáveis independentes.
  • ( \beta_1, \beta_2, \dots, \beta_n ) são os coeficientes de regressão associados a cada variável independente.
  • ( \epsilon ) é o termo de erro.

Este modelo permite prever ( Y ) com base em múltiplos fatores.

4.2 Ajuste de uma Linha de Regressão

A principal tarefa na regressão linear é ajustar uma linha reta que melhor descreva a relação entre ( X ) e ( Y ). Isso é feito minimizando o erro entre os valores reais e os valores previstos. O método mais comum para encontrar os coeficientes ( \beta_0 ) e ( \beta_1 ) é o método dos mínimos quadrados, que minimiza a soma dos quadrados dos resíduos ((\epsilon)).

A soma dos quadrados dos resíduos (SQR) é calculada como:

[
SQR = \sum_{i=1}^{n} (Y_i – \hat{Y}_i)^2
]

Onde:

  • ( Y_i ) são os valores reais da variável dependente.
  • ( \hat{Y}_i ) são os valores previstos pela linha de regressão.

O objetivo é minimizar essa soma, obtendo assim a melhor linha de ajuste possível.

4.3 Interpretação dos Coeficientes de Regressão

  • Intercepto (( \beta_0 )): Representa o valor de ( Y ) quando ( X = 0 ). Em alguns casos, o intercepto pode não ter um significado prático, especialmente se ( X = 0 ) não fizer sentido no contexto do problema.
  • Coeficiente Angular (( \beta_1 )): Indica a mudança esperada em ( Y ) para cada unidade adicional de ( X ). Se ( \beta_1 ) for positivo, isso significa que ( Y ) aumenta à medida que ( X ) aumenta. Se for negativo, ( Y ) diminui conforme ( X ) aumenta.

Por exemplo, se estivermos modelando a relação entre o número de horas estudadas e a nota final de um aluno, e ( \beta_1 = 2 ), isso significa que para cada hora adicional de estudo, a nota do aluno aumenta em 2 pontos, em média.

4.4 Medidas de Qualidade do Ajuste

Para avaliar quão bem o modelo de regressão linear ajusta os dados, usamos algumas métricas importantes:

4.4.1 Coeficiente de Determinação (( R^2 ))

O coeficiente de determinação (( R^2 )) mede a proporção da variação total de ( Y ) que é explicada pelo modelo. Ele varia entre 0 e 1, onde:

  • ( R^2 = 1 ) indica que o modelo explica 100% da variação dos dados.
  • ( R^2 = 0 ) indica que o modelo não explica nenhuma variação dos dados.

A fórmula do ( R^2 ) é:

[
R^2 = 1 – \frac{SQR}{SQT}
]

Onde:

  • ( SQR ) é a soma dos quadrados dos resíduos.
  • ( SQT ) é a soma total dos quadrados, que mede a variabilidade total em ( Y ).

4.4.2 Erro Padrão dos Resíduos

O erro padrão dos resíduos mede a variação média dos valores observados de ( Y ) em relação aos valores previstos. Um erro padrão pequeno indica que o modelo está prevendo os valores com boa precisão.

4.4.3 Testes de Significância

Além de avaliar o ajuste geral do modelo, é importante verificar se os coeficientes de regressão (( \beta_1, \beta_2, \dots )) são significativos. Para isso, usamos o teste t e o valor P. Se o valor P associado a um coeficiente for menor que um nível de significância predefinido (geralmente 0,05), podemos concluir que a variável independente tem um efeito significativo sobre ( Y ).

4.5 Assumptions of Linear Regression

A regressão linear faz algumas suposições sobre os dados, que devem ser verificadas para garantir que os resultados do modelo sejam válidos:

  1. Linearidade: A relação entre ( X ) e ( Y ) deve ser linear.
  2. Independência: As observações devem ser independentes entre si.
  3. Homoscedasticidade: A variabilidade dos resíduos deve ser constante ao longo de todos os valores de ( X ).
  4. Normalidade dos Resíduos: Os resíduos devem seguir uma distribuição normal.

4.6 Exemplo Prático de Regressão Linear Simples

Vamos usar um exemplo prático para aplicar a regressão linear simples. Suponha que um pesquisador deseja entender a relação entre o número de horas estudadas e a nota final de um grupo de estudantes. Ele coleta os seguintes dados:

Horas Estudadas (X)Nota Final (Y)
250
455
660
865
1070

O objetivo é ajustar um modelo de regressão linear para prever a nota final com base no número de horas estudadas.

A equação de regressão ajustada pode ser da forma:

[
Y = \beta_0 + \beta_1 X
]

Usando o método dos mínimos quadrados, obtemos os valores de ( \beta_0 ) e ( \beta_1 ) que minimizam o erro entre os valores observados e os previstos.

4.7 Regressão Linear Múltipla

Na regressão linear múltipla, usamos várias variáveis independentes para prever ( Y ). Por exemplo, um modelo que tenta prever o preço de uma casa com base em fatores como tamanho, localização e número de quartos seria um exemplo de regressão múltipla.

A equação geral é:

[
Y = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \dots + \beta_n X_n
]

Essa abordagem é mais poderosa, pois permite incluir vários fatores que podem afetar a variável dependente.

4.8 Aplicações da Regressão Linear

A regressão linear é amplamente usada em diversas áreas:

  • Economia: Para modelar a relação entre variáveis como renda e consumo.
  • Saúde: Para prever a pressão arterial com base em fatores como idade, peso e nível de atividade física.
  • Engenharia: Para prever o desgaste de uma máquina em função do tempo de uso e temperatura.

Conclusão

A regressão linear é uma ferramenta estatística fundamental que permite modelar e prever relações entre variáveis. Compreender os princípios de ajuste, interpretação dos coeficientes e avaliação do modelo é essencial para fazer previsões informadas e baseadas em dados. No próximo capítulo, exploraremos os modelos de regressão logística, que

são úteis para prever resultados binários.


Tópicos para Reflexão:

  1. Qual é a diferença entre regressão linear simples e múltipla?
  2. Como o coeficiente ( R^2 ) ajuda a avaliar a qualidade de um modelo de regressão?
  3. Por que é importante verificar as suposições da regressão linear?

Exercícios:

  1. Aplique uma regressão linear simples para prever o preço de uma casa com base em seu tamanho (em metros quadrados).
  2. Calcule o coeficiente ( R^2 ) para um conjunto de dados hipotético e interprete o resultado.
  3. Realize um teste t para verificar a significância de um coeficiente de regressão em um modelo ajustado.

Esse foi o quarto de dez capítulos sobre estatística.

Edvaldo Guimrães Filho Avatar

Published by

Categories:

Leave a comment