Capítulo 5: Regressão Logística

Enquanto a regressão linear é usada para prever variáveis contínuas, existem muitos cenários em que estamos interessados em prever um resultado binário ou categórico. Para esses casos, usamos a regressão logística. Essa técnica é particularmente útil quando queremos modelar a probabilidade de um evento ocorrer, como “aprovado/reprovado”, “sim/não” ou “comprou/não comprou”.

5.1 O que é Regressão Logística?

A regressão logística é um modelo estatístico que, ao contrário da regressão linear, é adequado para prever resultados binários. Enquanto a regressão linear pode resultar em previsões fora da faixa de (0) e (1), a regressão logística transforma a saída em uma probabilidade, garantindo que os resultados fiquem sempre entre esses valores.

5.1.1 A Função Logística (Sigmóide)

A base da regressão logística é a função logística, também conhecida como função sigmóide, que é dada por:

[
f(z) = \frac{1}{1 + e^{-z}}
]

Essa função mapeia qualquer valor real (z) para um intervalo entre (0) e (1), permitindo a interpretação dos resultados como probabilidades. Na regressão logística, o valor de (z) é uma combinação linear das variáveis explicativas, ou seja:

[
z = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \dots + \beta_n X_n
]

Assim, a equação completa da regressão logística pode ser expressa como:

[
P(Y=1|X) = \frac{1}{1 + e^{-(\beta_0 + \beta_1 X_1 + \dots + \beta_n X_n)}}
]

Onde:

  • ( P(Y=1|X) ) é a probabilidade do evento ocorrer (ou seja, (Y = 1)).
  • ( X_1, X_2, \dots, X_n ) são as variáveis independentes.
  • ( \beta_0, \beta_1, \dots, \beta_n ) são os coeficientes estimados do modelo.

5.1.2 Log-Odds

Na regressão logística, ao invés de modelarmos diretamente a probabilidade, modelamos o log-odds (logaritmo das chances). As “odds” são a razão entre a probabilidade de um evento ocorrer e a probabilidade de não ocorrer. A relação entre a probabilidade e o log-odds é dada por:

[
\log \left( \frac{P(Y=1)}{1 – P(Y=1)} \right) = \beta_0 + \beta_1 X_1 + \dots + \beta_n X_n
]

Isso é chamado de logaritmo das chances ou logit.

5.2 Interpretação dos Coeficientes da Regressão Logística

Os coeficientes (( \beta_1, \beta_2, \dots )) na regressão logística não são interpretados da mesma forma que na regressão linear. Em vez de indicar uma mudança absoluta no valor da variável dependente, eles indicam o impacto das variáveis explicativas nas “chances” do evento ocorrer.

  • Coeficientes positivos (( \beta > 0 )) indicam que um aumento na variável explicativa aumenta as chances do evento ocorrer.
  • Coeficientes negativos (( \beta < 0 )) indicam que um aumento na variável explicativa diminui as chances do evento ocorrer.

Por exemplo, se estamos modelando a probabilidade de um paciente ter uma doença com base em sua idade, e o coeficiente para idade for positivo, isso significa que conforme a idade aumenta, as chances de ter a doença aumentam.

5.3 Ajuste do Modelo de Regressão Logística

Ajustar um modelo de regressão logística envolve encontrar os coeficientes que maximizam a verossimilhança dos dados observados. O método mais comum para ajustar esses modelos é o método de máxima verossimilhança.

A função de verossimilhança é uma medida que quantifica quão bem os parâmetros do modelo explicam os dados observados. O objetivo do ajuste do modelo é encontrar os coeficientes ( \beta_0, \beta_1, \dots \beta_n ) que maximizem essa função de verossimilhança.

5.4 Avaliação do Modelo

Avaliar o desempenho de um modelo de regressão logística requer diferentes métricas em comparação à regressão linear, dado que estamos trabalhando com previsões de probabilidades e resultados categóricos.

5.4.1 Curva ROC e AUC

Uma forma comum de avaliar a performance de um modelo de regressão logística é usando a Curva ROC (Receiver Operating Characteristic). Essa curva mostra a relação entre a taxa de verdadeiros positivos (TPR) e a taxa de falsos positivos (FPR) para diferentes limiares de classificação.

O AUC (Area Under the Curve) mede a área sob a curva ROC e fornece uma métrica de quão bem o modelo separa as duas classes. Um AUC de 0,5 indica que o modelo não está melhor do que uma classificação aleatória, enquanto um AUC de 1,0 indica uma classificação perfeita.

5.4.2 Matriz de Confusão

Outra ferramenta útil é a matriz de confusão, que compara os valores previstos pelo modelo com os valores reais. A matriz tem a seguinte estrutura:

Previsão: PositivoPrevisão: Negativo
Verdadeiro Positivo (TP)Verdadeiro PositivoFalso Negativo
Verdadeiro Negativo (TN)Falso PositivoVerdadeiro Negativo

A partir dessa matriz, podemos calcular outras métricas importantes, como:

  • Precisão: Proporção de previsões corretas.
  • Recall (Sensibilidade): Proporção de positivos corretamente identificados.
  • F1 Score: A média harmônica entre precisão e recall.

5.5 Assumptions da Regressão Logística

Embora a regressão logística seja menos exigente que a regressão linear em termos de suposições, ainda existem algumas que precisam ser consideradas:

  1. Independência das Observações: As observações devem ser independentes entre si.
  2. Relação Linear no Logit: A regressão logística assume que há uma relação linear entre as variáveis independentes e o log-odds da variável dependente.
  3. Ausência de Multicolinearidade: As variáveis independentes não devem ser altamente correlacionadas entre si.

5.6 Exemplo Prático de Regressão Logística

Vamos supor que um pesquisador deseja modelar a probabilidade de um cliente comprar ou não um produto com base em duas variáveis: idade e renda. Ele coleta os seguintes dados:

ClienteIdadeRendaComprou (1 = Sim, 0 = Não)
12530000
23550001
34570001
42220000
55580001

O objetivo é ajustar um modelo de regressão logística para prever se um cliente comprará ou não com base em sua idade e renda.

A equação do modelo pode ser expressa como:

[
\log \left( \frac{P(Y=1)}{1 – P(Y=1)} \right) = \beta_0 + \beta_1 \text{Idade} + \beta_2 \text{Renda}
]

Usando software estatístico ou Python, o pesquisador pode ajustar esse modelo e obter os coeficientes ( \beta_0, \beta_1 ) e ( \beta_2 ), que podem ser usados para prever as probabilidades de compra para novos clientes.

5.7 Aplicações da Regressão Logística

A regressão logística é amplamente usada em diversas áreas:

  • Medicina: Para prever a probabilidade de um paciente desenvolver uma doença com base em fatores de risco.
  • Marketing: Para prever a probabilidade de um cliente realizar uma compra com base em seu histórico e características demográficas.
  • Finanças: Para prever a probabilidade de inadimplência de um empréstimo com base no perfil do solicitante.

Conclusão

A regressão logística é uma ferramenta poderosa para modelar a probabilidade de eventos binários. Ela é amplamente usada em várias áreas para prever resultados e tomar decisões baseadas em dados. No próximo capítulo, exploraremos os modelos de séries temporais, que são úteis para dados que variam ao longo do tempo.


Tópicos para Reflexão:

  1. Qual é a diferença fundamental entre regressão linear e regressão logística?
  2. Como a função sigmóide transforma a saída de uma regressão logística?
  3. Por que a matriz de conf

usão é importante para avaliar um modelo de classificação?

Exercícios:

  1. Ajuste um modelo de regressão logística para prever a chance de um paciente ter uma doença com base em dados fictícios de idade e pressão arterial.
  2. Interprete os coeficientes de um modelo de regressão logística ajustado para prever a compra de um produto.
  3. Construa a curva ROC para um modelo de regressão logística e calcule a AUC.

Esse foi o quinto de dez capítulos sobre estatística.

Edvaldo Guimrães Filho Avatar

Published by

Categories:

Leave a comment