Capítulo 5: Regressão Logística
Enquanto a regressão linear é usada para prever variáveis contínuas, existem muitos cenários em que estamos interessados em prever um resultado binário ou categórico. Para esses casos, usamos a regressão logística. Essa técnica é particularmente útil quando queremos modelar a probabilidade de um evento ocorrer, como “aprovado/reprovado”, “sim/não” ou “comprou/não comprou”.
5.1 O que é Regressão Logística?
A regressão logística é um modelo estatístico que, ao contrário da regressão linear, é adequado para prever resultados binários. Enquanto a regressão linear pode resultar em previsões fora da faixa de (0) e (1), a regressão logística transforma a saída em uma probabilidade, garantindo que os resultados fiquem sempre entre esses valores.
5.1.1 A Função Logística (Sigmóide)
A base da regressão logística é a função logística, também conhecida como função sigmóide, que é dada por:
[
f(z) = \frac{1}{1 + e^{-z}}
]
Essa função mapeia qualquer valor real (z) para um intervalo entre (0) e (1), permitindo a interpretação dos resultados como probabilidades. Na regressão logística, o valor de (z) é uma combinação linear das variáveis explicativas, ou seja:
[
z = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \dots + \beta_n X_n
]
Assim, a equação completa da regressão logística pode ser expressa como:
[
P(Y=1|X) = \frac{1}{1 + e^{-(\beta_0 + \beta_1 X_1 + \dots + \beta_n X_n)}}
]
Onde:
- ( P(Y=1|X) ) é a probabilidade do evento ocorrer (ou seja, (Y = 1)).
- ( X_1, X_2, \dots, X_n ) são as variáveis independentes.
- ( \beta_0, \beta_1, \dots, \beta_n ) são os coeficientes estimados do modelo.
5.1.2 Log-Odds
Na regressão logística, ao invés de modelarmos diretamente a probabilidade, modelamos o log-odds (logaritmo das chances). As “odds” são a razão entre a probabilidade de um evento ocorrer e a probabilidade de não ocorrer. A relação entre a probabilidade e o log-odds é dada por:
[
\log \left( \frac{P(Y=1)}{1 – P(Y=1)} \right) = \beta_0 + \beta_1 X_1 + \dots + \beta_n X_n
]
Isso é chamado de logaritmo das chances ou logit.
5.2 Interpretação dos Coeficientes da Regressão Logística
Os coeficientes (( \beta_1, \beta_2, \dots )) na regressão logística não são interpretados da mesma forma que na regressão linear. Em vez de indicar uma mudança absoluta no valor da variável dependente, eles indicam o impacto das variáveis explicativas nas “chances” do evento ocorrer.
- Coeficientes positivos (( \beta > 0 )) indicam que um aumento na variável explicativa aumenta as chances do evento ocorrer.
- Coeficientes negativos (( \beta < 0 )) indicam que um aumento na variável explicativa diminui as chances do evento ocorrer.
Por exemplo, se estamos modelando a probabilidade de um paciente ter uma doença com base em sua idade, e o coeficiente para idade for positivo, isso significa que conforme a idade aumenta, as chances de ter a doença aumentam.
5.3 Ajuste do Modelo de Regressão Logística
Ajustar um modelo de regressão logística envolve encontrar os coeficientes que maximizam a verossimilhança dos dados observados. O método mais comum para ajustar esses modelos é o método de máxima verossimilhança.
A função de verossimilhança é uma medida que quantifica quão bem os parâmetros do modelo explicam os dados observados. O objetivo do ajuste do modelo é encontrar os coeficientes ( \beta_0, \beta_1, \dots \beta_n ) que maximizem essa função de verossimilhança.
5.4 Avaliação do Modelo
Avaliar o desempenho de um modelo de regressão logística requer diferentes métricas em comparação à regressão linear, dado que estamos trabalhando com previsões de probabilidades e resultados categóricos.
5.4.1 Curva ROC e AUC
Uma forma comum de avaliar a performance de um modelo de regressão logística é usando a Curva ROC (Receiver Operating Characteristic). Essa curva mostra a relação entre a taxa de verdadeiros positivos (TPR) e a taxa de falsos positivos (FPR) para diferentes limiares de classificação.
O AUC (Area Under the Curve) mede a área sob a curva ROC e fornece uma métrica de quão bem o modelo separa as duas classes. Um AUC de 0,5 indica que o modelo não está melhor do que uma classificação aleatória, enquanto um AUC de 1,0 indica uma classificação perfeita.
5.4.2 Matriz de Confusão
Outra ferramenta útil é a matriz de confusão, que compara os valores previstos pelo modelo com os valores reais. A matriz tem a seguinte estrutura:
| Previsão: Positivo | Previsão: Negativo | |
|---|---|---|
| Verdadeiro Positivo (TP) | Verdadeiro Positivo | Falso Negativo |
| Verdadeiro Negativo (TN) | Falso Positivo | Verdadeiro Negativo |
A partir dessa matriz, podemos calcular outras métricas importantes, como:
- Precisão: Proporção de previsões corretas.
- Recall (Sensibilidade): Proporção de positivos corretamente identificados.
- F1 Score: A média harmônica entre precisão e recall.
5.5 Assumptions da Regressão Logística
Embora a regressão logística seja menos exigente que a regressão linear em termos de suposições, ainda existem algumas que precisam ser consideradas:
- Independência das Observações: As observações devem ser independentes entre si.
- Relação Linear no Logit: A regressão logística assume que há uma relação linear entre as variáveis independentes e o log-odds da variável dependente.
- Ausência de Multicolinearidade: As variáveis independentes não devem ser altamente correlacionadas entre si.
5.6 Exemplo Prático de Regressão Logística
Vamos supor que um pesquisador deseja modelar a probabilidade de um cliente comprar ou não um produto com base em duas variáveis: idade e renda. Ele coleta os seguintes dados:
| Cliente | Idade | Renda | Comprou (1 = Sim, 0 = Não) |
|---|---|---|---|
| 1 | 25 | 3000 | 0 |
| 2 | 35 | 5000 | 1 |
| 3 | 45 | 7000 | 1 |
| 4 | 22 | 2000 | 0 |
| 5 | 55 | 8000 | 1 |
O objetivo é ajustar um modelo de regressão logística para prever se um cliente comprará ou não com base em sua idade e renda.
A equação do modelo pode ser expressa como:
[
\log \left( \frac{P(Y=1)}{1 – P(Y=1)} \right) = \beta_0 + \beta_1 \text{Idade} + \beta_2 \text{Renda}
]
Usando software estatístico ou Python, o pesquisador pode ajustar esse modelo e obter os coeficientes ( \beta_0, \beta_1 ) e ( \beta_2 ), que podem ser usados para prever as probabilidades de compra para novos clientes.
5.7 Aplicações da Regressão Logística
A regressão logística é amplamente usada em diversas áreas:
- Medicina: Para prever a probabilidade de um paciente desenvolver uma doença com base em fatores de risco.
- Marketing: Para prever a probabilidade de um cliente realizar uma compra com base em seu histórico e características demográficas.
- Finanças: Para prever a probabilidade de inadimplência de um empréstimo com base no perfil do solicitante.
Conclusão
A regressão logística é uma ferramenta poderosa para modelar a probabilidade de eventos binários. Ela é amplamente usada em várias áreas para prever resultados e tomar decisões baseadas em dados. No próximo capítulo, exploraremos os modelos de séries temporais, que são úteis para dados que variam ao longo do tempo.
Tópicos para Reflexão:
- Qual é a diferença fundamental entre regressão linear e regressão logística?
- Como a função sigmóide transforma a saída de uma regressão logística?
- Por que a matriz de conf
usão é importante para avaliar um modelo de classificação?
Exercícios:
- Ajuste um modelo de regressão logística para prever a chance de um paciente ter uma doença com base em dados fictícios de idade e pressão arterial.
- Interprete os coeficientes de um modelo de regressão logística ajustado para prever a compra de um produto.
- Construa a curva ROC para um modelo de regressão logística e calcule a AUC.
Esse foi o quinto de dez capítulos sobre estatística.

Leave a comment