Capítulo 9: Regressão Logística
A regressão logística é uma técnica estatística utilizada para modelar a probabilidade de um evento binário ocorrer, ou seja, quando a variável dependente assume apenas dois valores possíveis, como “sim” ou “não”, “sucesso” ou “fracasso”. Ao contrário da regressão linear, que se destina a variáveis contínuas, a regressão logística é adequada para variáveis dependentes categóricas.
9.1 O que é a Regressão Logística?
A regressão logística permite prever a probabilidade de um determinado evento ocorrer, com base em uma ou mais variáveis independentes. A principal diferença entre a regressão logística e a linear é que a regressão logística usa a função logística, também conhecida como função sigmoide, para garantir que as previsões estejam sempre entre 0 e 1, representando uma probabilidade.
A equação da regressão logística é dada por:
[
P(Y = 1) = \frac{1}{1 + e^{-(\beta_0 + \beta_1X_1 + \beta_2X_2 + \dots + \beta_pX_p)}}
]
Onde:
- ( P(Y = 1) ) é a probabilidade de o evento ( Y ) ocorrer.
- ( X_1, X_2, \dots, X_p ) são as variáveis independentes.
- ( \beta_0 ) é o intercepto.
- ( \beta_1, \beta_2, \dots, \beta_p ) são os coeficientes associados às variáveis independentes.
- ( e ) é a base do logaritmo natural (aproximadamente 2,718).
A função logística mapeia qualquer valor da combinação linear ( \beta_0 + \beta_1X_1 + \dots + \beta_pX_p ) para um valor entre 0 e 1, que pode ser interpretado como uma probabilidade.
9.2 Quando Usar a Regressão Logística?
A regressão logística é usada quando a variável dependente é categórica binária. Alguns exemplos de casos em que a regressão logística é apropriada incluem:
- Determinar se um paciente tem uma determinada doença (sim/não) com base em variáveis como idade, sexo e hábitos de vida.
- Prever se um cliente vai ou não comprar um produto, com base em variáveis como renda, histórico de compras e preferências.
- Estimar a probabilidade de um evento político (eleição, aprovação de uma lei) ocorrer com base em pesquisas e dados socioeconômicos.
9.3 Interpretação dos Coeficientes
Na regressão logística, os coeficientes ( \beta ) indicam o impacto de cada variável independente na probabilidade do evento ocorrer. No entanto, esses coeficientes não são diretamente interpretáveis em termos de mudança linear na variável dependente, como na regressão linear. Em vez disso, o odds ratio é usado para interpretação.
O odds ratio (razão de chances) é calculado como:
[
\text{Odds Ratio} = e^{\beta_i}
]
Para um dado coeficiente ( \beta_i ), o odds ratio representa a mudança nas chances de o evento ocorrer para um aumento unitário na variável ( X_i ), mantendo todas as outras variáveis constantes.
- Um odds ratio maior que 1 indica que a variável aumenta as chances de o evento ocorrer.
- Um odds ratio menor que 1 indica que a variável diminui as chances de o evento ocorrer.
9.4 Estimação dos Coeficientes
Os coeficientes da regressão logística são estimados usando o método da máxima verossimilhança. Esse método busca os valores de ( \beta_0, \beta_1, \dots, \beta_p ) que maximizam a probabilidade de observar os dados reais com base no modelo logístico.
9.5 Avaliação do Modelo
Após ajustar o modelo de regressão logística, é importante avaliar seu desempenho. Algumas métricas comuns incluem:
- Acurácia: A proporção de previsões corretas sobre o total de observações. No entanto, a acurácia sozinha pode ser enganosa, especialmente em conjuntos de dados desequilibrados (quando uma classe é muito mais frequente que a outra).
- Matriz de Confusão: Um resumo visual das previsões do modelo, que exibe o número de verdadeiros positivos (TP), verdadeiros negativos (TN), falsos positivos (FP) e falsos negativos (FN).
| Predito Positivo | Predito Negativo | |
|---|---|---|
| Real Positivo | TP | FN |
| Real Negativo | FP | TN |
- Precisão (Precision): Mede a proporção de previsões positivas corretas em relação ao total de previsões positivas: [
\text{Precisão} = \frac{TP}{TP + FP}
] - Revocação (Recall): Mede a proporção de eventos reais positivos corretamente identificados: [
\text{Revocação} = \frac{TP}{TP + FN}
] - F1-Score: A média harmônica entre precisão e revocação, útil quando existe um desequilíbrio entre classes: [
F1 = 2 \times \frac{\text{Precisão} \times \text{Revocação}}{\text{Precisão} + \text{Revocação}}
] - Curva ROC e AUC: A Curva ROC (Receiver Operating Characteristic) mostra a relação entre a taxa de verdadeiros positivos (sensibilidade) e a taxa de falsos positivos (1-especificidade) para diferentes limiares de decisão. O AUC (Area Under the Curve) mede a área sob a curva ROC, com valores próximos de 1 indicando um bom desempenho do modelo.
9.6 Exemplo Prático de Regressão Logística
Suponha que um banco queira prever se um cliente solicitará ou não um empréstimo, com base em variáveis como renda, idade e histórico de crédito. O banco coleta os seguintes dados:
| Cliente | Idade | Renda ($) | Histórico de Crédito | Solicitou Empréstimo (1 = Sim, 0 = Não) |
|---|---|---|---|---|
| 1 | 25 | 35,000 | Bom | 0 |
| 2 | 45 | 80,000 | Excelente | 1 |
| 3 | 30 | 50,000 | Regular | 0 |
| … | … | … | … | … |
O modelo de regressão logística pode ser ajustado para prever a probabilidade de um cliente solicitar um empréstimo com base em suas características. A equação ajustada pode ter a seguinte forma:
[
P(Y = 1) = \frac{1}{1 + e^{-(\beta_0 + \beta_1 \text{Idade} + \beta_2 \text{Renda} + \beta_3 \text{Histórico})}}
]
Suponha que os coeficientes estimados sejam ( \beta_0 = -5 ), ( \beta_1 = 0.03 ), ( \beta_2 = 0.00005 ), e ( \beta_3 = 2.5 ). O banco pode agora usar essa equação para prever a probabilidade de um novo cliente solicitar um empréstimo com base em sua idade, renda e histórico de crédito.
9.7 Regularização
Em casos onde há muitas variáveis independentes ou multicolinearidade, técnicas de regularização podem ser usadas para melhorar a performance do modelo, evitando overfitting (superajuste). As duas formas mais comuns de regularização são:
- Ridge Regression (L2 Regularization): Adiciona uma penalidade à soma dos quadrados dos coeficientes na função de custo.
- Lasso Regression (L1 Regularization): Adiciona uma penalidade à soma dos valores absolutos dos coeficientes, incentivando a esparsidade (alguns coeficientes são forçados a zero).
9.8 Aplicações da Regressão Logística
A regressão logística é amplamente utilizada em diversas áreas, tais como:
- Medicina: Para prever a probabilidade de um paciente desenvolver uma determinada doença com base em fatores de risco.
- Finanças: Para prever inadimplência de clientes, com base em fatores como histórico de crédito e renda.
- Marketing: Para prever a probabilidade de um cliente comprar um produto, com base em suas características e comportamento de compra.
- Ciências Políticas: Para prever a probabilidade de um candidato vencer uma eleição com base em variáveis demográficas e socioeconômicas.
Conclusão
A regressão logística é uma ferramenta poderosa para modelar variáveis dependentes binárias. Sua capacidade de prever probabilidades e interpretar relações entre variáveis a torna amplamente útil em diversas áreas. No próximo capítulo, exploraremos métodos não lineares de análise de dados, incluindo árvores de decisão e florestas aleatórias, que são técnicas poderosas para modelagem predit

Leave a comment