Exemplo Completo: Análise de Dados com Pandas, NumPy e Matplotlib
Exemplo Completo: Análise de Dados com Pandas, NumPy e Matplotlib
Vamos criar um dataset fictício de vendas de produtos para ilustrar como manipular, analisar e visualizar dados.
Passo 1: Criando o Dataset
Primeiro, criaremos um dataset usando Pandas:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
# Criando um DataFrame fictício de vendas de produtos
np.random.seed(42) # Para resultados reprodutíveis
data = {
'Produto': ['Produto A', 'Produto B', 'Produto C', 'Produto D', 'Produto E'],
'Vendas_Jan': np.random.randint(50, 200, size=5),
'Vendas_Fev': np.random.randint(30, 150, size=5),
'Vendas_Mar': np.random.randint(20, 180, size=5)
}
df = pd.DataFrame(data)
print("Dataset de Vendas:")
print(df)
Passo 2: Analisando o Dataset com Pandas
Vamos calcular as medidas de dispersão (média, desvio padrão, mínimo, máximo) das colunas de vendas.
# Calculando as estatísticas básicas
estatisticas = df.describe()
print("\nEstatísticas Básicas:")
print(estatisticas)
# Selecionando apenas as colunas numéricas de vendas
vendas = df[['Vendas_Jan', 'Vendas_Fev', 'Vendas_Mar']]
Passo 3: Medidas de Dispersão com NumPy
Usando NumPy, vamos calcular algumas medidas de dispersão adicionais, como a variância e a mediana.
# Calculando medidas de dispersão usando NumPy
variancia = vendas.var()
mediana = vendas.median()
print("\nVariância das Vendas:")
print(variancia)
print("\nMediana das Vendas:")
print(mediana)
Passo 4: Visualização de Dados com Matplotlib
Agora, vamos criar gráficos para visualizar os dados usando Matplotlib.
# Gráfico de barras das vendas
plt.figure(figsize=(10, 6))
df.set_index('Produto')[['Vendas_Jan', 'Vendas_Fev', 'Vendas_Mar']].plot(kind='bar')
plt.title('Vendas dos Produtos por Mês')
plt.xlabel('Produto')
plt.ylabel('Quantidade Vendida')
plt.grid(True)
plt.show()
# Gráfico de dispersão (scatter plot) das vendas de janeiro vs fevereiro
plt.figure(figsize=(8, 5))
plt.scatter(df['Vendas_Jan'], df['Vendas_Fev'], color='green')
plt.title('Dispersão das Vendas: Janeiro vs Fevereiro')
plt.xlabel('Vendas em Janeiro')
plt.ylabel('Vendas em Fevereiro')
plt.grid(True)
plt.show()
Explicações dos Códigos:
- Criação do Dataset: Usamos
np.random.randintpara gerar números aleatórios simulando vendas nos meses de janeiro, fevereiro e março. - Análise com Pandas:
df.describe()é usado para calcular estatísticas básicas como média, mínimo, e máximo. - Cálculos com NumPy: Utilizamos
vendas.var()para calcular a variância evendas.median()para obter a mediana. - Visualização com Matplotlib: Criamos gráficos de barras e de dispersão para visualizar o comportamento das vendas.
Conclusão
Este exemplo cobre as principais funções de análise de dados com Pandas, NumPy, e Matplotlib, ajudando a entender como integrar essas bibliotecas para manipulação, análise e visualização de dados de forma eficiente.

Leave a comment