Exemplo Completo: Análise de Dados com Pandas, NumPy e Matplotlib

Exemplo Completo: Análise de Dados com Pandas, NumPy e Matplotlib

Vamos criar um dataset fictício de vendas de produtos para ilustrar como manipular, analisar e visualizar dados.

Passo 1: Criando o Dataset

Primeiro, criaremos um dataset usando Pandas:

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

# Criando um DataFrame fictício de vendas de produtos
np.random.seed(42)  # Para resultados reprodutíveis
data = {
    'Produto': ['Produto A', 'Produto B', 'Produto C', 'Produto D', 'Produto E'],
    'Vendas_Jan': np.random.randint(50, 200, size=5),
    'Vendas_Fev': np.random.randint(30, 150, size=5),
    'Vendas_Mar': np.random.randint(20, 180, size=5)
}

df = pd.DataFrame(data)
print("Dataset de Vendas:")
print(df)

Passo 2: Analisando o Dataset com Pandas

Vamos calcular as medidas de dispersão (média, desvio padrão, mínimo, máximo) das colunas de vendas.

# Calculando as estatísticas básicas
estatisticas = df.describe()
print("\nEstatísticas Básicas:")
print(estatisticas)

# Selecionando apenas as colunas numéricas de vendas
vendas = df[['Vendas_Jan', 'Vendas_Fev', 'Vendas_Mar']]

Passo 3: Medidas de Dispersão com NumPy

Usando NumPy, vamos calcular algumas medidas de dispersão adicionais, como a variância e a mediana.

# Calculando medidas de dispersão usando NumPy
variancia = vendas.var()
mediana = vendas.median()
print("\nVariância das Vendas:")
print(variancia)
print("\nMediana das Vendas:")
print(mediana)

Passo 4: Visualização de Dados com Matplotlib

Agora, vamos criar gráficos para visualizar os dados usando Matplotlib.

# Gráfico de barras das vendas
plt.figure(figsize=(10, 6))
df.set_index('Produto')[['Vendas_Jan', 'Vendas_Fev', 'Vendas_Mar']].plot(kind='bar')
plt.title('Vendas dos Produtos por Mês')
plt.xlabel('Produto')
plt.ylabel('Quantidade Vendida')
plt.grid(True)
plt.show()

# Gráfico de dispersão (scatter plot) das vendas de janeiro vs fevereiro
plt.figure(figsize=(8, 5))
plt.scatter(df['Vendas_Jan'], df['Vendas_Fev'], color='green')
plt.title('Dispersão das Vendas: Janeiro vs Fevereiro')
plt.xlabel('Vendas em Janeiro')
plt.ylabel('Vendas em Fevereiro')
plt.grid(True)
plt.show()

Explicações dos Códigos:

  1. Criação do Dataset: Usamos np.random.randint para gerar números aleatórios simulando vendas nos meses de janeiro, fevereiro e março.
  2. Análise com Pandas: df.describe() é usado para calcular estatísticas básicas como média, mínimo, e máximo.
  3. Cálculos com NumPy: Utilizamos vendas.var() para calcular a variância e vendas.median() para obter a mediana.
  4. Visualização com Matplotlib: Criamos gráficos de barras e de dispersão para visualizar o comportamento das vendas.

Conclusão

Este exemplo cobre as principais funções de análise de dados com Pandas, NumPy, e Matplotlib, ajudando a entender como integrar essas bibliotecas para manipulação, análise e visualização de dados de forma eficiente.

Edvaldo Guimrães Filho Avatar

Published by

Categories: ,

Leave a comment