Manipulação e Visualização de Dados com Pandas, NumPy e Matplotlib
Neste post, vamos explorar como usar as bibliotecas Pandas, NumPy e Matplotlib em Python para manipular e visualizar dados. Vamos criar um exemplo prático com 10 colunas, destacando como selecionar dados e criar gráficos.
Passo 1: Instalação das Bibliotecas
Primeiro, certifique-se de ter as bibliotecas instaladas. Você pode instalá-las usando pip:
pip install pandas numpy matplotlib
Passo 2: Importação das Bibliotecas
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
Passo 3: Criação de um DataFrame com 10 Colunas
Vamos criar um DataFrame com 10 colunas de dados aleatórios:
data = {
'A': np.random.rand(10),
'B': np.random.rand(10),
'C': np.random.rand(10),
'D': np.random.rand(10),
'E': np.random.rand(10),
'F': np.random.rand(10),
'G': np.random.rand(10),
'H': np.random.rand(10),
'I': np.random.rand(10),
'J': np.random.rand(10)
}
df = pd.DataFrame(data)
print(df)
Passo 4: Seleção de Dados
Selecionar uma coluna específica:
coluna_d = df['D']
print(coluna_d)
Selecionar várias colunas:
colunas_efg = df[['E', 'F', 'G']]
print(colunas_efg)
Selecionar linhas específicas:
linha_3 = df.iloc[3]
print(linha_3)
Passo 5: Filtragem de Dados
Filtrar dados com base em uma condição simples:
filtro_a = df[df['A'] > 0.5]
print(filtro_a)
Filtrar dados com base em múltiplas condições:
filtro_ab = df[(df['A'] > 0.5) & (df['B'] < 0.5)]
print(filtro_ab)
Filtrar dados usando query:
filtro_query = df.query('A > 0.5 and B < 0.5')
print(filtro_query)
Filtrar dados com base em valores de uma lista:
valores = [0.1, 0.2, 0.3]
filtro_lista = df[df['A'].isin(valores)]
print(filtro_lista)
Filtrar dados com base em uma expressão regular:
df['Categoria'] = ['Alta', 'Baixa', 'Média', 'Alta', 'Baixa', 'Média', 'Alta', 'Baixa', 'Média', 'Alta']
filtro_regex = df[df['Categoria'].str.contains('Baixa')]
print(filtro_regex)
Passo 6: Criação de Gráficos
Gráfico de linhas com todas as colunas:
plt.figure(figsize=(12, 8))
for coluna in df.columns:
plt.plot(df[coluna], label=coluna)
plt.xlabel('Índice')
plt.ylabel('Valores')
plt.title('Gráfico de Linhas com 10 Colunas')
plt.legend()
plt.show()
Gráfico de barras:
df.plot(kind='bar', figsize=(12, 8))
plt.xlabel('Índice')
plt.ylabel('Valores')
plt.title('Gráfico de Barras com 10 Colunas')
plt.show()
Gráfico de dispersão entre duas colunas:
plt.figure(figsize=(12, 8))
plt.scatter(df['A'], df['B'], label='A vs B')
plt.xlabel('A')
plt.ylabel('B')
plt.title('Gráfico de Dispersão entre A e B')
plt.legend()
plt.show()
Conclusão
Neste post, exploramos como usar Pandas, NumPy e Matplotlib para manipular e visualizar dados em Python. Aprendemos a criar DataFrames, selecionar e filtrar dados, e criar diferentes tipos de gráficos. Essas ferramentas são essenciais para análise de dados e podem ser aplicadas em diversos contextos.

Leave a comment