Manipulação e Visualização de Dados com Pandas, NumPy e Matplotlib

Neste post, vamos explorar como usar as bibliotecas Pandas, NumPy e Matplotlib em Python para manipular e visualizar dados. Vamos criar um exemplo prático com 10 colunas, destacando como selecionar dados e criar gráficos.

Passo 1: Instalação das Bibliotecas

Primeiro, certifique-se de ter as bibliotecas instaladas. Você pode instalá-las usando pip:

pip install pandas numpy matplotlib

Passo 2: Importação das Bibliotecas

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

Passo 3: Criação de um DataFrame com 10 Colunas

Vamos criar um DataFrame com 10 colunas de dados aleatórios:

data = {
    'A': np.random.rand(10),
    'B': np.random.rand(10),
    'C': np.random.rand(10),
    'D': np.random.rand(10),
    'E': np.random.rand(10),
    'F': np.random.rand(10),
    'G': np.random.rand(10),
    'H': np.random.rand(10),
    'I': np.random.rand(10),
    'J': np.random.rand(10)
}
df = pd.DataFrame(data)
print(df)

Passo 4: Seleção de Dados

Selecionar uma coluna específica:

coluna_d = df['D']
print(coluna_d)

Selecionar várias colunas:

colunas_efg = df[['E', 'F', 'G']]
print(colunas_efg)

Selecionar linhas específicas:

linha_3 = df.iloc[3]
print(linha_3)

Passo 5: Filtragem de Dados

Filtrar dados com base em uma condição simples:

filtro_a = df[df['A'] > 0.5]
print(filtro_a)

Filtrar dados com base em múltiplas condições:

filtro_ab = df[(df['A'] > 0.5) & (df['B'] < 0.5)]
print(filtro_ab)

Filtrar dados usando query:

filtro_query = df.query('A > 0.5 and B < 0.5')
print(filtro_query)

Filtrar dados com base em valores de uma lista:

valores = [0.1, 0.2, 0.3]
filtro_lista = df[df['A'].isin(valores)]
print(filtro_lista)

Filtrar dados com base em uma expressão regular:

df['Categoria'] = ['Alta', 'Baixa', 'Média', 'Alta', 'Baixa', 'Média', 'Alta', 'Baixa', 'Média', 'Alta']
filtro_regex = df[df['Categoria'].str.contains('Baixa')]
print(filtro_regex)

Passo 6: Criação de Gráficos

Gráfico de linhas com todas as colunas:

plt.figure(figsize=(12, 8))
for coluna in df.columns:
    plt.plot(df[coluna], label=coluna)
plt.xlabel('Índice')
plt.ylabel('Valores')
plt.title('Gráfico de Linhas com 10 Colunas')
plt.legend()
plt.show()

Gráfico de barras:

df.plot(kind='bar', figsize=(12, 8))
plt.xlabel('Índice')
plt.ylabel('Valores')
plt.title('Gráfico de Barras com 10 Colunas')
plt.show()

Gráfico de dispersão entre duas colunas:

plt.figure(figsize=(12, 8))
plt.scatter(df['A'], df['B'], label='A vs B')
plt.xlabel('A')
plt.ylabel('B')
plt.title('Gráfico de Dispersão entre A e B')
plt.legend()
plt.show()

Conclusão

Neste post, exploramos como usar Pandas, NumPy e Matplotlib para manipular e visualizar dados em Python. Aprendemos a criar DataFrames, selecionar e filtrar dados, e criar diferentes tipos de gráficos. Essas ferramentas são essenciais para análise de dados e podem ser aplicadas em diversos contextos.

Edvaldo Guimrães Filho Avatar

Published by

Categories: ,

Leave a comment