Analisando Arquivos CSV com Python, Pandas, NumPy e Matplotlib

Neste artigo, vamos explorar como abrir e analisar um arquivo CSV com encoding ANSI, separador ; e indicador de número flutuante como , usando as bibliotecas Python: Pandas, NumPy e Matplotlib.

1. Preparando o Ambiente

Primeiro, certifique-se de ter as bibliotecas necessárias instaladas. Você pode instalá-las usando o pip:

pip install pandas numpy matplotlib

2. Carregando o Arquivo CSV

Vamos começar importando as bibliotecas necessárias e carregando o arquivo CSV:

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

# Carregando o arquivo CSV
file_path = 'exercicio2024.CSV'
df = pd.read_csv(file_path, encoding='ANSI', sep=';', decimal=',')

3. Explorando os Dados

Após carregar o arquivo, vamos explorar os dados para entender sua estrutura:

# Exibindo as primeiras linhas do DataFrame
print(df.head())

# Exibindo informações gerais sobre o DataFrame
print(df.info())

# Exibindo estatísticas descritivas
print(df.describe())

4. Limpando e Preparando os Dados

Podemos precisar limpar e preparar os dados antes de realizar análises mais profundas. Vamos lidar com valores ausentes e converter tipos de dados, se necessário:

# Substituindo valores ausentes
df.replace(-9999, np.nan, inplace=True)

# Convertendo colunas para os tipos de dados apropriados
df['DATA (YYYY-MM-DD)'] = pd.to_datetime(df['DATA (YYYY-MM-DD)'])
df['HORA (UTC)'] = pd.to_timedelta(df['HORA (UTC)'] + ':00')

5. Analisando os Dados

Vamos realizar algumas análises básicas, como calcular médias e visualizar dados:

# Calculando a média da temperatura do ar
mean_temp = df['TEMPERATURA DO AR - BULBO SECO, HORARIA (°C)'].mean()
print(f'Média da temperatura do ar: {mean_temp:.2f}°C')

# Plotando a temperatura do ar ao longo do tempo
plt.figure(figsize=(10, 5))
plt.plot(df['DATA (YYYY-MM-DD)'] + df['HORA (UTC)'], df['TEMPERATURA DO AR - BULBO SECO, HORARIA (°C)'], label='Temperatura do Ar')
plt.xlabel('Data e Hora')
plt.ylabel('Temperatura (°C)')
plt.title('Temperatura do Ar ao Longo do Tempo')
plt.legend()
plt.grid(True)
plt.show()

6. Análise Avançada

Podemos realizar análises mais avançadas, como correlações entre variáveis:

# Calculando a correlação entre variáveis
correlation_matrix = df.corr()
print(correlation_matrix)

# Plotando a matriz de correlação
plt.figure(figsize=(12, 8))
plt.imshow(correlation_matrix, cmap='coolwarm', interpolation='none')
plt.colorbar()
plt.xticks(range(len(correlation_matrix.columns)), correlation_matrix.columns, rotation=90)
plt.yticks(range(len(correlation_matrix.columns)), correlation_matrix.columns)
plt.title('Matriz de Correlação')
plt.show()

7. Conclusão

Neste artigo, mostramos como abrir e analisar um arquivo CSV com encoding ANSI, separador ; e indicador de número flutuante , usando Python, Pandas, NumPy e Matplotlib. Exploramos os dados, realizamos limpeza e preparação, e executamos análises básicas e avançadas. Com essas ferramentas, você pode realizar uma ampla gama de análises de dados de forma eficiente e eficaz.

Edvaldo Guimrães Filho Avatar

Published by

Categories: ,

Leave a comment