Analisando Arquivos CSV com Python, Pandas, NumPy e Matplotlib
Neste artigo, vamos explorar como abrir e analisar um arquivo CSV com encoding ANSI, separador ; e indicador de número flutuante como , usando as bibliotecas Python: Pandas, NumPy e Matplotlib.
1. Preparando o Ambiente
Primeiro, certifique-se de ter as bibliotecas necessárias instaladas. Você pode instalá-las usando o pip:
pip install pandas numpy matplotlib
2. Carregando o Arquivo CSV
Vamos começar importando as bibliotecas necessárias e carregando o arquivo CSV:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
# Carregando o arquivo CSV
file_path = 'exercicio2024.CSV'
df = pd.read_csv(file_path, encoding='ANSI', sep=';', decimal=',')
3. Explorando os Dados
Após carregar o arquivo, vamos explorar os dados para entender sua estrutura:
# Exibindo as primeiras linhas do DataFrame
print(df.head())
# Exibindo informações gerais sobre o DataFrame
print(df.info())
# Exibindo estatísticas descritivas
print(df.describe())
4. Limpando e Preparando os Dados
Podemos precisar limpar e preparar os dados antes de realizar análises mais profundas. Vamos lidar com valores ausentes e converter tipos de dados, se necessário:
# Substituindo valores ausentes
df.replace(-9999, np.nan, inplace=True)
# Convertendo colunas para os tipos de dados apropriados
df['DATA (YYYY-MM-DD)'] = pd.to_datetime(df['DATA (YYYY-MM-DD)'])
df['HORA (UTC)'] = pd.to_timedelta(df['HORA (UTC)'] + ':00')
5. Analisando os Dados
Vamos realizar algumas análises básicas, como calcular médias e visualizar dados:
# Calculando a média da temperatura do ar
mean_temp = df['TEMPERATURA DO AR - BULBO SECO, HORARIA (°C)'].mean()
print(f'Média da temperatura do ar: {mean_temp:.2f}°C')
# Plotando a temperatura do ar ao longo do tempo
plt.figure(figsize=(10, 5))
plt.plot(df['DATA (YYYY-MM-DD)'] + df['HORA (UTC)'], df['TEMPERATURA DO AR - BULBO SECO, HORARIA (°C)'], label='Temperatura do Ar')
plt.xlabel('Data e Hora')
plt.ylabel('Temperatura (°C)')
plt.title('Temperatura do Ar ao Longo do Tempo')
plt.legend()
plt.grid(True)
plt.show()
6. Análise Avançada
Podemos realizar análises mais avançadas, como correlações entre variáveis:
# Calculando a correlação entre variáveis
correlation_matrix = df.corr()
print(correlation_matrix)
# Plotando a matriz de correlação
plt.figure(figsize=(12, 8))
plt.imshow(correlation_matrix, cmap='coolwarm', interpolation='none')
plt.colorbar()
plt.xticks(range(len(correlation_matrix.columns)), correlation_matrix.columns, rotation=90)
plt.yticks(range(len(correlation_matrix.columns)), correlation_matrix.columns)
plt.title('Matriz de Correlação')
plt.show()
7. Conclusão
Neste artigo, mostramos como abrir e analisar um arquivo CSV com encoding ANSI, separador ; e indicador de número flutuante , usando Python, Pandas, NumPy e Matplotlib. Exploramos os dados, realizamos limpeza e preparação, e executamos análises básicas e avançadas. Com essas ferramentas, você pode realizar uma ampla gama de análises de dados de forma eficiente e eficaz.

Leave a comment