Introdução

Neste artigo, vamos demonstrar como utilizar a biblioteca pandas do Python para manipular dados a partir de um arquivo CSV. O arquivo CSV está codificado em ‘latin1’, pula as primeiras 8 linhas, utiliza ‘;’ como separador de campos e ‘,’ como separador decimal.

Carregando o Arquivo CSV

Primeiro, vamos carregar o arquivo CSV utilizando pandas:

import pandas as pd

# Carregar o arquivo CSV com as especificações fornecidas
df = pd.read_csv('exercicio2024.CSV', encoding='latin1', skiprows=8, sep=';', decimal=',')

Visualizando os Dados

Vamos visualizar as primeiras linhas do DataFrame para entender a estrutura dos dados:

# Mostrar as primeiras linhas do DataFrame
print("Primeiras linhas do DataFrame:")
print(df.head())

Filtrando Dados

Filtrando por uma Data Específica

Para filtrar os dados por uma data específica, podemos usar o seguinte código:

data_especifica = '2010-01-01'
filtro_data = df[df['DATA (YYYY-MM-DD)'] == data_especifica]
print(f"\nDados filtrados pela data {data_especifica}:")
print(filtro_data)

Filtrando por um Dia Específico

Para filtrar os dados por um dia específico (por exemplo, 01 de janeiro), podemos usar:

dia_especifico = '01'
filtro_dia = df[df['DATA (YYYY-MM-DD)'].str.endswith(f'-{dia_especifico}')]
print(f"\nDados filtrados pelo dia {dia_especifico}:")
print(filtro_dia)

Filtrando por Temperatura

Para filtrar os dados por temperatura acima de um valor específico (por exemplo, 30°C), podemos usar:

temperatura_minima = 30.0
filtro_temperatura = df[df['TEMPERATURA DO AR - BULBO SECO, HORARIA (°C)'] > temperatura_minima]
print(f"\nDados filtrados por temperatura acima de {temperatura_minima}°C:")
print(filtro_temperatura)

Calculando Estatísticas

Média e Desvio Padrão da Temperatura

Para calcular a média e o desvio padrão da temperatura, podemos usar:

media_temperatura = df['TEMPERATURA DO AR - BULBO SECO, HORARIA (°C)'].mean()
desvio_padrao_temperatura = df['TEMPERATURA DO AR - BULBO SECO, HORARIA (°C)'].std()
print(f"\nMédia da temperatura: {media_temperatura:.2f}°C")
print(f"Desvio padrão da temperatura: {desvio_padrao_temperatura:.2f}°C")

Média e Desvio Padrão da Umidade Relativa do Ar

Para calcular a média e o desvio padrão da umidade relativa do ar, podemos usar:

media_umidade = df['UMIDADE RELATIVA DO AR, HORARIA (%)'].mean()
desvio_padrao_umidade = df['UMIDADE RELATIVA DO AR, HORARIA (%)'].std()
print(f"\nMédia da umidade relativa do ar: {media_umidade:.2f}%")
print(f"Desvio padrão da umidade relativa do ar: {desvio_padrao_umidade:.2f}%")

Visualizando Dados com Gráficos

Gráfico de Linhas – Temperatura ao longo do tempo

Vamos criar um gráfico de linhas para visualizar a temperatura ao longo do tempo:

import matplotlib.pyplot as plt

plt.figure(figsize=(10, 5))
plt.plot(df['DATA (YYYY-MM-DD)'], df['TEMPERATURA DO AR - BULBO SECO, HORARIA (°C)'], label='Temperatura')
plt.xlabel('Data')
plt.ylabel('Temperatura (°C)')
plt.title('Temperatura ao longo do tempo')
plt.legend()
plt.xticks(rotation=45)
plt.tight_layout()
plt.show()

Gráfico de Linhas - Temperatura ao longo do tempo

Histograma – Distribuição da Temperatura

Vamos criar um histograma para visualizar a distribuição da temperatura:

plt.figure(figsize=(10, 5))
plt.hist(df['TEMPERATURA DO AR - BULBO SECO, HORARIA (°C)'], bins=20, edgecolor='black')
plt.xlabel('Temperatura (°C)')
plt.ylabel('Frequência')
plt.title('Distribuição da Temperatura')
plt.tight_layout()
plt.show()

Histograma - Distribuição da Temperatura

Gráfico de Dispersão – Temperatura vs Umidade Relativa

Vamos criar um gráfico de dispersão para visualizar a relação entre temperatura e umidade relativa do ar:

plt.figure(figsize=(10, 5))
plt.scatter(df['TEMPERATURA DO AR - BULBO SECO, HORARIA (°C)'], df['UMIDADE RELATIVA DO AR, HORARIA (%)'], alpha=0.5)
plt.xlabel('Temperatura (°C)')
plt.ylabel('Umidade Relativa (%)')
plt.title('Temperatura vs Umidade Relativa')
plt.tight_layout()
plt.show()

Gráfico de Dispersão - Temperatura vs Umidade Relativa

Conclusão

Neste artigo, demonstramos como carregar e manipular dados de um arquivo CSV utilizando a biblioteca pandas do Python. Mostramos como filtrar dados por data, dia específico e temperatura, além de calcular a média e o desvio padrão de variáveis importantes como temperatura e umidade relativa do ar. Adicionalmente, exploramos a visualização dos dados utilizando gráficos de linhas, histogramas e gráficos de dispersão com a biblioteca matplotlib.

Edvaldo Guimrães Filho Avatar

Published by

Categories: ,

Leave a comment