O formato denominado CSV (Comma Separated Values) é o formato mais comum de importação e exportação para planilhas e bancos de dados. Existiam vários formatos de CSV até sua padronização. A falta de um padrão bem definido significa que muitas vezes existem diferenças sutis nos dados produzidos e consumidos por diferentes aplicativos. Essas diferenças podem tornar irritante processar arquivos CSV de várias fontes. Para isso, usaremos a csvbiblioteca Python para ler e escrever dados tabulares no formato CSV.

Para obter o link para o arquivo CSV usado no código, clique aqui .

Código # 1: usaremos a csv.DictReader()função para importar o arquivo de dados para o ambiente do Python.

import csv 
  
with open('auto-mpg.csv') as csvfile: 
    mpg_data = list(csv.DictReader(csvfile)) 
print(mpg_data[:3]) 

Saída:

Como podemos ver, os dados são armazenados como uma lista de dicionário ordenado. Vamos realizar algumas operações nos dados para melhor compreensão.

Código # 2:



print(mpg_data[0].keys) 
  
unique_cyl = set(data['cylinders'] for data in mpg_data) 
print(unique_cyl) 

Saída:


como podemos ver na saída, temos 5 valores únicos de cilindros em nosso conjunto de dados.

Código # 3: Agora vamos descobrir o valor do mpg médio para cada valor dos cilindros.

avg_mpg = [] 
for c in unique_cyl: 
    
    mpgbycyl = 0
    
    
    cylcount = 0
  
    
    for x in mpg_data: 
      if x['cylinders']== c: 
              mpgbycyl += float(x['mpg']) 
              cylcount += 1
  
    
    avg = mpgbycyl/cylcount 
    
    avg_mpg.append((c, avg)) 
avg_mpg.sort(key = lambda x : x[0]) 
print(avg_mpg) 

Resultado :


Como podemos ver na saída, o programa retornou com sucesso uma lista de tuplas contendo o mpg médio para cada tipo de cilindro exclusivo em nosso conjunto de dados.