Photo by Lukas W. on Unsplash

Por que você deveria conhecer a biblioteca Pandas?

Francisco Foz
6 min readNov 29, 2021

A etapa inicial de extração, limpeza e modelagem de dados é essencial dentro de um projeto de ciência de dados. Existem diversas ferramentas e formas de se realizar esse processo, mas com Python se destaca o Pandas.

Não, não é o urso.

Mas eles são muito fofos, não são?!

Pandas é uma biblioteca do Python específica para manipular e analisar dados.

Biblioteca?

É… eu como Bibliotecário também estranhei o termo quando comecei a entrar no mundo da tecnologia.

Biblioteca é a nomenclatura utilizada para descrever uma coleção de subprogramas e funcionalidades no desenvolvimento de um software. Ao invés de cada vez que você desenvolver criar tudo do zero, você usa funções que já criaram e deixaram prontas para uso.

Ela é uma das mais relevantes e utilizadas pela ciência de dados.

Pandas vem de “Panel Data”, dados em painel.

Com ela é possível fazermos toda a limpeza, modelagem, análise e visualização dos dados de forma muito rápida.

Ela é construída em cima do Numpy, outra biblioteca no qual permite realizar diversos cálculos matemáticos “em blocos”. Também tem por de baixo dos panos o Matplotlib, uma biblioteca para criar gráficos.

Apresentarei aqui, alguns pontos do que ela é capaz de fazer:

  • Criação de objetos;
  • Visualização de dados tabulares;
  • Selecionar dados;
  • Manusear dados ausentes;
  • Operações;
  • Juntar conjuntos de dados;
  • Carregar dados de diversas fontes.

Bora conhecer o Pandas?

Criação de objetos

A biblioteca tem dois principais objetos, a Series e o DataFrame.

Series é uma matriz unidimensional com um índice e pode ter dados de diversos tipos (números inteiros, números decimais, palavras etc).

Para criar você pode usar listas:

Dicionários:

Ou até mesmo um valor único para se repetir.

DataFrame é uma matriz bidimensional com índice e colunas. Seria como uma planilha e também a mais utilizada. Ela é criada através de listas, dicionários, outros DataFrames e da própria Series.

Se eu selecionar uma coluna ele vai gerar um objeto Series:

Visualização de dados tabulares

Quando se carrega um DataFrame, mas ele é muito longo ou mesmo por alguma outra razão você quer apenas visualizar as primeiras linhas.

Você usa o .head()

Se quiser as linhas inferiores, será o .tail()

Você também poderá querer um resumo estatístico da descrição do conjunto numérico, com o .describe()

É possível fazer a transposição da tabela com facilidade usando o .T()

Ordenar ela pelo seu índice, com o .sort_index()

Ou mesmo por um valor específico da coluna, com o sort_value()

Selecionar dados

Muitas vezes iremos querer “cortar” o DataFrame, seja ele pela linha ou coluna.

Para selecionar uma coluna específica passamos [[‘Nome da coluna’]] :

Ao selecionar as linhas usamos o número da posição dela dentro de colchetes, o início e fim:

Por conta da numeração do python, ela começa em 0 e eu indiquei que queria até a 2, portanto a 2 não entra.

Fazer uma consulta através de regras de elementos booleanos também é possível. No caso aqui, todas as linhas que tiverem dentro da coluna “Faculdade de Educação” maior de 50, serão selecionadas:

Manusear dados ausentes

Com alguma frequência você encontrará conjunto de dados com dados ausentes:

NaN é a sigla de Not a Number

Para isso você poderá excluir, com o .dropna()

Ou preencher com o .fillna()

Operações

Aqui entram muuuitas operações…

Operações estatísticas, com média, mediana, moda como abordei nesse artigo aqui.

Operações com o poderoso .apply() , que permite aplicar uma função por todo o eixo do DataFrame.

Operações mais simples como o .value_counts() , no qual retornará uma Series com a contagem dos valores únicos.

E operações com textos usando expressões regulares (método de manusear strings).

Juntar conjuntos de dados

Outra manipulação que fazemos com frequência é a junção de DataFrames.

Por exemplo, temos estes dois:

Para juntá-los, utilizamos o .merge()

Agora temos os dados dos anos de 2016 e 2017, como vamos juntar eles?

Usamos o .concat()

Carregar e exportar dados de diversas fontes

Também é possível ler e exportar dados de diversos formatos.

Com um .read_csv ou to_csv

  • CSV
  • Excel
  • SQL
  • XML
  • Parquet
  • Google Big Query

Consulte a documentação aqui para ver mais.

Estudando Pandas

Aqui foi só uma “lasca do iceberg” que o Pandas pode fazer.

Se você estiver no mundo da ciência de dados e usar Python, com certeza usará ele em seus projetos.

Mas para manipular dados com o Pandas é necessário estudar e para isso…

Você deve ler a documentação e sempre consultá-la para alguma dúvida.

Mas nem sempre ela é muito didática, então vídeos no Youtube podem ajudar.

Mas muitas vezes não estão completos ou precisamos caçar bastante para tirar alguma dúvida específica.

Você pode então acessar a Alura, no qual tem diversos cursos para você aprender e entender passo a passo cada etapa na manipulação.

São cursos desde o começo (sem conhecimento prévio algum), até cursos mais específicos e avançados.

Se você não é aluno da Alura e gostaria de ser, confira o meu cupom de desconto especial aqui.

Agora me diga, você já conhecia o Pandas?

Só tinha ouvido falar?

Ou nunca tinha visto?

Se você chegou até aqui e curtiu, dê o claps, compartilhe e se inscreva para me acompanhar.

Porque…

Ainda há muito a se explorar…

--

--

Francisco Foz

Bibliotecário | Analista de dados | Disseminando informações para produzir conhecimento.