Por que você deveria conhecer a biblioteca Pandas?
A etapa inicial de extração, limpeza e modelagem de dados é essencial dentro de um projeto de ciência de dados. Existem diversas ferramentas e formas de se realizar esse processo, mas com Python se destaca o Pandas.
Não, não é o urso.
Pandas é uma biblioteca do Python específica para manipular e analisar dados.
Biblioteca?
É… eu como Bibliotecário também estranhei o termo quando comecei a entrar no mundo da tecnologia.
Biblioteca é a nomenclatura utilizada para descrever uma coleção de subprogramas e funcionalidades no desenvolvimento de um software. Ao invés de cada vez que você desenvolver criar tudo do zero, você usa funções que já criaram e deixaram prontas para uso.
Ela é uma das mais relevantes e utilizadas pela ciência de dados.
Pandas vem de “Panel Data”, dados em painel.
Com ela é possível fazermos toda a limpeza, modelagem, análise e visualização dos dados de forma muito rápida.
Ela é construída em cima do Numpy, outra biblioteca no qual permite realizar diversos cálculos matemáticos “em blocos”. Também tem por de baixo dos panos o Matplotlib, uma biblioteca para criar gráficos.
Apresentarei aqui, alguns pontos do que ela é capaz de fazer:
- Criação de objetos;
- Visualização de dados tabulares;
- Selecionar dados;
- Manusear dados ausentes;
- Operações;
- Juntar conjuntos de dados;
- Carregar dados de diversas fontes.
Bora conhecer o Pandas?
Criação de objetos
A biblioteca tem dois principais objetos, a Series e o DataFrame.
Series é uma matriz unidimensional com um índice e pode ter dados de diversos tipos (números inteiros, números decimais, palavras etc).
Para criar você pode usar listas:
Dicionários:
Ou até mesmo um valor único para se repetir.
DataFrame é uma matriz bidimensional com índice e colunas. Seria como uma planilha e também a mais utilizada. Ela é criada através de listas, dicionários, outros DataFrames e da própria Series.
Se eu selecionar uma coluna ele vai gerar um objeto Series:
Visualização de dados tabulares
Quando se carrega um DataFrame, mas ele é muito longo ou mesmo por alguma outra razão você quer apenas visualizar as primeiras linhas.
Você usa o .head()
Se quiser as linhas inferiores, será o .tail()
Você também poderá querer um resumo estatístico da descrição do conjunto numérico, com o .describe()
É possível fazer a transposição da tabela com facilidade usando o .T()
Ordenar ela pelo seu índice, com o .sort_index()
Ou mesmo por um valor específico da coluna, com o sort_value()
Selecionar dados
Muitas vezes iremos querer “cortar” o DataFrame, seja ele pela linha ou coluna.
Para selecionar uma coluna específica passamos [[‘Nome da coluna’]] :
Ao selecionar as linhas usamos o número da posição dela dentro de colchetes, o início e fim:
Por conta da numeração do python, ela começa em 0 e eu indiquei que queria até a 2, portanto a 2 não entra.
Fazer uma consulta através de regras de elementos booleanos também é possível. No caso aqui, todas as linhas que tiverem dentro da coluna “Faculdade de Educação” maior de 50, serão selecionadas:
Manusear dados ausentes
Com alguma frequência você encontrará conjunto de dados com dados ausentes:
NaN é a sigla de Not a Number
Para isso você poderá excluir, com o .dropna()
Ou preencher com o .fillna()
Operações
Aqui entram muuuitas operações…
Operações estatísticas, com média, mediana, moda como abordei nesse artigo aqui.
Operações com o poderoso .apply() , que permite aplicar uma função por todo o eixo do DataFrame.
Operações mais simples como o .value_counts() , no qual retornará uma Series com a contagem dos valores únicos.
E operações com textos usando expressões regulares (método de manusear strings).
Juntar conjuntos de dados
Outra manipulação que fazemos com frequência é a junção de DataFrames.
Por exemplo, temos estes dois:
Para juntá-los, utilizamos o .merge()
Agora temos os dados dos anos de 2016 e 2017, como vamos juntar eles?
Usamos o .concat()
Carregar e exportar dados de diversas fontes
Também é possível ler e exportar dados de diversos formatos.
Com um .read_csv ou to_csv
- CSV
- Excel
- SQL
- XML
- Parquet
- Google Big Query
- …
Consulte a documentação aqui para ver mais.
Estudando Pandas
Aqui foi só uma “lasca do iceberg” que o Pandas pode fazer.
Se você estiver no mundo da ciência de dados e usar Python, com certeza usará ele em seus projetos.
Mas para manipular dados com o Pandas é necessário estudar e para isso…
Você deve ler a documentação e sempre consultá-la para alguma dúvida.
Mas nem sempre ela é muito didática, então vídeos no Youtube podem ajudar.
Mas muitas vezes não estão completos ou precisamos caçar bastante para tirar alguma dúvida específica.
Você pode então acessar a Alura, no qual tem diversos cursos para você aprender e entender passo a passo cada etapa na manipulação.
São cursos desde o começo (sem conhecimento prévio algum), até cursos mais específicos e avançados.
Se você não é aluno da Alura e gostaria de ser, confira o meu cupom de desconto especial aqui.
Agora me diga, você já conhecia o Pandas?
Só tinha ouvido falar?
Ou nunca tinha visto?
Se você chegou até aqui e curtiu, dê o claps, compartilhe e se inscreva para me acompanhar.
Porque…
Ainda há muito a se explorar…