Visualização dos dados de teses e dissertações de biblioteconomia do Brasil com Python
Criar visualizações de dados pode parecer algo bem simples, mas não é. Existe todo um processo de tratamento dos gráficos para que eles se tornem claros e objetivos para que o público possa entender.
Totalmente ligado ao storytelling dos dados, as visualizações devem sempre levar em consideração o contexto da análise e do público. É um trabalho artístico no qual você deve a cada dia se aperfeiçoar mais.
Inspirado no livro Storytelling com dados, abordarei neste artigo o processo de transformação das visualizações com Python, usando a biblioteca Matplotlib.
Criarei visualizações a partir dos dados da quantidade de teses e dissertações de biblioteconomia encontradas na Biblioteca Digital de Teses e Dissertações — BDTD.
Fiz a manipulação através do google colab e irei focar nas visualizações, mas se você tiver interesse pode conferir o notebook completo aqui.
Sumário:
- Fonte de dados e bibliotecas utilizadas
- Visualização o total de documentos
- Quantidade de teses e dissertações
- Visualização ao longo do tempo
- Quantidade por instituição
- Dicas
Bora lá?!
Fonte de dados e bibliotecas utilizadas
Primeiramente precisamos coletar os dados, então:
Fiz uma coleta simples na BDTD, utilizando o termo “biblioteconomia” no campo de pesquisa.
A partir disso exportei os registros em CSV através da API configurada:
Como padrão ela está configurada para um limite de 1000 resultados.
Modifiquei para exportar todos os 1182.
Dados ok!
Vamos às bibliotecas utilizadas:
Utilizei principalmente o Matplotlib e para a manipulação dos dados o Pandas e o Numpy.
*Utilizei a biblioteca 3.4.2 do Matplotlib então, no colab precisei instalar ela.
Coloquei os dados no repositório do meu github e importei para dentro do meu notebook.
Visualização do total de documentos
Ao se passar uma informação de apenas um número, fica ruim escrevermos só ele.
Podemos gerar mais impacto ao utilizar de técnicas gráficas para melhorar a visibilidade. Por isso criei esse cartão para visualizar os 1182 documentos listados na BDTD:
Para realizar ele fiz este código:
Quantidade de teses e dissertações
Temos 1182 documentos, mas destes quantos são teses e quantos são dissertações?
Bom para se visualizar uma composição de dados podemos utilizar gráficos que exemplificam essa composição, como o de pizza (ou torta) ou de barras empilhadas.
Mas ao plotar o gráfico de forma “crua” ele gera uma visualização assim:
Esquisito né?
Vamos melhorar:
Bem melhor…
Mas eu não gosto de gráficos de torta. Eles são ruins de se visualizar uma área, porque nós temos dificuldade de enxergar proporções que tenhamos que calcular um PI. Abordei melhor esse ponto neste artigo.
Então vamos fazer um gráfico de barras empilhadas:
Como vocês já perceberam, precisamos sempre tratarmos elas.
Portanto para ela ficar assim:
Fiz algumas manipulações.
- Criei variáveis com os percentuais
- Criei variáveis para os números
- Plotei o gráfico com todos os tratamentos:
Você pode perceber que as informações estão mais claras e objetivas, além de explorar os recursos das cores (no qual é uma poderosa arma em sua mão).
Visualização ao longo do tempo
Para contarmos a história da quantidade de teses e dissertações, precisamos dar a dimensão do tempo.
Então para isso vamos fazer uma linha do tempo:
Aqui estão todas juntas, com um gráfico carregado, sem título, pequeno… sem um tratamento.
Agora após tratarmos:
Podemos ver com mais clareza os picos e vales ao decorrer dos anos, a separação por documento, além de anotar os dois maiores índices de cada um em todo esse tempo.
Os tratamentos:
Quantidade por instituição
Quais foram as instituições que mais tiveram dissertações e teses publicadas?
Fiz algumas manipulações nos dados e resolvi criar um gráfico para cada tipo de documento entre as dez instituições que mais tiveram maior quantidade.
Nota-se que já escolhi um gráfico de barras horizontais, pois ao visualizar dados categóricos é uma melhor opção do que virar a cabeça para entender eles no eixo x, ou mesmo que deixassem eles na horizontal teríamos um gráfico muito extenso.
Mais claro né?
Nota-se que dar um destaque para onde você quer focar a sua história é super importante.
Além de utilizar do próprio recurso textual como seu aliado.
O .bar_label está disponível na versão 3.4.2 do matplotlib. Decidi escolher ele para poder ficar mais fácil a plotagem dos rótulos dos valores em cada barra.
Vamos ver os das teses também:
Dicas
Criar visualizações de dados é algo super importante e muito poderoso.
Com visualizações específicas é possível manipular o público, o que eu não recomendo e até já dei dicas para você se atentar nesse artigo.
Não é do dia pra noite que você irá se desenvolver em um especialista em visualizações e dentro da ciência de dados, pode ser que nem seja a sua área preferida. Entretanto é algo que você deve estudar e se aprimorar com o tempo.
Como havia falado no início do artigo e repito, esse livro é fantástico para você que quer aprender a criar boas visualizações:
Após ler esse livro e estudando visualizações de dados, encontrei esse projeto no github, no qual aprendi muito e me inspirei para trazer aqui os melhores gráficos.
Para estudar ciência de dados e se aprofundar em data visualization, eu super recomendo a Alura.
Eles possuem muitos cursos específicos nessa linha:
Caso você não seja aluno da Alura, confira meu cupom e comece o ano focado na sua carreira e estudos.
Contar história com dados através de visualizações é um trabalho muito empolgante.
Agora me diga:
Qual história com dados você quer contar?
Faça suas visualizações e me marque para compartilharmos nossas histórias.
Se você chegou até aqui e curtiu, dê o claps, compartilhe e se inscreva para me acompanhar.
Ainda há muito a se explorar…