Visualizando dados das teses e dissertações sobre biblioteca digital no R
Há algumas semanas eu recebi uma dúvida no Linkedin, se eu conhecia alguma pessoa com familiaridade na linguagem R. Era um aluno de doutorado que estava procurando alguém que pudesse auxiliá-lo na criação de gráficos para a sua pesquisa.
Indiquei uma pessoa conhecida e a comunidade do R-Ladies, mas me coloquei a disposição para entender melhor o problema.
Talvez você que está lendo esse texto não saiba, mas quando comecei a estudar ciência de dados, foi com R.
Li livros, assisti aulas, fiz gráficos mais elaborados (inclusive obtive meu primeiro contato com o auxílio da comunidade de tecnologia, veja nesse post), mas parece que não ia para frente.
Eu não conhecia minha forma de aprender também (lia livros de programação tentando decorar e escrever “no papel” cada comando).
A minha primeira linha de código em R foi uma operação aritmética (possivelmente um 1+1 ou 5+5). Há quem diga que se você não fizer um “Hello World” como primeira linha, pode dar azar. ¯\_(ツ)_/¯
Em resumo: comecei com R mas não engrenei.
Expliquei a ele que se fosse Python, mandaria melhor mas com R nem tanto. Marcamos uma data mais para frente e eu fui relembrar algumas coisas.
Decidi montar um “projeto”, visualizando os dados das teses e dissertações sobre “biblioteca digital” na BDTD, na mesma lógica desse outro aqui que tinha feito.
No dia que combinamos de nos encontrar percebi que o desafio estava bem mais focado na parte de transformações dos dados e bem… Não consegui ajudar muito com R, mas auxiliei ele utilizando Python. Foi muito legal não apenas pela prática, mas também pela conexão e do quanto aprendi com ele sobre muitos outros assuntos no qual acabamos conversando um pouco.
Mas o “projeto” ficou pronto e decidi escrever sobre ele (caso queira o link no git hub, está aqui).
Bora lá?!
Sumário
IDE
Em projetos de ciência de dados com Python uma das ferramentas mais comuns é o Jupyter Notebook (ou o google colab). Já no R é comum de vermos o R-Studio.
Inclusive, se você não quiser/puder instalar o R no seu computador e o projeto for leve, pode utilizar a nova versão na cloud o R-Studio Cloud.
Fiz o projeto utilizando um “R Notebook” dentro do R-Studio, mas também fiz ele no Google Colab.
Sim!
O Google Colab também roda R (confira esse post ensinando como).
Total de documentos
Extraí os dados da BDTD (Biblioteca digital de teses e dissertações), utilizando o termo “biblioteca digital” no campo de busca de assuntos.
Para visualizar os dados, utilizei a famosa biblioteca ggplot2.
Retornaram então:
Teses e dissertações
Dessas 66, quantas dissertações e teses foram publicadas?
Apenas duas opções, gráfico de pizza está ok.
Mas decidi fazer um de barras empilhadas:
Na minha última análise, dentre o total de teses e dissertações sobre biblioteconomia o percentual de teses foi de aproximadamente 20%.
Possivelmente esse número é menor aqui devido ao tema ser ainda “recente” dentro da área.
Documentos por ano
A primeira dissertação foi em 1998 e a primeira tese apenas em 2006.
Em 2011 houve um pico considerável no número de dissertações sobre biblioteca digital, onde seria necessário se pesquisar mais para se entender essa diferença.
Documentos por instituição
As instituições no Brasil que mais publicaram teses e dissertações são a UFMG e UNB.
As duas juntas detém aproximadamente 20% do total de documentos publicados.
Dissertações por instituição
Agora, apenas em dissertações, a UFMG lidera o ranking dentro dos 20% da quantidade total de documentos.
Teses por instituição
A UMFG não possui teses sobre o tema publicadas.
Dentre as 7, a UNB publicou 4 destas.
Considerações finais
A ideia desse “projeto” era apenas “treinar” visualização de dados com R. Com isso pude observar que a UFMG e a UNB são as instituições que lideram na quantidade de de teses e dissertações dentro do tema de “biblioteca digital” no Brasil.
Também pude visualizar o grande pico em 2011, com a quantidade de dissertações sendo publicadas. Cabe em um segundo momento ou análise externa explicar o porquê desse volume.
Trago dois links como indicação para quem queira se aventurar em visualização de dados com ggplot2 (esses materiais me ajudaram bastante):
GGPLOT 2 — Livro versão online
Top 50 visualizações com ggplot2
Agora me diga você prefere R ou Python para visualização de dados?
Se você chegou até aqui e curtiu, dê palmas, compartilhe e se inscreva para me acompanhar.
Ainda há muito a se explorar…