Photo by Mollie Sivaram on Unsplash

Visualizando dados das teses e dissertações sobre biblioteca digital no R

Francisco Foz

--

algumas semanas eu recebi uma dúvida no Linkedin, se eu conhecia alguma pessoa com familiaridade na linguagem R. Era um aluno de doutorado que estava procurando alguém que pudesse auxiliá-lo na criação de gráficos para a sua pesquisa.

Indiquei uma pessoa conhecida e a comunidade do R-Ladies, mas me coloquei a disposição para entender melhor o problema.

Talvez você que está lendo esse texto não saiba, mas quando comecei a estudar ciência de dados, foi com R.

Li livros, assisti aulas, fiz gráficos mais elaborados (inclusive obtive meu primeiro contato com o auxílio da comunidade de tecnologia, veja nesse post), mas parece que não ia para frente.

Eu não conhecia minha forma de aprender também (lia livros de programação tentando decorar e escrever “no papel” cada comando).

A minha primeira linha de código em R foi uma operação aritmética (possivelmente um 1+1 ou 5+5). Há quem diga que se você não fizer um “Hello World” como primeira linha, pode dar azar. ¯\_(ツ)_/¯

Em resumo: comecei com R mas não engrenei.

Expliquei a ele que se fosse Python, mandaria melhor mas com R nem tanto. Marcamos uma data mais para frente e eu fui relembrar algumas coisas.

Decidi montar um “projeto”, visualizando os dados das teses e dissertações sobre “biblioteca digital” na BDTD, na mesma lógica desse outro aqui que tinha feito.

No dia que combinamos de nos encontrar percebi que o desafio estava bem mais focado na parte de transformações dos dados e bem… Não consegui ajudar muito com R, mas auxiliei ele utilizando Python. Foi muito legal não apenas pela prática, mas também pela conexão e do quanto aprendi com ele sobre muitos outros assuntos no qual acabamos conversando um pouco.

Mas o “projeto” ficou pronto e decidi escrever sobre ele (caso queira o link no git hub, está aqui).

Bora lá?!

Sumário

IDE

Total de documentos

Teses e dissertações

Documentos por ano

Documentos por instituição

Dissertações por instituição

Teses por instituição

Considerações finais

IDE

Em projetos de ciência de dados com Python uma das ferramentas mais comuns é o Jupyter Notebook (ou o google colab). Já no R é comum de vermos o R-Studio.

Inclusive, se você não quiser/puder instalar o R no seu computador e o projeto for leve, pode utilizar a nova versão na cloud o R-Studio Cloud.

Link do site

Fiz o projeto utilizando um “R Notebook” dentro do R-Studio, mas também fiz ele no Google Colab.

Sim!

O Google Colab também roda R (confira esse post ensinando como).

Total de documentos

Extraí os dados da BDTD (Biblioteca digital de teses e dissertações), utilizando o termo “biblioteca digital” no campo de busca de assuntos.

Para visualizar os dados, utilizei a famosa biblioteca ggplot2.

Retornaram então:

Confira o notebook aqui.

Teses e dissertações

Dessas 66, quantas dissertações e teses foram publicadas?

Confira o notebook aqui.

Apenas duas opções, gráfico de pizza está ok.

Mas decidi fazer um de barras empilhadas:

Confira o notebook aqui.

Na minha última análise, dentre o total de teses e dissertações sobre biblioteconomia o percentual de teses foi de aproximadamente 20%.

Possivelmente esse número é menor aqui devido ao tema ser ainda “recente” dentro da área.

Documentos por ano

A primeira dissertação foi em 1998 e a primeira tese apenas em 2006.

Em 2011 houve um pico considerável no número de dissertações sobre biblioteca digital, onde seria necessário se pesquisar mais para se entender essa diferença.

Confira o notebook aqui.

Documentos por instituição

As instituições no Brasil que mais publicaram teses e dissertações são a UFMG e UNB.

As duas juntas detém aproximadamente 20% do total de documentos publicados.

Confira o notebook aqui.

Dissertações por instituição

Agora, apenas em dissertações, a UFMG lidera o ranking dentro dos 20% da quantidade total de documentos.

Confira o notebook aqui.

Teses por instituição

A UMFG não possui teses sobre o tema publicadas.

Dentre as 7, a UNB publicou 4 destas.

Confira o notebook aqui.

Considerações finais

A ideia desse “projeto” era apenas “treinar” visualização de dados com R. Com isso pude observar que a UFMG e a UNB são as instituições que lideram na quantidade de de teses e dissertações dentro do tema de “biblioteca digital” no Brasil.

Também pude visualizar o grande pico em 2011, com a quantidade de dissertações sendo publicadas. Cabe em um segundo momento ou análise externa explicar o porquê desse volume.

Trago dois links como indicação para quem queira se aventurar em visualização de dados com ggplot2 (esses materiais me ajudaram bastante):

GGPLOT 2 — Livro versão online

Top 50 visualizações com ggplot2

Agora me diga você prefere R ou Python para visualização de dados?

Se você chegou até aqui e curtiu, dê palmas, compartilhe e se inscreva para me acompanhar.

Ainda há muito a se explorar…

--

--

Francisco Foz
Francisco Foz

Written by Francisco Foz

Bibliotecário | Analista de dados | Disseminando informações para produzir conhecimento.