Sitemap
Press enter or click to view image in full size
Photo by Mollie Sivaram on Unsplash

Visualizando dados das teses e dissertações sobre biblioteca digital no R

5 min readJul 5, 2022

--

algumas semanas eu recebi uma dúvida no Linkedin, se eu conhecia alguma pessoa com familiaridade na linguagem R. Era um aluno de doutorado que estava procurando alguém que pudesse auxiliá-lo na criação de gráficos para a sua pesquisa.

Indiquei uma pessoa conhecida e a comunidade do R-Ladies, mas me coloquei a disposição para entender melhor o problema.

Talvez você que está lendo esse texto não saiba, mas quando comecei a estudar ciência de dados, foi com R.

Li livros, assisti aulas, fiz gráficos mais elaborados (inclusive obtive meu primeiro contato com o auxílio da comunidade de tecnologia, veja nesse post), mas parece que não ia para frente.

Eu não conhecia minha forma de aprender também (lia livros de programação tentando decorar e escrever “no papel” cada comando).

A minha primeira linha de código em R foi uma operação aritmética (possivelmente um 1+1 ou 5+5). Há quem diga que se você não fizer um “Hello World” como primeira linha, pode dar azar. ¯\_(ツ)_/¯

Em resumo: comecei com R mas não engrenei.

Expliquei a ele que se fosse Python, mandaria melhor mas com R nem tanto. Marcamos uma data mais para frente e eu fui relembrar algumas coisas.

Decidi montar um “projeto”, visualizando os dados das teses e dissertações sobre “biblioteca digital” na BDTD, na mesma lógica desse outro aqui que tinha feito.

No dia que combinamos de nos encontrar percebi que o desafio estava bem mais focado na parte de transformações dos dados e bem… Não consegui ajudar muito com R, mas auxiliei ele utilizando Python. Foi muito legal não apenas pela prática, mas também pela conexão e do quanto aprendi com ele sobre muitos outros assuntos no qual acabamos conversando um pouco.

Mas o “projeto” ficou pronto e decidi escrever sobre ele (caso queira o link no git hub, está aqui).

Bora lá?!

Sumário

IDE

Total de documentos

Teses e dissertações

Documentos por ano

Documentos por instituição

Dissertações por instituição

Teses por instituição

Considerações finais

IDE

Em projetos de ciência de dados com Python uma das ferramentas mais comuns é o Jupyter Notebook (ou o google colab). Já no R é comum de vermos o R-Studio.

Inclusive, se você não quiser/puder instalar o R no seu computador e o projeto for leve, pode utilizar a nova versão na cloud o R-Studio Cloud.

Link do site

Fiz o projeto utilizando um “R Notebook” dentro do R-Studio, mas também fiz ele no Google Colab.

Sim!

O Google Colab também roda R (confira esse post ensinando como).

Total de documentos

Extraí os dados da BDTD (Biblioteca digital de teses e dissertações), utilizando o termo “biblioteca digital” no campo de busca de assuntos.

Para visualizar os dados, utilizei a famosa biblioteca ggplot2.

Retornaram então:

Press enter or click to view image in full size
Confira o notebook aqui.

Teses e dissertações

Dessas 66, quantas dissertações e teses foram publicadas?

Press enter or click to view image in full size
Confira o notebook aqui.

Apenas duas opções, gráfico de pizza está ok.

Mas decidi fazer um de barras empilhadas:

Press enter or click to view image in full size
Press enter or click to view image in full size
Confira o notebook aqui.

Na minha última análise, dentre o total de teses e dissertações sobre biblioteconomia o percentual de teses foi de aproximadamente 20%.

Possivelmente esse número é menor aqui devido ao tema ser ainda “recente” dentro da área.

Documentos por ano

A primeira dissertação foi em 1998 e a primeira tese apenas em 2006.

Em 2011 houve um pico considerável no número de dissertações sobre biblioteca digital, onde seria necessário se pesquisar mais para se entender essa diferença.

Press enter or click to view image in full size
Confira o notebook aqui.

Documentos por instituição

As instituições no Brasil que mais publicaram teses e dissertações são a UFMG e UNB.

As duas juntas detém aproximadamente 20% do total de documentos publicados.

Press enter or click to view image in full size
Confira o notebook aqui.

Dissertações por instituição

Agora, apenas em dissertações, a UFMG lidera o ranking dentro dos 20% da quantidade total de documentos.

Press enter or click to view image in full size
Press enter or click to view image in full size
Confira o notebook aqui.

Teses por instituição

A UMFG não possui teses sobre o tema publicadas.

Dentre as 7, a UNB publicou 4 destas.

Press enter or click to view image in full size
Confira o notebook aqui.

Considerações finais

A ideia desse “projeto” era apenas “treinar” visualização de dados com R. Com isso pude observar que a UFMG e a UNB são as instituições que lideram na quantidade de de teses e dissertações dentro do tema de “biblioteca digital” no Brasil.

Também pude visualizar o grande pico em 2011, com a quantidade de dissertações sendo publicadas. Cabe em um segundo momento ou análise externa explicar o porquê desse volume.

Trago dois links como indicação para quem queira se aventurar em visualização de dados com ggplot2 (esses materiais me ajudaram bastante):

GGPLOT 2 — Livro versão online

Top 50 visualizações com ggplot2

Agora me diga você prefere R ou Python para visualização de dados?

Se você chegou até aqui e curtiu, dê palmas, compartilhe e se inscreva para me acompanhar.

Ainda há muito a se explorar…

--

--

Francisco Foz
Francisco Foz

Written by Francisco Foz

Bibliotecário | Analista de dados | Disseminando informações para produzir conhecimento.

No responses yet