Ciência de Dados “na prática” para profissionais da informação
Esse texto poderia ser mais prático do que ele realmente é. Mas novamente, ele não deixará de ter seu valor.
Há algumas semanas atrás eu publiquei o texto:
Resumindo o livro:
No qual acreditei ter sido válido a leitura, apenas pela curiosidade geral do tema.
Já no texto de hoje, eu trarei um resumo de outro livro:
Practical Data Science for Information Professionals
Um livro mais novo que o anterior (publicado em 2020) e que prometeu introduzir a Ciência de Dados para profissionais da informação.
A obra é uma continuação do livro do mesmo autor (Facilitating Access to the Web of Data: A Guide for Librarians) que aborda como as bibliotecas estão cada vez mais envolvidas no gerenciamento e acesso a dados.
O autor explora bastante as habilidades de programação, como novas habilidades para profissionais da informação, permitindo que elas os ajudem durante a análise de dados ou mesmo, facilitando pessoas a se conectarem com o mundo dos dados.
Já adianto: realmente um livro com uma quantidade bem maior de conteúdo prático e exemplos aplicados à biblioteconomia.
Se você tiver interesse em saber mais, fique aí e continue lendo o texto de hoje
Bora lá?!
Sumário
Ciência de Dados e Biblioteconomia
O processo da Ciência de Dados
Ferramentas para Ciência de Dados
Técnicas de Ciência de Dados na Biblioteconomia
Qual é o futuro da relação entre Ciência de Dados e Biblioteconomia?
Ciência de Dados e Biblioteconomia
Em meu primeiro semestre da faculdade de Biblioteconomia aprendi sobre a pirâmide DIKW.
Naquele momento entendi que como bibliotecário, trabalharia com a informação, que na realidade são “dados contextualizados”/“dados com significado”.
Mas o que seria esse “contexto”, esse “significado”?
Na realidade são interpretações e entendimentos de indivíduos e/ou grupos que pertencem a uma cultura, dentro de um recorte espaço/tempo.
Por esse motivo, apenas teríamos uma perspectiva do que de fato aqueles dados poderiam expor.
Ingenuamente, já pensei que dados não teriam esses vieses, mas eles também têm.
Para obter dados é necessário coletar, medir ou registrar nossa realidade física.
E existe um limite sobre o que conseguimos, de fato, registrar. Um limite que não apenas é físico (por capacidade tecnológica) mas também por decisões sociopolíticas.
Eu já escrevi mais a respeito dessa relação de entendimento sobre leitura de “significado dos dados”, nesse texto.
Mas, vamos voltar apenas aos dados que possuímos (e que não são poucos).
Estamos cada vez mais coletando e compartilhando dados (devido aos nossos limites tecnológicos estarem se expandindo), mas transformá-los em informações e posteriormente em conhecimentos acionáveis é onde está o maior valor.
Consequentemente surge a necessidade de áreas que possam suprir toda essa demanda da nossa sociedade atual.
- Ciência de Dados
- Engenharia de Dados
- Governança de Dados
- …
Existe um movimento nas bibliotecas para oferecerem cada vez mais serviços de dados nos últimos anos, com serviços de suporte a dados de pesquisa: treinamentos, referência, gerenciamento, curadoria etc.
Entretanto é importante diferenciar prestação de serviços de dados e prestação de serviços de ciência de dados, pois ela requer habilidades técnicas diferentes.
Porém já há iniciativas em desenvolvimento, para ministrar treinamentos de Ciência de Dados a pessoas bibliotecárias (fora do Brasil):
Além disso, é importante também ver o outro lado pelo qual a Ciência de Dados cruza com a Biblioteconomia:
A aplicação da Ciência de Dados nos processos de uma biblioteca/unidade de informação.
É onde, particularmente, eu vejo minha maior afinidade e tenho seguido minha carreira.
O autor do livro até mesmo citou um termo que nunca havia lido: Bibliomining
Talvez o “mining” já entregue que não é novo. ^_^
Se você tiver curiosidade, pode ler esses dois artigos sobre:
Mas basicamente é a combinação de mineração de dados, data warehousing e bibliometria com o objetivo de analisar os serviços da biblioteca e obter uma visão holística dos serviços.
Podendo correlacionar com dados da universidade, por exemplo:
- Será que o uso da biblioteca está associado a notas mais altas dos alunos?
- Posso estimar qual é a vida útil de um livro a partir de quantos dias ele foi emprestado?
Curiosamente, um dos meus primeiros textos aqui no Medium, foi sobre um texto semelhante ao tema: sobre o uso de Business Intelligence em Bibliotecas, exemplificando com o Power BI.
A aplicação da Ciência de Dados nos processos de uma biblioteca, consequentemente entra a necessidade de associar programação como habilidade técnica.
Bem… o próprio autor cita que isso ainda é uma ideia controversa e em discussão.
Minha opinião a respeito é:
São ferramentas muito úteis e principalmente, indispensáveis para pessoas Bibliotecárias de Dados.
Realmente “Big Data”?
Um dos temas abordados pelo autor foi a problematização do termo “big data”.
“O que em um dia é considerado big data, pode não ser big data no próximo”
Ele citou um artigo que relatava analisar conjuntos de dados que foram descritos como “big data”, mas na realidade não era exatamente.
What makes Big Data, Big Data? Exploring the ontological characteristics of 26 datasets
Ele justifica que pela falta de conhecimento geral sobre a diversidade de formatos de dados que existem (.csv, XML, json, formatos proprietários…) a diversidade de formas de se coletar dados (API, consultas SQL, consultas SPARQL) pode-se confundir sobre o entendimento do que é “Big Data”.
Mas não por isso, ele deixa de existir.
Inclusive é um dos principais fatores da quarta revolução da ciência: a e-Science.
Que é uma das frentes de atuação da biblioteconomia de dados para auxiliar na colaboração de pesquisadores com seus conjuntos de dados de pesquisa.
O processo da Ciência de Dados
Para quem não é da área de dados nativamente, pode achar que o processo da Ciência de Dados começa a partir de um conjunto de dados.
Mas não é esse o primeiro passo.
A primeira etapa do processo de Ciência de Dados é o entendimento do problema.
Há diversas formas de se estruturar o processo da Ciência de Dados, mas uma das que foi recomendada foi:
- Entendimento do problema: Entender qual é a pergunta que deve ser respondida, bem como os recursos disponíveis para se desenhar um plano realista.
- Coleta de dados: Procurar em fontes de dados confiáveis. Em muitos casos eles podem estar em diferentes locais, formatos e ainda com necessidade de transformação.
- Transformação de dados: É o processo de modificação de dados para os tornar mais úteis à análise.
- Analisar dados: toda a constante fase de exploração e entendimento dos dados para se extrair ao máximo para o problema inicial.
- Visualizar e comunicar dados: dados para serem entendidos precisam ser visualmente comunicados e é através dos gráficos que expomos eles.
Vale ressaltar que ele citou o Storytelling with Data, da Nussbaumer Knaflic.
E outro livro do Alberto Cairo:
Functional Art, The: An introduction to information graphics and visualization
7. Entenda novamente o problema: o processo de trabalho com dados é contínuo e sempre haverá um novo problema para se passar pelo processo, seja de melhoria contínua ou de novas necessidades.
Ferramentas para Ciência de Dados
Na Ciência de Dados, as ferramentas mudam com certa velocidade.
Então é importante que os profissionais da informação sejam adaptáveis e ágeis com conhecimento tecnológico e que tenham vontade de aprender independentemente.
Mas qual é a melhor ferramenta?
“A melhor ferramenta é aquela com a qual o profissional se sente mais confortável.”
É aquela velha resposta do “depende”.
Mas mesmo o livro sendo de 2020, foram citadas algumas ferramentas com links já desatualizados.
Entretanto, Python, R, SQL e planilhas estavam lá.
Técnicas de Ciência de Dados na Biblioteconomia
Um dos pontos bem legais desse livro, foram os exemplos e ideias que ele trouxe de técnicas e conceitos de Ciência de Dados aplicadas no contexto da Biblioteconomia.
Em próximos textos trarei exemplos semelhantes às ideias abordadas. :)
O autor basicamente dividiu em 3 grandes técnicas:
- Clusterização e análise de redes
- Previsões
- Análise de textos
Clusterização e análise de redes:
A análise de redes é um campo que perpassa diversas áreas e uma delas é a da Biblioteconomia e Ciência da Informação.
Um dos seus usos é com os “Estudos Métricos da Informação”.
Como por exemplo,a Bibliometria, ao se analisar a relação entre referências, citações, termos e co-autoria em artigos, periódicos e grupos de pesquisa.
Ou em outros estudos, como da Webometria e da Altmetria
A análise de redes se relaciona diretamente com o clustering (que é uma das técnicas utilizadas na Ciência de Dados) para ler e automaticamente agrupar os dados de acordo com as semelhanças identificadas.
Mas a união entre clusterização + análise de redes não se priva apenas a dar novas perspectivas para os estudos métricos da informação, mas também pode auxiliar a gestão das bibliotecas em entender melhor como se relacionam os 3 pilares da(s) sua(s) unidade(s):
- Acervo: de tipo físico e digital. Com diversos detalhamentos (assuntos, autoria, edições)
- Usuários: tipo de cadastro (aluno/docente, usuário do município / usuário do município vizinho), preferências (temas de interesse, tipo de materiais de interesse), interações nas redes sociais (interações nas redes sociais da biblioteca e nas individuais).
- Uso: consultas, empréstimos, visitas a eventos e workshops.
Previsões:
A Ciência de Dados é valorizada principalmente pelo seu potencial em auxiliar a prever o futuro.
Entretanto é apenas uma previsão, então compreender que você está lidando com probabilidades em vez de absolutos é essencial.
As previsões são realizadas a partir de um modelo estatístico que olham para os dados passados e entendem quais são as possibilidades futuras.
Além disso, é importante entender que o modelo funcionará apenas dentro das variáveis consideradas e é praticamente impossível conseguirmos coletar todas as demais variáveis que podem ocorrer, pois temos uma limitação física de entendimento do mundo.
Porém, ainda conseguimos explorar muito dessas técnicas em bibliotecas.
O autor basicamente dividiu em duas grandes categorias de técnicas preditivas:
A análise de regressão, basicamente entende a relação entre variáveis dependentes (resultado / “output”) e independentes (entradas, “input”).
Há vários tipos de regressão e não vem ao caso aqui detalharmos, então vamos pensar em duas:
- Regressões simples: uma variável independente
- Regressões múltiplas: duas ou mais variáveis dependentes
Podemos pegar dois exemplos de regressões, as regressões lineares e as regressões logísticas.
As regressões lineares (como seu próprio nome já diz) irão traçar uma linha reta.
Já as regressões logísticas irão traçar uma linha curva e poderão prever dois fatores (1 ou 0, sim ou não…).
Elas são as bases dos modelos de classificação de Machine Learning.
Quando bibliotecas poderiam usar regressões?
Um dos exemplos dado foi:
Estimar qual será a quantidade de seguidores em suas páginas nas redes sociais a partir da quantidade de publicações realizadas, de alunos/usuários da instituição e da quantidade de eventos que ela realiza por mês.
Já a análise da Suavização Exponencial é uma técnica que usa dados passados para prever eventos futuros.
Ela normaliza as variações dos dados para criar uma tendência geral.
O que é melhor do que usar a média.
Basicamente teremos a variação dos números contra sua variação temporal. Ela é uma das técnicas das Séries Temporais.
Então, por exemplo, poderíamos prever:
- A quantidade de materiais emprestados durante o cada mês do ano.
- O interesse em participar de um clube do livro durante as férias de julho.
Mas todas essas previsões precisam estar embasadas pelos testes estatísticos.
Análise de textos:
Na visão do autor, dentre as técnicas citadas, essa é a que provavelmente tem o potencial mais difundido para bibliotecas e profissionais da informação.
Seja para entender:
- Qual é o conteúdo compartilhado mais bem-sucedido?
- Quais são as novas tendências nas redes sociais?
- O resultado da análise de sentimento nos comentários sobre o uso do acervo.
- Criar mecanismos para gerar metadados automaticamente.
- Desenvolver sistemas de descoberta.
- Desenvolver sistemas de recomendação.
- …
Antes que você torça o nariz para as possibilidades apontadas acima é importante entender que esses sistemas não substituirão o “fator humano” do profissional da informação, mas sim darão maior produtividade e novas perspectivas para o trabalho.
Qual é o futuro da relação entre Ciência de Dados e Biblioteconomia?
Uma pergunta bem capciosa para um livro que fala sobre previsões e estimativas futuras.
A resposta em português claro é: uma área com muitas oportunidades.
Clichê, mas eu gostei bastante da finalização da obra.
Ele embasou o contexto da Ciência de Dados listando 8 desafios dos próximos anos para a Ciência de dados:
- Letramento em dados
- Descoberta de dados
- Gerenciamento de aprendizado das ferramentas pelos profissionais de dados
- Privacidade e segurança dos dados
- Responsabilidade algorítmica dos profissionais de dados
- Compreensão dos algoritmos de caixa preta
- Desenvolvimento de novos algoritmos a partir de novas tecnologias futuras
- Ciclo de hype das ferramentas em dados
Lendo os principais desafios, me lembrei de outro livro (que ainda não li), mas cabe a indicação, pois foi feita pela Kizzy e o Hallisson do Programação Dinâmica:
ALGORITMOS DE DESTRUIÇÃO EM MASSA
Além disso trouxe 10 dicas para ir da Biblioteconomia até a Ciência de dados:
- Desenvolva bons conhecimentos sobre dados
- Busque entender quais são as habilidades e ferramentas necessárias para atuar com dados.
- Defenda mais Ciência de Dados em bibliotecas
- Defenda menos Ciência de Dados em bibliotecas (nem tudo se resolve com dados)
- Pratique!
- Tenha um processo de trabalho sistemático
- Treine, treine e… Treine
- Especialize-se em alguma técnica da Ciência de Dados
- Promova seu projeto de Ciência de Dados em bibliotecas
- Ultrapasse limites para a promoção da inovação em bibliotecas
Bom… Se você não se animou, como última palavra do livro sobre o tema:
TENTE!
Considerações Finais
Um livro que realmente valeu a pena sua leitura devido a visão geral que ele dá de possibilidades dessa “área híbrida” que está se formando entre Biblioteconomia + Ciência de Dados.
Não trouxe aplicações práticas neste momento, mas em futuros textos eu trarei.
Há muito a se explorar, entender, aplicar…
Inclusive há uma disciplina da pós graduação da Universidade de Brasília específica sobre parte de toda essa “nova especialização”:
Aprendizagem de Máquina Aplicada na Ciência da Informação
E você pode consultar ela nessa wiki do GitHub:
Atualmente eu venho estudando de forma mais livre porque para minhas necessidades atuais é o que se encaixa melhor.
Mas que fique claro que não há melhor ou pior entre o ensino formal e livre, mas sim objetivos diferentes.
Eu estudo através de cursos da Alura.
Além disso, também recomendo a quaisquer pessoas que queiram estudar lá.
Caso você não seja aluna(o) ainda, confira meu cupom de desconto especial aqui.
Também estudo através de livros…
Uma coisa não quer dizer nada com a outra, mas…
Sou bibliotecário… e gosto de ler :)
Principalmente de editoras como da O’reilly e da Casa do Código.
Que tem diversos livros de programação e dados com uma linguagem extremamente didática e fácil de ler:
Não são aquelas leituras pesadas e difíceis, sabe?!
Inclusive, neste momento estou lendo esse:
A área de Ciência de Dados ainda é nova, então essas “novas mesclagens” como uma “Biblioteconomia de Dados”, estão em estado embrionário de amadurecimento.
Agora me diga:
O que você pensa a respeito da Ciência de Dados aplicada a Biblioteconomia/Ciência da informação?
Ou dessa possível “nova especialização” da Biblioteconomia de Dados?
Deixe nos comentários e vamos conversar a respeito.
Se você chegou até aqui e curtiu, dê palmas, compartilhe e se inscreva para me acompanhar.
Ainda há muito a se explorar…