Trabalhando como um Bibliotecário de dados
Não se engane pelo título, esse texto é mais teórico do que prático… Mas nem por isso, ele tem menos valor.
Desde que me formei em Biblioteconomia, venho pesquisando e estudando a respeito da intersecção entre ela e a área de Dados. Essa “nova especialização” tem um nome:
Biblioteconomia de dados
Ou “Data librarianship” (caso vá pesquisar em inglês).
Mesmo que o termo tenha sido citado pela primeira vez em torno da década de 1960, foram nos últimos anos que ela ganhou mais força devido ao avanço da tecnologia e portanto, ainda é uma “área nova” e consequentemente em estudo e desenvolvimento.
Mas Francisco, o que é Biblioteconomia de dados?
Em linhas gerais, a Biblioteconomia em si, já realiza o tratamento, organização, armazenamento, disseminação e letramento da informação com a intenção de promover seu uso pela comunidade da unidade de informação que está inserida, gerando novos conhecimentos.
A Biblioteconomia de dados é a atuação desta área voltada para para os ativos de dados da unidade de informação, tanto os ativos que são coletados e armazenados, quanto os que são gerados por ela mesmo.
Se você nunca ouviu falar sobre essa “especialização”, eu recomendo fortemente você ler esse artigo:
Onde tem até mesmo um Diagrama de Venn da Biblioteconomia de dados:
E também a tese do Alexandre Semeler:
CIÊNCIA DA INFORMAÇÃO EM CONTEXTOS DE E-SCIENCE: BIBLIOTECÁRIOS DE DADOS EM TEMPOS DE DATA SCIENCE
Como eu falei, eu venho estudando e por isso li o livro:
Working as a Data Librarian: A Practical Guide
E no texto de hoje irei trazer uma resenha sobre ele.
Bora lá?!
Sumário
Atuação da pessoa Bibliotecária de dados
Encontrar e coletar ativos de dados
Principais ferramentas e técnicas para trabalhar com dados
Atuação da pessoa Bibliotecária de dados
Grande parte da literatura científica que já li (senão todas) fala apenas da atuação da Biblioteconomia de dados em meios acadêmicos.
Entretanto, desde que comecei a estudar o tema, sempre imaginei sua aplicação em diversas outras áreas já consolidadas pela Biblioteconomia (jurídica, escolar, pública) como também em outras áreas de atuação da pessoa bibliotecária/cientista da informação.
Esse livro foi a primeira referência (que me lembre) de deixar claro sua aplicação em outras frentes, assim como na biblioteca pública (mesmo que apenas algumas menções).
Ele listou diversas frentes de atuação e elas podem ser:
- Auxiliar pessoas a encontrar conjuntos de dados em fontes confiáveis: o serviço de referência continua sendo parte da especialização.
- Desenvolver um design dos tópicos de pesquisa: auxiliar as pessoas a estruturarem suas pesquisas, criando perguntas para que gerem dados em formatos mais úteis, para depois serem transformados em informação e conhecimento.
- Visualização de dados: Este é um dos processos da Ciência de dados em sua fase exploratória ou mesmo já na parte de comunicação de resultados. Saber comunicar com boas visualizações e também letrar demais pessoas nesse processo é um dos papéis de atuação.
- Planejamento de gerenciamento de dados: Pesquisadores nem sempre tem uma visão de todo o ciclo de vida dos dados, desde seu planejamento, coleta, preservação… até sua análise. Saber gerenciar e treinar sobre esse processo também faz parte. Atividades ligadas ao repositório institucional da organização também podem estar em seu escopo.
- Projetos de banco de dados: o gerenciamento de dados pode se tornar bastante complexo à medida que problemas vão se tornando mais complexos. Dados podem estar em diversos formatos de arquivo (.txt,.csv,.xlsx,json,XML) e relacioná-los em um só local pode ser uma necessidade. Criar consultorias e orientações para as pessoas lidarem com a criação de projetos de banco de dados também é uma frente de atuação.
- Reprodutibilidade da pesquisa: criar meios e processos para que as análises possam ser reprodutíveis é um dos desafios deste profissional. Pesquisadores podem utilizar ferramentas proprietárias por falta de conhecimento em outras ferramentas de código aberto ou pela sua própria facilidade. Encontrar meios para que a pesquisa se torne reprodutível se relaciona com diversas outras discussões de preservação digital, no quais estes profissionais também já atuam.
- Programação: sim, pessoas Bibliotecárias podem atuar com programação, de forma mais simples (ou mais complexa) para analisar dados e também para auxiliar em processos de letramento de dados.
Há uma longa discussão em “áreas híbridas” sobre esse tema e poderia trazer diversos argumentos a favor ou contra saber/atuar com programação, ou levar ela para uma vertente mais filosófica sobre “o que é, de fato, programar?”, “o que, de fato, faz uma pessoa programadora?”, “Ciência de dados é programação?”.
Uma resposta mais objetiva para isso é: depende.
Entretanto, estamos passando por uma transformação que a cada dia a programação se torna mais inerente no nosso dia-a-dia. Principalmente para quem atua com dados (mesmo que de forma apenas teórica) precisa no mínimo saber conceitos e processos para de fato conseguir atuar.
- Ensino: a biblioteca é um local de desenvolvimento de conhecimento e sua ligação com a educação é extremamente próxima. O livro citou o desenvolvimento de sessões de treinamentos, workshops e consultas individuais para auxiliarem pessoas a trabalharem com dados. Isso claramente é a atuação do Letramento informacional de dados, no qual já fiz um resumo sobre um livro do tema e você pode conferir nesse último texto (com os demais linkados nele):
- Conexões entre áreas: a área de Dados como um todo tem um objetivo mais “genérico” em comum: extrair valor dos dados. Para se extrair valor de dados não é apenas com tabelas e números, precisamos entender o contexto e relações entre áreas. Uma das frentes de atuação é a de conectar áreas através de objetivos em comuns e compartilhamento de informações e dados.
Eu acho essa uma das mais difíceis frentes de atuação, devido ao seu impacto político e estratégico. Para atuar com essa frente é necessário diversas outras habilidades menos “técnicas”, também conhecidas como “soft skills”.
Eu já escrevi sobre isso e você pode consultar o texto aqui:
- Projetos próprios da Biblioteca: o autor deixa claro que o uso das práticas de Ciência de dados podem e devem ser testadas/utilizadas pela biblioteca através dos seus próprios processos.
Bibliotecas já analisam dados próprios e podem melhorar a cada dia usando novas ferramentas e divulgando “cases” para as demais frentes da organização onde atua.
Um dos meus primeiros textos aqui no Medium foi sobre o uso do Power BI para a prática do “Business Intelligence” em bibliotecas:
- Demais frentes: o livro ainda trouxe outras frentes menos ligadas a dados e mais a Inovação, Administração e Arquitetura da informação, como:
- Consultoria em ajustes e usabilidade de sites;
- Análise comparativa de ferramentas de software;
- Auxílio em projetos de modelagem 3D para Makerspaces.
Talvez a visão do autor sobre o tema seja para esse “guarda-chuva” bem grande que pode gerar da intersecção das áreas de Biblioteconomia e Tecnologia.
Eu vejo todo o potencial que isso pode gerar e essa aproximação com Makerspaces, até eu mesmo já fiz:
Talvez porque meu TCC foi sobre o tema, ou porque é comum pessoas de outras áreas quando entendem as possibilidades que a Tecnologia pode te dar, quererem trazer elas em um único recorte.
Mas a cada dia, vejo que diante de diversas possibilidades também há mais complexidade (não estou falando de Ciência da Nasa, mas Tecnologia não é “só apertar um botão”).
Encontrar e coletar ativos de dados
Coletar dados é um dos processos necessários em Ciência de dados, mas para coletar é necessário encontrar eles primeiro.
Encontrar dados pode ser uma tarefa de Bibliotecários de dados, mas encontrar dados não é uma tarefa muitas vezes simples e dependerá muito do contexto da unidade de informação e da área do usuário/problema a ser resolvido.
Essa é uma fase que já deve ser mapeada dentro do planejamento de um projeto de pesquisa e algumas fontes (mais acadêmicas) podem servir como base, como:
- re3data: fonte de repositórios de dados que fornece acesso a conjuntos de dados de pesquisa para órgãos de financiamento, editores e instituições acadêmicas.
- Figshare: plataforma de hospedagem de dados científicos que permite aos pesquisadores armazenar, compartilhar, publicar e descobrir dados científicos em áreas como biologia, medicina, computação, economia e muitas outras.
- Our World in Data: site de informações sobre desenvolvimento global que fornece dados e análises sobre tendências globais em saúde, educação, meio ambiente, economia e outras áreas relacionadas.
- OpenAire Explore: plataforma de busca que ajuda os usuários a descobrir e explorar conteúdo científico europeu, incluindo artigos de revista, teses, dados e outros recursos.
- Google datasearch: serviço do Google que permite que os usuários busquem e explorem informações de fontes de dados de toda a web.
- DataCite Search: mecanismo de busca que ajuda os usuários a encontrar conjuntos de dados, software, imagens e outros materiais publicados registrados no sistema DataCite;
- DataOne Data Catalog: é um catálogo de serviços de metadados, que fornece informações sobre conjuntos de dados científicos e informações para acessar esses dados.
- Open Data Network: é um grupo de recursos de dados abertos que fornece acesso a informações governamentais e comerciais. Ele conecta dados governamentais e comerciais em todo o mundo, tornando-os facilmente acessíveis para pessoas, empresas e governos.
Em um contexto corporativo, os catálogos de dados das empresas podem auxiliar como fontes de dados.
Principais ferramentas e técnicas para trabalhar com dados
O livro citou técnicas e ferramentas mais voltadas ao processo que chamamos de “Business Intelligence” dentro da Ciência de dados: a análise passado + presente.
Como você pode ver nessa imagem:
Recortada desse vídeo excelente do Data Hackers:
Foram conceitos de bancos de dados (modelagem de dados e comandos de mais simples de SQL), coleta de dados por API, Web Scrapping e Design de pesquisas, métodos estatísticos de análise (conceitos de moda, média, mediana, técnicas de amostragem, curvas de distribuição, regressão) e de testes (uma visão bem simplificada e nada técnica sobre seu uso), ferramentas de análise (R, Stata, SAS, SPSS, planilhas… as ferramentas mais utilizadas no meio acadêmico e antes do desenvolvimento em larga escala de Ciência de dados com Python) e métodos e ferramentas de visualização de dados (próprio R, Excel, Tableau).
Sobre visualização de dados, vale ressaltar a importância deram para desenvolvimento de GeoViz (representação de dados geográficos usando visualizações como gráficos e mapas) e o de infográficos.
Indicaram duas ferramentas para criação de infográficos:
1.Piktochart
Mas eu particularmente, gosto de usar o próprio Canva para fazer.
Para visualização de dados no geral, esse guia é excelente para nortear:
Além da considerada “Bíblia da visualização de dados”:
Storytelling with Data
Conhecimentos da Biblioteconomia
A Biblioteconomia de dados utiliza dos conhecimentos da Biblioteconomia para principalmente ser a “área de negócios” dentro do seu Diagrama de Venn.
É o que fornecerá os problemas e também os guiará para serem resolvidos.
De forma geral, o livro listou alguns aspectos mais “técnicos" utilizados pelos bibliotecários de dados, que são:
- Padrões de metadados: ao padronizar o conteúdo, os metadados permitem que as informações sejam compartilhadas entre sistemas heterogêneos, aumentando a interoperabilidade entre os diferentes bancos de dados.
- Comunicação científica: os conhecimentos dos processos e políticas estabelecidas pelas áreas estudadas permite traçar estratégias para se guiar métricas e indicadores para o desenvolvimento da produção dos pesquisadores da instituição.
- Direitos autorais: os direitos autorais são fundamentais para o uso e proteção dos ativos de dados, a preservação da propriedade intelectual e para o desenvolvimento da colaboração entre áreas e instituições.
- Preservação digital: o conhecimento em preservação digital permite que os ativos de dados sejam conservados, acessíveis e utilizados por um longo período. Garantir e realizar práticas de preservação digital é um desafio, pois implica em traçar estratégias que realizem coleta de procedimentos e softwares (principalmente proprietários) para que se garanta a reprodutibilidade de todo o processo, desde a coleta, processamento e análise dos dados.
Considerações finais
Como um todo o livro passou de forma bem superficial diversos conhecimentos, isso pode ser uma visão minha (de quem já está estudando e pesquisando há algum tempo) como também pela desatualização do livro, que é de 2018 (já fazem praticamente 5 anos e muita coisa mudou nesse tempo).
Para conhecimento geral ou mesmo pela curiosidade, valeu a experiência. Principalmente para ver que tenho seguido linhas corretas em meus estudos particulares.
Por sinal, meus estudos particulares têm sido através de leituras de artigos, livros, teses e cursos online da Alura (se você me acompanha deve estar cansado de ouvir, mas eu realmente gosto da plataforma devido a didática, qualidade técnica do conteúdo e amplitude de possibilidades).
Caso você não seja aluna(o) ainda, confira meu cupom de desconto especial aqui.
Ainda há muito a se desenvolver na área da Biblioteconomia de dados, mas e a cada dia vejo ela como a Ciência de dados, que nasceu com um escopo bem grande e hoje já se subdividiu em diversas profissões (engenharia de dados, análise de dados, business intelligence, engenharia de machine learning, analytics engineer, a própria ciência de dados etc).
Vejo oportunidades para pessoas Bibliotecárias de dados atuarem em diferentes frentes:
Mais voltadas a gestão e educação:
- Gerenciamento de dados;
- Letramento informacional de dados (planejamento e desenvolvimento de projetos);
Mais técnicas e próximas a Ciência de dados (voltadas ao contexto de bibliotecas):
- Análise de dados;
- Engenharia de dados;
- Desenvolvimento de modelos de machine learning;
- Letramento informacional de dados (ministração de treinamentos e orientações técnicas).
Essa percepção é muito enviesada pela minha proximidade com a tecnologia e da minha experiência no meio corporativo, mas pode ser sim um caminho.
Falando em desenvolver a área da Biblioteconomia de dados, eu estou com outro livro sobre o tema e em breve trarei novidades por aqui.
Agora me diga, o que você pensa a respeito da área de Biblioteconomia de dados?
Deixe nos comentários e vamos conversar a respeito.
Se você chegou até aqui e curtiu, dê palmas, compartilhe e se inscreva para me acompanhar.
Ainda há muito a se explorar…