Bibliotecário em Ciência de Dados: Álgebra também é para humanas!

Francisco Foz
6 min readOct 18, 2021

Você escuta “matemática” e já bate aquele frio na barriga ou aquele desconforto de coisa chata e monótona vindo por aí.

Entendo você.

Na maioria das vezes esse mal sentimento foi provocado por experiências ruins em nossos primeiros anos de estudo. Professores não tão legais, dificuldades não entendidas ou até mesmo por uma “convenção social” de que matemática não é para todos.

Nós bibliotecários, pela nossa interdisciplinaridade, sabemos o poder que o conhecimento tem e que ele está muito além de caixinhas.

A ciência de dados é outra área interdisciplinar que engloba conhecimentos matemáticos e estatísticos, computacionais e os específicos do negócio estudado.

Clássico diagrama de Venn da Ciência de dados — Fonte

E dentre os conceitos matemáticos temos a álgebra linear como uma das bases.

Continuando na “resenha” do livro “Data science do zero”. No capítulo quatro, o autor introduz a álgebra linear através de alguns conceitos práticos de data science em vetores e matrizes.

A partir disso eu também falarei sobre o tema de forma introdutória e prática para que mais para frente todos estes conhecimentos possam ser utilizados em técnicas mais complexas de ciência de dados.

Lembre-se que Ranganathan, o “pai da biblioteconomia”, também era matemático.

Não se desanime!

Bora aos números!

Vetores

Vetores são pontos no espaço que possuem um módulo (número), direção (diagonal, horizontal, vertical) e sentido (para: cima, baixo, esquerda, direita).

Nós utilizamos os dados como vetores para representar graficamente eles.

Pensando no cenário hipotético:

Você quer descobrir qual é a proximidade da relação entre o tema da pesquisadora X com os temas dos demais pesquisadores do instituto dela. Para que possa criar meios de estimular a pesquisa colaborativa entre pares e grupos.

Você já possui variáveis mapeadas deste indicador e gerou-se um gráfico:

Como categorizar quais são os pesquisadores que possuem menos ou mais proximidade?

Através de cálculos matemáticos automatizados com a programação teremos a resposta.

O Python possui uma biblioteca chamada Numpy que realiza diversos cálculos através do processamento de grandes arranjos e matrizes. O que facilita muito do que apenas utilizar as funções básicas dele.

O próprio Pandas utiliza por “debaixo dos panos” o Numpy para processamento dos dados.

Para encontrarmos a distância entre cada um utilizaremos da Distância Eucliadiana, que é a fórmula deduzida do Teorema de Pitágoras.

Qualquer equação à primeira vista pode assustar…

Mas é mais simples do que parece!

Primeiro, montaremos os arrays do Numpy para cada vetor.

Então utilizaremos a função “linalg.norm”. Que com uma linha de código já nos dá resultado:

Faremos para as demais:

Montamos dois arrays e transformamos em listamos com seus respectivos pares ordenados do mais próximo ao mais distante:

Pronto!

Com conceitos da matemática e algumas linhas de código rapidamente chegamos na resposta.

Há outras formas de se fazer, mas essa é a que eu achei mais simples.

Operações com Vetores

Agora vamos pensar em outro cenário:

Você precisa realizar algumas análises sobre os dados dos empréstimos realizados nos meses de janeiro e fevereiro da biblioteca universitária onde atua. Então serão necessárias algumas operações entre os vetores exemplificados nos gráficos.

Você já possui os dados dos cursos de biblioteconomia e matemática:

Você gostaria de saber o total e realizar a soma dos valores, mas ao realizar a soma das listas o python não realiza corretamente:

Com o array Numpy é possível realizar a soma dos vetores corretamente:

São diversas as operações que podemos fazer.

Podemos realizar subtrações:

Somas para todos os itens:

Multiplicações:

Multiplicações para cada item:

E também testes condicionais:

Matrizes

Foram calculados a quantidade de acessos e empréstimos realizados na biblioteca para os cursos de ciências humanas, no ano de 2020.

Para poder realizar algumas análises e realizar até mesmo comparativos com os dados do ano de 2021, pode-se agrupá-los.

Para isso usaremos a matriz:

Matriz é um conjunto de números (vetores) representados em linhas e colunas de uma tabela.

Podemos aqui até mesmo ver que esta possui 6 linhas e 2 colunas:

Os conceitos matemáticos de matrizes são explorados aqui através da manipulação de dados, com operações:

Soma

Qual o total de 2020 e 2021?

Subtração

Qual a diferença entre 2021 e 2020?

Transposição

Agora as “colunas” são os cursos.

Além das demais operações de multiplicação, divisão e também escalares como nos vetores acima.

A manipulação matemática de dados através de tabelas no Python, são realizadas com as bases lógicas de matrizes.

Lá na Alura eles têm uma formação completa de Matemática para programação e Data Science.

É necessário realizar tudo isso para iniciar na área?

Nãao…

Mas em algum momento você sentirá a necessidade de se aprofundar.

É muito importante entendermos os conceitos e as bases de uma área, porque são através deles que podemos resolver problemas mais complexos lá na frente.

Se você chegou até aqui, me fale:

O que acha da matemática realizada dentro da programação?

Mais interessante?

Se de alguma forma tenho conseguido trazer mais informação para você:

Dê o claps, compartilhe e se inscreva para me acompanhar.

Porque…

Ainda há muito a se explorar…

--

--

Francisco Foz

Bibliotecário | Analista de dados | Disseminando informações para produzir conhecimento.