Prevendo empréstimos da biblioteca com Google Sheets
Ao gerenciar uma biblioteca são necessários diversos planejamentos: para aquisição de materiais, desenvolvimento de planos de marketing, criação de projetos socioculturais, gestão de pessoas…
Para isso precisamos de informações e dados.
Analisar dados e extrair informações deles é o objetivo da ciência de dados.
Diversos conhecimentos de programação, matemática e do próprio negócio são necessários para aplicar ciência de dados.
Para aplicar ciências de dados é importante possuir diversos diversos conhecimentos de programação, matemática e do próprio negócio
Mas se você está iniciando nesta área e já gostaria de colher frutos é possível dar seus primeiros passos com ferramentas de planilhas como o Google Sheets e o Excel.
Neste artigo abordarei como você pode analisar dados com séries temporais sazonais para prever a quantidade de empréstimos de livros que será realizada no próximo ano em uma biblioteca escolar.
Visualização dos dados iniciais
Vamos entender o contexto dos dados:
Joana atua em uma biblioteca escolar que ao decorrer dos últimos anos vem conseguindo aumentar o número de empréstimos realizados.
Entretanto com a pandemia do COVID-19 a biblioteca teve que ficar alguns meses fechada. Com o passar dos meses Joana conseguiu implementar um sistema de empréstimo por delivery e as atividades começaram a voltar, mas sem a normalidade anterior.
Com o retorno presencial às aulas, a demanda vem aumentando e aparentemente está conforme o período anterior à pandemia.
Mas Joana está preocupada com o aumento de empréstimos e a falta de novas aquisições que ocorreram durante esse período, provocando uma desatualização do acervo.
Ela precisará projetar como será o cenário do próximo ano para conversar e convencer a direção sobre a necessidade de atualização do acervo.
Como Joana poderá prever o cenário de 2022 da quantidade de empréstimos?
Ao analisar os dados existente, podemos gerar um gráfico de como foi até o momento:
Podemos observar que a quantidade de empréstimos está com um padrão aparentemente sazonal, se não considerarmos o ano de 2020. Além de que o mês de set/21 (269) está aparentemente de volta ao padrão de crescimento em relação aos meses de setembro dos anos anteriores a 2020.
Para verificar a sazonalidade, podemos modificar a forma de como estão os dados na planilha.
Os dados atualmente estão divididos em duas colunas (data e empréstimos):
Apenas deve-se fazer uma tabela de meses X ano:
Com os dados organizados dessa forma conseguimos visualizar com mais detalhes os empréstimos por meses e durante os anos:
Onde de fato podemos observar uma sazonalidade de picos em março e setembro e decréscimos em janeiro, julho e dezembro.
Beleza! Temos uma sazonalidade.
Com o comportamento dos dados até o momento é possível garantir esse “padrão” durante o próximo ano.
Vamos verificar o padrão para tentar reproduzi-lo então.
Limpeza de dados
Para que possamos de fato observar o “modelo”, devemos apenas permanecer com os dados de 2015–2019 e entender eles.
Então visualizamos:
Regressão Linear
Neste momento nós podemos até mesmo traçar uma linha de tendência e verificar que os empréstimos estão de fato em crescimento.
Habilitando a linha de tendência.
A linha de tendência é a famosa regressão linear (você pode entender melhor como ela funciona neste artigo). Ela é uma função que vai relacionar duas variáveis.
Uma equação de primeiro grau que ficará desta forma:
y=a + b.x
No Google sheets, você pode automaticamente encontrar a equação.
Dentro de série, selecione marcador e “Usar equação”.
Desta forma aparecerá a equação correspondente.
From
Para entender melhor o padrão sazonal, precisamos realizar alguns cálculos que vão identificar algumas medidas.
Nós já sabemos que a sazonalidade é anual e para entender a média ao decorrer do tempo utilizaremos a média centrada móvel. Ela é a medida de tendência central do intervalo.
Mas nossos dados possuem um intervalo de 12 meses.
Não tendo apenas uma medida central apenas no intervalo, mas duas:
Precisamos então encontrar uma única medida central.
Para isso vamos fazer a MCM do intervalo e depois encontrar a MCM de cada ponto assim ao final do processo vamos obter a exata medida central.
Média de cada dois pontos e depois a média dessas médias.
Acrescentamos linhas entre os números:
A partir deste ponto central começamos a calcular a MCM:
A MCM será dada até o último dado disponível para o cálculo:
Calculamos então a média entre os pontos:
Podemos então excluir as linhas em branco e os dados do primeiro cálculo.
Lembre-se de copiar os valores para que não dê erro na MCM que utilizaremos.
Pronto!
Encontramos nosso MCM.
Índice Sazonal Individual (ISI)
A partir destes dados, vamos calcular nosso Índice Sazonal Individual sendo esse o número que utilizaremos para definir o padrão da sazonalidade.
Para isso calcularemos:
Índice Sazonal de Intervalo
Agora com o ISI, vamos calcular o Índice Sazonal de Intervalo que como o nome já diz é a medida da sazonalidade do período.
Faremos a média entre o primeiro ISI e o último dentro do período do intervalo (que é de 12 meses).
Repetirei isso até o último valor de ISI.
Então, encontraremos nosso padrão.
Com este padrão, copiamos no ISintervalo até a data que se quer realizar a previsão.
No caso da Joana, em setembro de 2022.
Equação do MCM
Para chegarmos no número da previsão, precisaremos do Índice Sazonal de intervalo e da MCM.
Mas nós não temos a MCM até setembro de 2022.
E agora?
Sabemos que a linha de tendência nos mostrará a equação dela e que a partir disso podemos estimar valores futuros.
Com esta equação, sabemos que o X é o período de tempo em meses.
Para estimar o resultado do MCM ao decorrer dos meses, precisamos atribuir o respectivo número na coluna ao lado.
Após o último dados já calculado de MCM, iremos colocar a equação utilizando o X dentro da equação.
Previsão de empréstimos
Com as nossas duas medidas principais calculadas, apenas devemos multiplicar elas e teremos a previsão.
.
Mas será que essa previsão está próxima da realidade?
Para isso podemos calcular o valor do desvio absoluto entre a quantidade de empréstimos e a previsão. Até o último item disponível.
Para entender melhor como se comporta esse desvio absoluto, podemos extrair algumas informações estatísticas de mínimo, máximo, média, mediana e máximo e plotar um boxplot (não sabe o que é boxplot? Confira esse artigo).
Como a média do desvio foi muito baixa, esse é um bom sinal do nosso “modelo”.
Vamos verificar então como nossa previsão está no gráfico com os demais dados que havíamos “limpados” de 2020 e 2021.
Ao olhar o gráfico observamos que aparentemente o volume de empréstimos já está voltando ao padrão de sazonalidade analisado nos meses de agosto e setembro.
E agora também conseguirá estimar como será o comportamento e volume de empréstimos no próximo ano.
Considerações finais
Agora Joana conseguirá prever o volume de empréstimos que poderá ocorrer no próximo ano. Ela poderá ter um planejamento mais assertivo sobre para aquisição de materiais, desenvolvimento de projetos e até mesmo para a contratação de novas pessoas com o volume de fato aumentando.
A partir de dados, conhecimentos de estatística, ferramentas de tecnologia (que nesse caso foi o simples Google Sheets) e claro os próprios conhecimentos sobre a biblioteca, ela poderá realizar uma análise e extrair informações para atuar de uma forma melhor.
Será interessante ela continuar a análise ao decorrer dos próximos meses para entender como os dados estão se comportando.
Primeiros passos em ciência de dados
Para quem nunca programou, pode parecer que é algo de outro mundo no começo.
Mas saiba, não é!
Mas com ferramentas que você já esteja mais familiarizado, talvez seja o primeiro passo que você possa dar em ciência de dados.
Este exemplo de análise que fiz foi com conhecimentos deste curso da Alura:
Que faz parte de uma formação completa de “Data Analysis com Google Sheets” no qual você poderá aprender técnicas que serão muito úteis.
Se você não é aluno e gostaria de ser, confira meu cupom de desconto especial.
Você também pode conferir esses podcasts fantásticos sobre o início em ciência de dados.
Agora me diga, você analisa dados com ferramentas de planilhas ou já está se aventurando em linguagens como Python e R?
Se você chegou até aqui e curtiu, dê o claps, compartilhe e se inscreva para me acompanhar.
Ainda há muito a se explorar…