Photo by Olga Guryanova on Unsplash

Minha jornada ao traduzir um conjunto de dados

Francisco Foz

--

Traduzir palavras, frases e textos é uma necessidade para qualquer pessoa em contato com outra língua que não domina. Esta prática se torna essencial quando precisamos comunicar uma informação em língua diferente do nosso público. Como no caso, da apresentação de gráficos e análises de dados.

Eu estava estudando o Tableau (uma ferramenta de BI) e decidi aplicar em um projeto.

Busquei alguns conjuntos de dados e encontrei um bacana para o que eu gostaria de analisar. Ele é o conjunto de dados da biblioteca digital da MTS — Mobile TeleSystems (ou do russo MTC — Мобильные ТелеСистемы). Ela é uma das maiores operadoras de rede móvel da Rússia e da CEI — Comunidade dos estados independentes.

Como você já deve ter deduzido… ele estava em russo!

Os metadados estavam em inglês, mas os títulos, gêneros e nome dos autores todos em russo.

Neste artigo irei mostrar como eu consegui traduzir o meu conjunto de dados, meu caminho, com minhas dificuldades, erros e acertos.

Confira meus passos.

GOOGLETRANS

Bom… fui pesquisar como eu poderia traduzir todos estes dados.

Encontrei este artigo, que também está aqui no Medium:

Translate List and Pandas data frame using googletrans library in python

Fiquei bem contente com a leitura e já abri a documentação do googletrans, para realizar os primeiros testes no próprio google colab.

Instalei a biblioteca:

Carreguei os dados e modifiquei o nome das colunas:

Realizei alguns testes antes.

Apenas com uma palavra:

Ok!

Precisava testar agora para várias. Antes de passar pela coluna inteira, já que ela tinha 59599 linhas.

Na documentação e no artigo explica que posso passar uma lista de palavras.
Então vou traduzir coluna por coluna.

Primeiro, farei uma função para me retornar uma lista traduzida:

Passei apenas os 5 primeiros da coluna e…

E erro…

Recorri ao Stackoverflow e encontrei este tópico, que explicava que deveria usar uma nova versão da biblioteca.

Testando de novo e…

Deu certo!!

Bora passar a coluna completa!

Mas ao passar, erro:

Não entendi e recorri ao stackoverflow de novo.
Encontrei esse tópico, que em resumo estava realizando muitos pedidos na API do google e ela caia.

Se colocasse esse código:

Retornaria qual era o erro… e retornou:

Pesquisando novamente, li esse outro tópico e descobri que por ela não ser oficial do google tem algumas limitações.

Precisaria utilizar a API oficial google-cloud-translate 3.6.1.

No qual percorri seus recursos e de fato é muito boa. Entretanto não é gratuita, seu custo é baixo e o google fornece um crédito de $300 para você testar por 3 meses todos os produtos da cloud.

Fiquei muito empolgado, mas mesmo assim parecia algo muito grande para apenas mais um teste de estudo pessoal nesse momento.

Eu realmente me empolguei bastante ao percorrer essa jornada no universo da computação, mas sinto que devo entender melhor alguns fundamentos, sinto muitas incertezas em várias situações.

Esse caminho está certo?

To fazendo o percurso mais difícil?

Não to usando de fundamentos básicos para solucionar pequenos problemas?

Mas acho que é normal para quem está iniciando e não é da área.

“Queimar” um crédito desse em um pequeno teste me pareceu dar tiro de bazuca para martelar um prego.

Bom, mas o que fazer agora?!

Função =GOOGLETRANSLATE()

Tradução, google e dados….

Tinha algo na minha cabeça me falando que poderia resolver isso de outra forma.

Lembrei que havia lido um artigo da Alura sobre algumas funções do google sheets, dei uma googlada e achei ele.

O Google Sheets tem uma função bem interessante, o =GOOGLETRANSLATE(), no qual ele usa o próprio google tradutor como função para traduzir automaticamente o texto de uma célula.

Realizei as funções para as três colunas. Demorou um pouco até processar, mas…

Tudo ok!

Considerações finais

As traduções foram concluídas, irei poder usar os dados em meu projeto e conheci duas bibliotecas para realizar traduções e apliquei uma função simples do google sheets.

Quebrei a cabeça em alguns pontos, mas fiquei bastante instigado a usar os créditos que o google dá de teste das ferramentas.

A cada pequeno passo que dou dentro do mundo da computação vejo o universo que tenho para aprender e o poder que ela te dá.

Fico muito feliz pelo que consegui ao final deste novo aprendizado.

E você, conhece outra forma de realizar esse processo de tradução?

Comenta aí e compartilha comigo sua experiência.

Se você chegou até aqui e curtiu, dê o claps, compartilhe e se inscreva para me acompanhar.

Ainda há muito a se explorar…

--

--

Francisco Foz
Francisco Foz

Written by Francisco Foz

Bibliotecário | Analista de dados | Disseminando informações para produzir conhecimento.