Preparar e automatizar a análise de dados
O que podemos fazer em conjunto:
- Reduzir o tempo de preparação de dados e estimar melhor esses prazos;
- Transferir tarefas de preparação de dados do Excel para o PowerQuery;
- Ajudar os utilizadores a compreender a necessidade de uma boa estrutura de dados.
Vamos começar?
“Mind the Gap”
Os custos de acesso e preparação de dados são quase sempre superiores ao estimado.
Preparar dados para análise não é uma tarefa sexy, é uma tarefa ingrata, lenta, e cheia de detalhes exasperantes. Sendo de mão-de-obra intensiva, qualquer variação na qualidade dos dados pode ter impacto significativo nos prazos. É comum sobreavaliar a qualidade dos dados e, por consequência, subavaliar o custo da sua preparação.
Este “mind the gap” é um alerta para a diferença entre os dados tal como pensamos que existem e os dados reais, já recolhidos, transformados e estruturados. A subavaliação das tarefas pode não passar de umas horas de trabalho extra, mas pode também fazer descarrilar todo o projeto (tabelas incompatíveis, qualidade dos dados que obrigam a avaliação manual…).
Do Excel ao PowerQuery
O PowerQuery é essencial para quem trabalha com dados, permitindo transformações nos dados com uma eficácia que o Excel não pode igualar.
O Excel é uma folha de cálculo e, como folha de cálculo, faz muita coisa de forma suficiente. Através das funções, e de modo mais ou menos manual, é possível limpar e transformar os dados. Mas o Excel está longe de ser uma ferramenta de ETL (Extract, Transform, Load).
O PowerQuery veio resolver boa parte desse problema inicial (recolha e tratamento de um volume crescente de dados), tal como, num certo sentido, o PowerBI veio resolver os problemas no final (distribuição online). Para um utilizador de Excel, a experiência com o PowerQuery é daquelas que nos faz perguntar como pudemos viver tanto tempo sem essa ferramenta, resolvendo problemas como:
- Reorganizar linhas e colunas (pivot/unpivot)
- Filtrar tabelas, juntar tabelas por colunas, adicionar linhas de uma tabela a outra
- Múltiplas opções de manipulação de texto, números e datas
- Colunas calculadas
Gravar e repetir processos
O PowerQuery automatiza os processos repetidos, tornando residual o tempo gasto em atualizações e replicação de passos para múltiplos ficheiros.
Ao contrário da preparação dos dados em Excel, o PowerQuery tem a vantagem adicional de permitir a gravação dos passos e a sua reprodução em ficheiros de estrutura semelhante. Aquelas horas de trabalho todos os meses a preparar uma atualização? Agora é só o tempo de carregar num botão. Repetir os mesmos passos em dezenas ou centenas de ficheiros? Coloque-os numa pasta e o PowerQuery fá-lo automaticamente.
Este automatismo não é totalmente novo, porque já antes era possível gravar algumas tarefas com macros. Mas isso ficava fora da zona de conforto de muitos utilizadores. No PowerQuery é possível realizar transformações sofisticadas do ficheiro de dados sem que seja necessário olhar para debaixo do tapete e editar a linguagem M que usa para gravar cada um dos passos.
Efeitos secundários nos utilizadores de Excel
O PowerQuery torna os utilizadores de Excel mais conscientes da necessidade de uma melhor estrutura de dados.
Um dos efeitos mais positivos do uso do PowerQuery não é estritamente técnico: é o de incentivar uma melhor cultura de gestão de dados entre os utilizadores de Excel. A flexibilidade do Excel é uma das suas vantagens, mas torna-se uma desvantagem quando o volume de dados aumenta e eles se tornam mais complexos.
A forma tradicional de usar o Excel promove e tende a não diferenciar entre armazenamento e apresentação. Uma tabela de dados é desenhada para facilitar a sua leitura: datas em coluna, cabeçalhos e títulos usando múltiplas linhas, linhas e colunas em branco para agrupar dados. Isto dificulta a manutenção, atualização e análises diferentes da que a tabela permite.
Compreendendo melhor a necessidade de separação entre as tabelas de dados e os seus múltiplos potenciais clientes (tabelas para apresentação, tabelas dinâmicas, gráficos…) é possível criar folhas de cálculo com menor risco de erros, mais fáceis de manusear e atualizar e com maior liberdade de análise.