Preparar e automatizar a análise de dados

O que podemos fazer em conjunto:

  • Reduzir o tempo de preparação de dados e estimar melhor esses prazos;
  • Transferir tarefas de preparação de dados do Excel para o PowerQuery;
  • Ajudar os utilizadores a compreender a necessidade de uma boa estrutura de dados.

    Vamos começar?

“Mind the Gap”

Os custos de acesso e preparação de dados são quase sempre superiores ao estimado.

image-leftPreparar dados para análise não é uma tarefa sexy, é uma tarefa ingrata, lenta, e cheia de detalhes exasperantes. Sendo de mão-de-obra intensiva, qualquer variação na qualidade dos dados pode ter impacto significativo nos prazos. É comum sobreavaliar a qualidade dos dados e, por consequência, subavaliar o custo da sua preparação.

Este “mind the gap” é um alerta para a diferença entre os dados tal como pensamos que existem e os dados reais, já recolhidos, transformados e estruturados. A subavaliação das tarefas pode não passar de umas horas de trabalho extra, mas pode também fazer descarrilar todo o projeto (tabelas incompatíveis, qualidade dos dados que obrigam a avaliação manual…).

Do Excel ao PowerQuery

O PowerQuery é essencial para quem trabalha com dados, permitindo transformações nos dados com uma eficácia que o Excel não pode igualar.

image-leftO Excel é uma folha de cálculo e, como folha de cálculo, faz muita coisa de forma suficiente. Através das funções, e de modo mais ou menos manual, é possível limpar e transformar os dados. Mas o Excel está longe de ser uma ferramenta de ETL (Extract, Transform, Load).

O PowerQuery veio resolver boa parte desse problema inicial (recolha e tratamento de um volume crescente de dados), tal como, num certo sentido, o PowerBI veio resolver os problemas no final (distribuição online). Para um utilizador de Excel, a experiência com o PowerQuery é daquelas que nos faz perguntar como pudemos viver tanto tempo sem essa ferramenta, resolvendo problemas como:

  • Reorganizar linhas e colunas (pivot/unpivot)
  • Filtrar tabelas, juntar tabelas por colunas, adicionar linhas de uma tabela a outra
  • Múltiplas opções de manipulação de texto, números e datas
  • Colunas calculadas

Gravar e repetir processos

O PowerQuery automatiza os processos repetidos, tornando residual o tempo gasto em atualizações e replicação de passos para múltiplos ficheiros.

image-left Ao contrário da preparação dos dados em Excel, o PowerQuery tem a vantagem adicional de permitir a gravação dos passos e a sua reprodução em ficheiros de estrutura semelhante. Aquelas horas de trabalho todos os meses a preparar uma atualização? Agora é só o tempo de carregar num botão. Repetir os mesmos passos em dezenas ou centenas de ficheiros? Coloque-os numa pasta e o PowerQuery fá-lo automaticamente.

Este automatismo não é totalmente novo, porque já antes era possível gravar algumas tarefas com macros. Mas isso ficava fora da zona de conforto de muitos utilizadores. No PowerQuery é possível realizar transformações sofisticadas do ficheiro de dados sem que seja necessário olhar para debaixo do tapete e editar a linguagem M que usa para gravar cada um dos passos.

Efeitos secundários nos utilizadores de Excel

O PowerQuery torna os utilizadores de Excel mais conscientes da necessidade de uma melhor estrutura de dados.

image-left Um dos efeitos mais positivos do uso do PowerQuery não é estritamente técnico: é o de incentivar uma melhor cultura de gestão de dados entre os utilizadores de Excel. A flexibilidade do Excel é uma das suas vantagens, mas torna-se uma desvantagem quando o volume de dados aumenta e eles se tornam mais complexos.

A forma tradicional de usar o Excel promove e tende a não diferenciar entre armazenamento e apresentação. Uma tabela de dados é desenhada para facilitar a sua leitura: datas em coluna, cabeçalhos e títulos usando múltiplas linhas, linhas e colunas em branco para agrupar dados. Isto dificulta a manutenção, atualização e análises diferentes da que a tabela permite.

Compreendendo melhor a necessidade de separação entre as tabelas de dados e os seus múltiplos potenciais clientes (tabelas para apresentação, tabelas dinâmicas, gráficos…) é possível criar folhas de cálculo com menor risco de erros, mais fáceis de manusear e atualizar e com maior liberdade de análise.