O estado da visualização de dados em Portugal

20 minutos de leitura

Parágrafos com fundo cinzento foram adicionados ao texto original.

Portugal, país mais de opiniões que de factos, mais dado a momentos únicos que à chatice da manutenção, mais às relações pessoais que às institucionais, teria de ter uma relação difícil com os dados e, especificamente, com a visualização de dados. Há um caminho que se vai fazendo devagar, devagarinho, mas o suficiente para dar a ilusão de que alguma coisa está a mexer, embora nem sempre no sentido certo.

Neste artigo quis falar de alguns casos, do que se faz de bom e menos bom na visualização de dados em Portugal. É um retrato muito incompleto, talvez injusto e com algumas afirmações polémicas, mas que gostaria de completar e corrigir com o vosso feedback.

image-center

Questões Genéricas

Ninguém nasce ensinado mas…

Toda a gente sabe fazer gráficos. Em Excel. (Num país em que a cultura empresarial é tão dominada pela Microsoft, isto não é um aspeto menor.)

A visualização é uma forma de exploração e comunicação de dados que implica competências no tema, de análise estatística, conhecimento da ferramenta e de um mínimo de design e perceção visual. Dito de outra forma, um macaco pode ser treinado para fazer gráficos (carrega na tecla F11 e ganhas uma banana) mas a visualização de dados é mais que isso, e precisa de formação adequada que não vem à boleia numa formação de Excel.

Para além disso, o papel dos gráficos mudou. Mercê do volume crescente de dados, os gráficos tornaram-se a principal porta de acesso aos dados: já não usamos tabelas para consumo de dados, apenas para fazer as nossas próprias análises. Essa mudança na natureza dos gráficos passou despercebida a muitos.

(Note que as funcionalidades do Excel são muito subutilizadas, e pode fazer gráficos bastante diferentes daqueles que estão disponíveis na biblioteca.)

Produção e acesso a dados públicos

O Estado português é, por natureza, avesso à partilha de informação. Com as devidas ressalvas, nisso há pouca diferença entre o regime do Estado Novo e o regime democrático. Quando (por pressão, calculismo, ou moda) aceita essa partilha, fá-lo tardiamente, com pouca ambição e consistência. Paga para erguer barreiras incompreensíveis que, a seguir, nós cidadãos temos de derrubar. Além disso, embora muito falte fazer para dotar os organismos do Estado de literacia básica, não se coíbe de mostrar que sabe fazer listas de buzzwords:

[D]otar a estrutura de decisão da Administração Pública de conhecimentos que permitam melhorar os processos de gestão e decisão na adoção de tecnologias emergentes, como Cloud, Inteligência Artificial, Data Science, Código Aberto e Contratação TIC.

A Praga dos PDF

As ficheiros em formato PDF são totalmente inadequados para disponibilização de dados. No melhor cenário, obrigam a formas de extração desnecessariamente complicadas, e no pior são tão mal estruturados que é mais eficiente introduzir os dados à mão.

Como exemplo, veja-se o relatório anual da Autoridade Nacional de Segurança Rodoviária (PDF), o qual, entre outras tabelas, inclui 10 páginas com a lista de vítimas mortais em acidentes de viação. Uma ligação a um ficheiro de texto ou folha de cálculo seria muito mais útil. (Trata-se de um exemplo benigno: esta tabela é simples de extrair usando PowerQuery; um vídeo de demonstração estará disponível na coleção de tutoriais.)

image-left

A Praga das infografias

image-left A infografia tem uma longa história, muito associada à ilustração de objetos reais, processos e representação de detalhes. Publicações como a National Geographic e autores como o brasileiro Fernando Baptista levaram a infografia a um nível difícil de igualar. Mas o conceito degradou-se, sobretudo durante a década passada. Durante algum tempo, houve uma febre de templates e geradores de infografias, porque eram vistas como uma forma barata de gerar tráfego para websites. Estas infografias eram sobretudo a decoração de alguns números, coloridas e com muitos ícones.

Se entendermos a visualização de dados como a representação das relações entre os dados de uma tabela, nem a cozinha sofisticada de Fernando Baptista nem o fastfood das infografias para clickbait são na verdade visualização de dados, embora ambas tenham uma componente visual. Também é necessário sublinhar que mesmo o fastfood pode ter o seu lugar numa dieta diversificada de consumo de informação.

A infografia de clickbait evolui por vezes para algo menos primário, tipo fastfood gourmet, mas a sua natureza não muda muito: é ainda a decoração de uma amálgama mais ou menos bem sucedida de números. O abuso da infografia é um sintoma da, como gosto de lhe chamar, síndrome do factóide.

Dos institutos oficiais e das organizações produtoras ou agregadoras de dados estatísticos continuamos a esperar que façam o seu trabalho de forma fiável e em tempo útil. Mas o tempo da mera disseminação de tabelas de dados já terminou há muito. Relatórios com uns gráficos primários de Excel parecem antiquados e coisa do passado. A pressão para a “democratização” dos dados e a natureza da economia da atenção torna a produção de infografia fastfood muito tentadora. Vários institutos de estatística europeus sucumbiram à tentação, e mesmo o Eurostat tem uns exemplos infelizes.

O problema não está na produção de infografias, o problema está na monocultura da infografia, quando essa é quase em exclusivo a única forma de comunicação visual que estas organizações oferecem, embora a riqueza dos seus dados permita (exija) muito mais. Como veremos num exemplo abaixo, nota-se por vezes um sistema dual, em que por baixo da camada de verniz da infografia, aparece a verdadeira literacia gráfica da organização, mostrando que muito mais poderia ser feito. Hoje, competências básicas de visualização de dados têm de fazer parte das competências essenciais de qualquer trabalhador do conhecimento.

O Estado

Relatório Covid-19

Não há melhor exemplo recente dos problemas apontados ao Estado que o famigerado relatório de situação diário durante a pandemia Covid -19. Poderia ser apenas um pequeno texto descrevendo os últimos números e um link para uma tabela de dados: uma solução rápida e de baixo custo. Cá fora haveria certamente gente com vontade e capacidade para criar bons relatórios e dashboards com esses dados.

A opção não foi essa. A opção foi criar um PDF inenarrável, difícil de processar de forma automática, com gráficos sem valores. O relatório manteve-se inalterado, só com pequenas variações ocasionais que fazem falhar as rotinas de extração de dados. Os protestos contra a publicação de listas de concelhos em PDF de nada valeram.

image-left

Em 2021, foi integrada no relatório a matriz de risco, um gráfico de dispersão com a relação entre os níveis de transmissibilidade e o número de casos. A matriz consiste apenas em dois pontos (Portugal e Continente) perdidos num gradiente verde-laranja-vermelho que muitos garantem não ter sentido do ponto de vista epidemiológico.

A matriz viola normas básicas de acessibilidade (o gradiente verde-vermelho deve ser evitado porque não é diferenciado por pessoas que sofrem de daltonismo) e não estava preparada para aceitar valores acima dos intervalos definidos, o que veio a acontecer. Também é exemplo da síndrome do factoide: em cada dia sabemos onde estão os pontos, mas não sabemos de onde vêm, qual a sua direção aparente e a que velocidade se deslocam.

image-left

Experimentei fazer a minha própria versão da matriz de risco, evitando o gradiente sem sentido, e usando cores não saturadas (menos drama) que não põem problemas de diferenciação. Uma segunda matriz mostrava a variação dos dados regionais relativamente à última semana:

image-left

Dado que o plano inicial não previa a alteração das escalas, porque havia metas e políticas de saúde pública associadas a cada nível de risco, resolvi manter os valores dos quadrantes para garantir a comparabilidade, com alguma liberdade criativa:

image-left

Eleições

O Ministério da Administração Interna disponibiliza um site com a contagem de votos em tempo real. O site é extremamente limitado do ponto de vista da análise dos dados. Se isso foi evidente no início de 2021 com as eleições presidenciais (que basicamente são um grande saco onde para onde se atiram todos os votos), no caso das eleições autárquicas, uns meses depois, foram milhares de eleições (freguesias, concelhos, órgãos autárquicos), para além das análises a nível regional e nacional.

image-left

Mas o problema principal do site nem é esse: é o bloqueio quase perfeito a qualquer tentativa de acesso aos dados fora do enquadramento definido, o que se traduz numa privatização prática dos dados para benefício de quem tem acesso (ainda não é claro para mim de que forma isso acontece, e o facto de isso não ser clarificado no site é em si uma forma de exclusão pouco democrática).

R.A.S.I.

Há uns tempos, procurava alguns exemplos do tipo de visualização que se poderia esperar de relatórios de organismos do Estado. Vi alguns bons exemplos e muitos menos bons, mas nada me preparou para o que encontraria no Relatório Anual de Segurança Interna (PDF). Em termos visuais, com uma cornucópia de efeitos visuais inconsistentes e baratos, o relatório é estarrecedor. Basta olhar para alguns dos exemplos abaixo para se perceber isso:

image-left

O único gráfico sem efeitos pseudo-3D nesta imagem vinga-se codificando o azul-é-menino-o-rosa-é-menina num gráfico sobre violência doméstica, o que não parece muito apropriado. Mas também é verdade que, de um relatório de segurança interna, se esperaria algo um pouco mais sóbrio.

Um dos pormenores que mais me encanzina é o uso da expressão “gráfico ilustrativo” no título de muitos dos gráficos. Não só é algo que não se diz há décadas, como menoriza o gráfico como instrumento de comunicação, fazendo dele um objeto decorativo.

Não tenho dúvidas sobre o trabalho sério e competente dos múltiplos organismos do Estado que contribuem para este relatório (percebe-se que há vários cozinheiros). Mas, sendo o tratamento de dados uma parte essencial da sua atividade, esperaria uma maior sensibilidade para a forma como esses dados são comunicados num relatório como este. (É sempre possível argumentar que isto é de propósito, uma espécie ardilosa de contrainformação, mas a competência e o conhecimento deixam sempre resíduos; este relatório é puro na sua ignorância da literacia gráfica.)

Organismos de estatística

INE

image-right

Para um observador externo, a visualização de dados não parece ter sido, para o INE, uma área merecedora de atenção ao longo dos anos. Reproduzindo o caminho trilhado por outras organizações, acabou por embarcar também no comboio da infografia como modelo de representação visual de dados. É difícil não especular sobre a causalidade entre o desinteresse pela visualização de dados que leva à adoção da infografia fastfood (de novo, o problema não é a infografia, é a sua monocultura).

Assumindo que o Anuário Estatístico (PDF) é um exemplo típico do que o INE pretende fazer, a estrutura da publicação consiste, para cada secção, num texto seguido de uma página de infografia. São raros os casos em que há algum gráfico a acompanhar o texto, como sugerem as boas práticas. Quando isso acontece, há uma clara mudança de estilo, ficando a suspeita de que há um autor da infografia com pouca sensibilidade para números e um técnico com pouca literacia que acrescentou aquele gráfico (esta dualidade é muito comum, não é exclusiva do INE). Compare-se a infografia um pouco ridícula acima e os dois gráficos abaixo.

image-center

Sendo a cobertura das importações pelas exportações uma análise comum, faria mais sentido oferecer ao leitor gráficos que a facilitassem. Separando volume e variação não se perde nada da representação original ganha-se na facilidade de comparação e qualidade das conclusões:

image-center

Este é, propositadamente, um esboço rápido, com dados estimados a partir do gráfico original, pelo que haveria muito a corrigir e validar. O que me parece importante sublinhar aqui é que esta representação procura apenas ter uma mensagem clara e comunicá-la de forma eficaz. Não tem qualquer pretensão de criatividade nem exige competências de design gráfico. As opções de design e de tratamento dos dados são justificáveis dentro do conjunto de competências para a função técnica.

Fundação Francisco Manuel dos Santos

Pela sua missão, pelos produtos de informação que disponibiliza, pelo prestígio que tem, por toda a sua atividade, a Fundação Francisco Manuel dos Santos poderia ser o principal agente impulsionador da visualização de dados em Portugal. Infelizmente, não só nunca mostrou grande interesse nisso, como por vezes foi tentada pelo pior da infografia.

Os gráficos no site da Pordata (incluindo os das publicações “Retratos”) tendem a ser anódinos, e o equivalente à tradução automática (em geral percebem-se, mas nem sempre, e por vezes a leitura acaba em risota). O site também parece por vezes estar mais preocupado com a navegação que com os conteúdos: no meu ecrã com resolução de 1920x1080 o gráfico aparece below the fold, ou seja, não está visível quando se abre a página.

image-center

A infografia é a única dimensão da visualização que merece da FFMS alguma atenção. A Ana Serra e o Ricardo Garcia parecem ser os designers residentes, o que dá consistência ao (bom) trabalho. Mas o facto de algumas infografias terem como subtítulo “Os números essenciais…” explicita (como se fosse necessário) o desinteresse por um outro tipo de visualização de dados, mais centrada nas relações que na decoração de números.

image-center

Uma coisa que sempre me deixou perplexo é a inconsistência na qualidade da visualização dos dados nos livros publicados pela Fundação. Ela é deixada muito ao sabor da literacia gráfica dos autores, quando deveria haver um revisor que os ajudasse a expressar-se, assegurando ao mesmo tempo uma maior qualidade e consistência da representação.

Pessoalmente, gostaria que a FFMS fosse mais proativa:

  • na produção própria (mesmo que sem a ambição do WorldBank), encorajando outros a fazê-lo (prémios, concursos, alojamento, patrocínio de meetups e outros eventos);
  • na análise e representação dos seus dados usando ferramentas de acesso livre;
  • a complementar a sua formação no uso da Pordata com módulos genéricos de literacia gráfica e numérica.

Tem no entanto uma publicação útil, “Que número é este? Um guia sobre estatísticas para jornalistas”.

image-center

Educação

Quando fiz o meu mestrado em Estatística e Gestão de Informação, não havia qualquer conteúdo sobre visualização de dados. Ainda hoje ainda tenho dificuldade em acreditar nesta lacuna (não sei se, entretanto, foi resolvida). A adoção desta área pela academia tem sido lenta, mas a oferta tem crescido.

Eu diria que há três grandes perspetivas na formação em visualização: uma mais estatística e institucional, uma mais próxima das necessidades dos media e uma terceira mais artística.

A perceção que tenho (sujeita a validação) dos dois exemplos que cito é que o primeiro é mais genérico e institucional, enquanto o segundo seria mais vocacionado para a área dos media. Para além destes, os temas de visualização são abordados em cursos no IADE ou na Universidade Lusófona, por exemplo, provavelmente numa vertente mais artística.

ISCTE

O curso de pós graduação em visualização de informação no ISCE é apresentado deste modo:

Como dar sentido, hierarquia e estrutura ao crescente volume de dados? Como construir infografias, mapas ou posters informativos? Como visualizar informação e contar histórias interessantes com dados?

Vivemos rodeados de diagramas, dados, ilustrações, gráficos e mapas. São diversas as situações em que precisamos decidir que informação apresentar e como a apresentar.

Saber construir narrativas visuais eficazes em diferentes contextos e com múltiplos objetivos de comunicação é crucial. Numa época em que o utilizador é cada vez mais participativo, a interatividade assume um papel chave na exploração dinâmica da informação.

A Pós-Graduação em Visualização de Informação resulta da estreita colaboração entre a Faculdade de Belas-Artes da Universidade de Lisboa, a Escola de Sociologia e Políticas Públicas e a Escola de Tecnologias e Arquitetura, do Iscte.

NOVA

O curso de Especialização em Análise de Dados e Visualização de Informação da Universidade Nova de Lisboa:

O Curso de Especialização em Análise de Dados e Visualização da Informação está pedagogicamente desenhado para prover conhecimentos, capacidades e competências necessárias para desenvolver uma base sólida em campos que ganham cada vez mais relevância na investigação e no mercado de trabalho. A especialização visa preparar os alunos para trabalhar em projetos complexos de análise de dados que exigem o desenvolvimento de interfaces visuais para a comunicar resultados. As quatro unidades curriculares desta especialização permitem aos alunos a aquisição de competências gerais e específicas indispensáveis para o atual contexto laboral e científico:

  • Conceitos básicos, operações, fórmulas, tabelas dinâmicas e cruzamento de dados em folhas de cálculo;
  • Introdução a formatos e bases de dados: como ler, converter e utilizar arquivos em diferentes formatos, assim como a importância dos dados abertos;
  • Competências em diferentes ferramentas para a análise de dados e a criação de gráficos, mapas e visualizações;
  • Definições e conceitos de design e interação;
  • A importância da codificação da informação.

Nova IMS

Há um curso de formação para executivos Information Design Applied to Data Science que merece um destaque especial por incluir Manuel Lima no corpo docente.

O crescimento do volume de dados a par com a necessidade de criar valor para as organizações, tornou o design da informação (Information Design) numa área de conhecimento vital para a clareza da visualização do processo de transformação de dados em valor, do seu significado e da mais-valia nos processsos de Data Science.

Reunindo um série de especialistas de múltiplas áreas - artes, design de comunicação e de data science - o Programa Executivo da NOVA IMS contém a multidisciplinaridade essencial para dar sentido aos dados, através da visualização de forma precisa, clara, envolvente e esteticamente atraente.

O programa excutivo possibilita aos participantes:

  • Entender e aplicar os conceitos básicos de design da comunicação e de informação;
  • Entender as diferentes fases de um projecto de Information Design;
  • Aplicar métodos de storytelling visual para obter o máximo impacto e valor;
  • Compreender as técnicas de utilização do video na visualização;
  • Executar um projecto prático;
  • Partilhar e debater com especialistas nacionais e internacionais as principais tendências e análise de casos práticos.

(Agradeço à Sara Mesquita ter chamado a atenção para este último curso. Também sugeriu a análise dos conteúdos programáticos, o que será, espero, tema para um próximo artigo.)

Formação

“Page intentionally left blank”

Quando falo desta área a organizações de formação profissional a resposta é quase sempre de total incompreensão, a tal ponto que me faz duvidar da minha sanidade mental ou da minha qualidade de terráqueo. Mas há alguma oferta em organizações especializadas, para além das disciplinas integradas noutros cursos. Tenho de tirar algum tempo para a recensear, sistematizar e escrever um artigo sobre isso.

Os media

Jornalismo de dados

O jornalismo de dados refere-se a notícias e artigos que têm como principal fonte tabelas de dados. Muitas vezes essas peças incluem gráficos e alguma forma de interação que permite ao leitor explorar os dados. Veja-se por exemplo, este trabalho de Rui Barros para o Público:

image-left

Rui Barros é um dos mais visíveis jornalistas de dados em Portugal. Neste artigo, e nesta entrevista no Público, acesso pago) ele fala sobre o seu trabalho e sobre o jornalismo de dados em Portugal.

Embora esta área possa requerer perfis distintos (programador, designer, jornalista), o que se traduz em aumento de custos, há ferramentas como o Datawrapper ou o Flourish que facilitam esse trabalho e com excelentes resultados. Não evitam, no entanto, a necessidade de competências na recolha e análise de dados. (Veja este thread interessante sobre a adoção do Datawrapper pelo LA Times.)

O Rui referiu-me alguns ponto importantes, o da maior dependência e imprevisibilidade na utilização destas ferramentas quando comparadas com o uso de programação, bem como uma avaliação detalhada dos custos reais destas ferramentas e como elas se integram nos processos. Também me deu a conhecer um mau exemplo (fora da área do jornalismo) que ficou arquiva no sob o vasto “como é possível que organizações com responsabilidade paguem para ser fazer isto”.

Não sei de que forma os “verdadeiros jornalistas” olham para o jornalismo de dados. Lembro-me de há muitos anos um deles, bem conhecido, ter sido particularmente desagradável comigo pela minha insistência nos gráficos e gabando-se de nunca ter aberto o Excel (ou outra ferramenta de tratamento de dados, presumo eu). Sei que essa aversão (soberba?) aos números faz parte do papel. Pergunto-me se, e com que velocidade, está a mudar.

Pessoas trabalhando em jornalismo de dados

Não sendo jornalista, quis de fazer uma lista de pessoas que trabalham em jornalismo de dados em Portugal. A forma mais simples é mesmo perguntar no Twitter:

Poderão ver nas respostas e nos RT as pessoas que me ajudaram a compilar a lista, e às quais agradeço. A lista está disponível no Twitter e para já só com pessoas que consegui identificar com conta no Twitter. É uma lista pequena, mas tenho a certeza que irá crescer mais, pela evolução da área. Também pode ser pequena por estar incompleta, pelo que agradeço quaisquer sugestões de nomes a adicionar.

Formação nesta área: a Ana Martinho indicou-me que há um curso introdutório ao jornalismo de dados no Cenjor. O jornalismo de dados está também no plano curricular da Pós-Graduação de Jornalismo do ISCTE/Media Capital.

Meetups

DSP Portugal

A data science é muito vasta, pelo que os meetups do Data Science Portugal tendem a refletir essa diversidade. A visualização de dados não parece ser um tema particularmente privilegiado, mas estive pelo menos em dois, em Coimbra e Lisboa, pelo que não parece estar totalmente fora do âmbito das atividades do grupo.

PowerBI Portugal

Como o nome indica, o PowerBI Portugal foca-se sobretudo na utilização do PowerBI como ferramenta de preparação e tratamento de dados e a sua visualização. Aborda também a integração do PowerBI com outras tecnologias Microsoft. Quem me conhece sabe que não nutro grande paixão pelo PowerBI enquanto ferramenta de visualização de dados, mas têm havido algumas mudanças positivas (small multiples, Charticulator).

Datavis Lisboa

Tive oportunidade de observar desde o início o Datavis Lisboa e o esforço da Sara Mesquita e da Caroline Doye na sua criação e crescimento. Depois de vários encontros locais (nunca percebi onde elas desencantavam os espaços) seguiu-se a atividade online forçada pela pandemia, cujo resultado é uma excelente lista de convidados no canal youtube.

Recentemente juntaram-se-lhes três novas pessoas, o que pode significar, não apenas uma consolidação do projeto, como também mais ambição para o pós-pandemia. Para já, há uma nova newsletter e reviews.

Livros

image-right Um dos indicadores mais evidentes do subdesenvolvimento da visualização de informação em Portugal é a ausência de livros publicados. Com a honrosa exceção do livro de Ana Alexandrino Silva, Gráficos e Mapas: representação de informação estatística (uma versão da sua tese de mestrado) publicado no longínquo ano de 2006, não tenho conhecimento de outros livros na área (há um, específico para dashboards de Jorge Caldeira, Dashboards - Comunicar Eficazmente a Informação de Gestão). Também não conheço traduções de livros relevantes. Há um livro sobre gráficos de Excel, mas melhor seria que não existisse.

Quando publiquei o meu livro, Data at Work, decidi reservar os direitos de autor para português, na esperança de convencer alguma editora a publicá-lo, mas o interesse foi nulo. Seria talvez demasiado caro para o nosso mercado (é totalmente a cores) mas nem uma versão ajustada para preto e branco convenceu as editoras que contactei. Agora o tempo para isso passou, mas ficou algum desalento.

Conclusões

O interesse pela visualização de dados em Portugal vai crescendo lentamente, arrastado pelas tendências internacionais, como é nossa tradição. A cultura de dados é escassa, o que não ajuda, e quem poderia dar o exemplo não o faz.

Com tanto ainda por fazer, com tantos maus exemplos recentes, com o arrastar de pés de uns e a falta de visão (pun intended) de outros, é difícil ser otimista sobre a visualização de dados em Portugal. No entanto, é também difícil não ser arrastado pelo entusiasmo sem vacilar de algumas pessoas. A criação deste site em português, e a produção de mais conteúdos que se seguirá é a minha modesta contribuição para ajudar a melhorar este estado de coisas.

Quer aprender mais sobre visualização de dados e apoiar o meu trabalho?

Encontrará no site uma coleção de vídeos que abordam tanto temas mais teóricos e de enquadramento como formas concretas de fazer usando ferramentas específicas. É um trabalho ainda em progresso que requer recursos que não permitem torná-los de acesso livre. Se tiver interesse em a) saber mais sobre uma visualização de dados eficaz e centrada nas competências centrais dos utilizadores não designers; b) na transformação de dados; e c) numa biblioteca de referências sempre disponíveis sobre como fazer dezenas de gráficos, considere obter acesso aos vídeos por um período de um ano.

Categorias:

Atualizado: