Visualização de dados. Parte (I), história e contexto

Análise de dados

Com este primeiro artigo, damos início a uma série de artigos em que iremos detalhar a definição, os critérios de utilização, as melhores práticas..., até mesmo a história e o contexto, de uma das partes mais procuradas nos últimos tempos na área da análise de dados, a visualização de dados, ou se entrarmos no seu termo saxónico já tecnologicamente adotado, visualização de dados (data visualization).

Poderíamos resumir e simplificar a sua definição com o ditado frequentemente repetido "uma imagem vale mais do que mil palavras", e o facto é que quando falamos em representar dados oferecendo aos utilizadores que interagem com eles uma forma rápida, verdadeira e fácil de reter informação sobre os mesmos, este tipo de imagens, e a forma de as representar de forma ordenada, tornam-se uma linguagem própria que temos de adotar, a linguagem dos dados, poderíamos dizer. Quando os volumes de informação que temos de representar aumentam, chegando mesmo ao também sempre referido big data, a visualização de dados torna-se uma disciplina indispensável.

 

A visualização de dados (data visualization) está a torna-se uma disciplina indispensável

 

Para uma definição mais formal, podemos dizer que a visualização de dados é um campo de estudo interdisciplinar cujo objeto é a representação de dados em formato gráfico. Se falarmos de um ponto de vista académico, podemos dizer que é uma forma de mapear a realidade dos dados originais em elementos gráficos de representação visual (pontos, barras, segmentos...) para que o utilizador possa detetar variações, padrões, etc. dos dados originais através da correlação com os atributos das visualizações desses mesmos dados.

 

A visualização de dados existe há muito tempo; de facto, foi no século XVIII que deu os primeiros passos

Gráfico de tarta Breviario
Gráfico de pizza do Breviário Estatístico (1801), mostrando as proporções do Império Turco localizadas na Ásia, Europa e África antes de 1789.

No entanto, apesar de ser uma disciplina "na moda" e atualmente muito procurada a nível profissional, com um grande número de publicações e conteúdos educativos que suportam essa procura, a verdade é que a visualização de dados nasceu há muito tempo, de facto, foi no século XVIII que deu os primeiros passos.

William Playfair (1759-1824) é considerado o introdutor dos gráficos na estatística (embora tenha havido contributos ainda antes dele). Este engenheiro e economista político escocês, que já nessa altura acreditava que a utilização de gráficos era muito mais explicativa do que simples tabelas, é considerado o inventor do polígono de frequências, do gráfico de barras e do gráfico de tartes.

 

Gráfica serie de tiempoGráfico de séries cronológicas da balança comercial da Dinamarca e da Noruega, publicado no Atlas Comercial e Político de Playfair (1786).

 

E se recuarmos um pouco mais na história, e apesar de serem vários os que marcaram um antes e um depois na disciplina da visualização de dados, deparamo-nos com aquela que é considerada a "Gioconda" da representação de dados. Em 1869, com 80 anos, Charles Minard produziu o "Gráfico figurativo das perdas sucessivas de homens do exército francês na campanha de Napoleão na Rússia em 1812", que retrata as dificuldades do exército na tomada de Moscovo.

 

Estamos perante o que é considerado a "Gioconda" da representação de dados

 

Carta figurativa perdida hombres 1812Gráfico figurativo das perdas sucessivas dos homens da marinha francesa na campanha russa de Napoleão em 1812.

 

O gráfico mostra o número de tropas em função da data, da localização geográfica e até da temperatura. Mostra o verdadeiro derramamento de sangue de um exército que partiu em junho com cerca de 420.000 homens, dos quais apenas 100.000 chegaram à capital russa, como se pode ver na primeira faixa castanha. O regresso, representado pela faixa preta inferior, mostra como apenas 10.000 soldados conseguiram regressar a França, esgotados pelos combates, mas ainda mais pelos rigores do clima, como mostra o gráfico em baixo.

Uma joia, que ainda hoje continua a despertar o interesse daqueles que se aproximam do mundo da análise (caiu nas minhas mãos através das mãos de um iluminado participante num dos meus cursos), e que ficou conhecida como diagrama de Sankey 30 anos mais tarde, quando o capitão irlandês com o mesmo nome utilizou uma técnica semelhante para representar o fluxo de eficiência energética de uma máquina a vapor. Atualmente, este tipo de gráfico ainda é utilizado para a representação multidimensional.

Para aqueles que têm um interesse semelhante ao que eu tinha nesta representação, também podem achar interessante Nightingale's Roses (1858) ou Snow's Cholera Map (1855).

 

O cérebro humano processa a informação visual muito melhor do que a informação textual

 

Para além das questões históricas e das anedotas que lhes estão associadas, o facto é que o cérebro humano processa muito melhor a informação visual do que a informação textual, pois a utilização de gráficos e outros elementos de design simplificará a interpretação de tendências e o tratamento de dados estatísticos. Em todo o caso, nem todas as representações têm a mesma utilidade, nem podem ser direcionadas para representar as mesmas medidas, pelo que a sua utilização e as melhores práticas são praticamente uma linguagem em que devemos ser instruídos para que as nossas análises mostrem a informação pretendida de uma forma simples, acessível e facilmente compreensível.

E se falarmos desta linguagem, quais são os seus principais elementos ou variáveis? As classificações são múltiplas, mas, simplificando, podemos diferenciar os elementos gráficos através da cor, da forma ou do tamanho.

De facto, o cartógrafo francês Jacques Bertin (obrigado a comentar a importância da cartografia no que é hoje a visualização de dados) identificou sete variáveis visuais principais, nomeadamente a posição, a forma, a orientação, a cor, o valor, a textura e o tamanho.

 

cartografía

Estas variáveis visuais, bem como a sua correta disposição numa visualização superior (o que hoje em dia se designa por painel ou dashboard), farão parte da série de artigos sobre visualização de dados, nos quais abordaremos, de um ponto de vista prático e atualizado, o que é a visualização de dados e como utilizar esta linguagem no nosso trabalho diário como analistas de dados.

 

Autor
Paco Orte
Paco Orte
Arquiteto de dados e analista de negócios

Com mais de 20 anos de investigação e colaboração em diferentes projetos de análise de dados. Tem uma vasta experiência em diferentes tecnologias de BI, com especial incidência na plataforma de análise Qlik. 

Ver todos sus artículos

Etiquetas
Subscreva a nossa newsletter e não perca nenhum artigo

Pode cancelar a subscrição a qualquer momento clicando no link no rodapé dos nossos e-mails. Utilizamos o Mailchimp como a nossa plataforma de marketing. Ao clicar abaixo para se inscrever, reconhece que as suas informações serão transferidas para o Mailchimp para processamento. Pegar mais informações sobre as práticas de privacidade do Mailchimp.



Política de cookies

A tua privacidade é importante para nós.

Utilizamos cookies de terceiros para medir e melhorar a tua experiência. Aceitas?

Cookies essenciais
Siempre activas
Cookies analíticos

ACEITAR SELECCIONADO



Mais informações sobre cookies

subir