Depois de uma primeira parte , em que vimos uma primeira abordagem à história e aos conceitos fundamentais da visualização de dados, vamos continuar com uma série de artigos em que tentaremos dar uma série de dicas e boas práticas na aplicação de elementos visuais, para que possamos tirar o máximo partido da nossa análise.
Para ter uma visualização que se adapte à representação de relações, tendências, entre muitos valores diferentes, as diferentes plataformas analíticas colocam à nossa disposição uma variedade de elementos gráficos que, utilizados com alguma perícia, permitirão a quem utiliza os nossos relatórios e dashboards analisar esses dados num relance. Seguindo uma série de orientações ou "receitas", poderemos fazer esta seleção de elementos de uma forma muito mais ágil e abandonar representações inconsistentes ou menos valiosas, bem como começar a perder o medo da "tela em branco" que enfrentamos quando temos de analisar uma nova medida ou dimensão nos nossos projectos.
A escolha de uma visualização para representar a análise de dados é, como diz nosso título, em boa medida, uma questão de formas
Antes de começarmos esta série de recomendações, baseadas em diferentes situações e objectivos que podemos enfrentar, vejamos um exemplo que mostra que a escolha de uma visualização para representar a análise de dados é, como diz o nosso título, e em grande medida, uma questão de formas. Pensemos, por exemplo, na análise do desempenho de uma determinada atividade ao longo dos meses, como o número de cidadãos atendidos, montantes de subsídios executados... no nosso caso, notas de saída registadas ao longo dos meses referidos. Vejamos a sua representação com dados idênticos nos gráficos seguintes:
No primeiro gráfico, comparamos esta execução ao longo dos meses através de um gráfico de pizza. Com esta visualização podemos ver o peso específico de cada mês em relação aos restantes e ao total, mas, como se torna evidente, é difícil mostrar uma tendência, pois não temos uma representação do decurso do tempo (quando temos uma dimensão que acontece ao longo do tempo, precisamos de algum elemento gráfico que represente esse eixo temporal). O mesmo se pode dizer do gráfico de blocos posterior, que também é confuso para as nossas necessidades. O gráfico de barras, com o eixo x a representar a dimensão mês de registo e as colunas a representar a medida do número de anotações registadas, ajuda-nos a representar fielmente os valores dos meses individuais, a compará-los rapidamente entre si e também a poder confirmar a tendência durante o exercício de representação.
Assim, podemos ver, através de um exemplo muito simples, como é importante encontrar a representação correta em cada caso. E as situações com que nos deparamos nem sempre são tão simples como a que utilizámos como introdução.
Para facilitar a sua seleção, foram escritos numerosos guias e métodos, sendo talvez o mais conhecido o diagrama de seleção gráfica que o Dr. Andrew Abela criou no âmbito do seu método global de representação (Extreme Presentation). Com base nele, e adaptando-o em parte para se adaptar aos novos elementos gráficos já em uso, vamos apresentar um pequeno guia para selecionar estes elementos de acordo com o cenário de representação com que nos deparamos.
O primeiro passo para selecionar o elemento adequado é identificar o objetivo principal da representação que estamos a tentar obter. Para o fazer, devemos responder a uma pergunta simples, mas por vezes não tão simples, sobre o que queremos representar com os dados. Neste método, tal como noutras adaptações do mesmo, os dados são identificados através de vários agrupamentos principais.
O primeiro passo para selecionar o elemento certo é identificar o objetivo principal da representação que estamos a tentar obter
Comparação , é comum que as nossas análises necessitem de comparar magnitudes entre si para encontrar facilmente os valores mais altos e mais baixos, identificar valores médios, etc. Assim, podemos precisar de ver quais os utilizadores que têm uma carga de trabalho atribuída mais elevada, quais os que estão a realizar um tempo médio de resolução mais elevado, quais as equipas que estão a atender um maior número de cidadãos por dia…
Podemos também querer comparar estas grandezas ao longo do tempo, comparando valores antigos com valores mais modernos, comparando anos, meses, revendo tendências. Como vimos no primeiro exemplo, e mesmo que estejamos perante um objetivo comum de comparação, a inclusão de dimensões temporais implicará a adaptação do tipo de gráfico a utilizar.
Relação, este tipo de gráficos de relação permite-nos ver como os valores e as medidas estão relacionados entre si, permitindo-nos encontrar correlações, valores típicos, bem como identificar "clusters" (grupos de elementos de uma dimensão que partilham comportamentos em valores/medidas comparáveis) de dados.
Nos gráficos de relações, os eixos são, na realidade, as escalas das medidas que estão a ser comparadas, e é representado um elemento por cada valor das dimensões de análise. Para poder comparar até três medidas ao mesmo tempo, joga-se com o tamanho de cada um destes pontos (neste caso, fala-se normalmente de um gráfico de bolhas).
Composição, , quando precisamos de analisar a composição dos elementos que constituem um valor total, utilizamos este tipo de gráficos. Precisamos de ver a percentagem de notificações em papel e em formato eletrónico, ver como se distribui o número de ficheiros atribuídos por cada utilizador da nossa equipa... Além disso, podemos também precisar de representar como esta composição evolui ao longo do tempo.
Los gráficos de composición, según precisemos, pueden representar estas composiciones en porcentaje, o bien en valores absolutos que conformen el valor absoluto total.
Assim, teremos gráficos estáticos, nos quais não incluiremos necessariamente uma dimensão temporal, como gráficos de pizza, gráficos em cascata ou gráficos de blocos. Se quisermos analisar as alterações ao longo do tempo, podemos utilizar gráficos de barras ou gráficos de linhas, nos quais empilhamos os diferentes valores de composição para cada período.
Os gráficos de composição podem representar estas composições em percentagens ou em valores absolutos que constituem o valor absoluto total.
Distribuição, com estes gráficos, podemos explorar a forma como os valores/medidas estão distribuídos nos nossos dados. Assim, mostram as formas destes dados, os intervalos de valores que atingem, bem como a identificação de possíveis valores anómalos.
Através de histogramas, gráficos de dispersão e diagramas de distribuição, poderemos ver o comportamento habitual da nossa informação, bem como localizar elementos discordantes no conjunto de dados com que estamos a trabalhar.
Desempenho, , ou performance, dependendo de onde se olha. Utilizamo-las quando pretendemos uma visualização rápida dos valores associados às nossas medições. Desta forma, possibilitamos uma forma "rápida" de o utilizador analítico verificar se os resultados dos dados estão dentro do esperado, utilizando-os como "ponto de entrada" para a utilização do resto dos gráficos que temos vindo a discutir.
Elementos totalizadores como o KPI (key performace indicator, como o texto destacado como totalizador), indicadores ou velocímetros, ajudar-nos-ão a ver rapidamente como estamos a trabalhar numa determinada área, mesmo comparando os seus valores com algum tipo de limiar ou objetivo.
Dados detalhados, não podemos esquecer que, como parte de uma possível representação gráfica, temos os dados em formato de tabela. Por vezes, precisamos de valores exatos, ou queremos obter o nível máximo de detalhe ou um registo específico.
Geográfica, a dimensão geográfica, graças à crescente disponibilidade de informação georreferenciada, tornou-se uma parte indispensável do catálogo de geradores de conteúdos analíticos.
Podendo representar a informação em diferentes camadas que se podem sobrepor ou aparecer à medida que navegamos através dela, constituem, por si só, toda uma área de análise e serão objeto de uma visão detalhada em futuras publicações.
Como vimos, dispomos de uma vasta "paleta" de elementos analíticos que podemos utilizar nos nossos estudos de dados e, por vezes, a sua escolha e utilização podem suscitar dúvidas. Seguindo e identificando o objetivo do que queremos representar e analisar, esta tarefa é simplificada, sobretudo se nos pudermos apoiar em esquemas de elementos gráficos como os que apresentámos, que certamente servirão de guia no desenvolvimento destas soluções analíticas.
No entanto, temos elementos adicionais para o tipo de gráfico que vamos utilizar para cada combinação de dimensão ou medida
Existem outros tipos de gráficos, mas podemos sempre enquadrá-los mais ou menos numa das categorias acima, para que também sejam mais fáceis de utilizar.
Quando tivermos a experiência de utilizar estes tipos de diagramas no nosso trabalho diário, "manter as formas" nos nossos projetos de visualização de dados tornar-se-á mais simples e muito mais rápido. Ainda assim, temos elementos adicionais ao tipo de gráfico que vamos utilizar para cada combinação de dimensão ou medida, como a cor (que dará profundidade às nossas representações e análises) e a disposição destes elementos de forma a valorizar a informação através da sua combinação. Estes temas serão objeto de artigos posteriores sobre a visualização de dados, todos com o objetivo de não ser necessário ser "um Charles Minard" para encontrar a visualização certa.
Com mais de 20 anos de investigação e colaboração em diferentes projetos de análise de dados. Tem uma vasta experiência em diferentes tecnologias de BI, com especial incidência na plataforma de análise Qlik.