Prefácio¶
A Quem Se Destina Este Livro¶
Este livro se destina a você que está interessado em produzir e compreender visualizações de dados para análise e exploração, ou comunicação de resultados. Ele foi elaborado como um material de apoio para disciplinas de análise de dados (ciência de dados, introdução à estatística dentre outras) para ser empregado total ou parcialmente em cursos de diferentes áreas, das ciências e engenharias às ciências humanas e biológicas. Sendo nosso principal objetivo didático, adotamos a forma dialógica para o texto e vamos nos referir muitas vezes diretamente ao leitor.
Ao longo de texto empregaremos o Python
e suas principais bibliotecas para produzir visualizações de dados e,
embora conhecimento básicos de programação e Python
sejam bastante úteis aqui, creio que você poderá apreciar e compreender
vários aspectos da construção da visualização de dados mesmo que seu objetivo seja empregar outras ferramentas ou linguagens.
Nossa opção pelo uso de Python
é por sua adoção em um grande número de cursos de graduação e pós-graduação, como também pelo seu uso no mercado.
As Formas de Ler Este Livro, Trilha de Programação ou Visualização¶
O texto irá apresentar a você como criar corretamente visualizações de dados com Python
. Se você já tem familiaridade com linguagens de programação e Python
você poderá executar e explorar diretamente os códigos deste livro fazendo aqui uma Trilha de Programação. Mas se você emprega outras liguagens ou ferramentas, como R ou ferramentas de
visualização de dados, ou mesmo se estiver interessado somente nos conceitos de Visualização de Dados e como ela pode ajudar no entendimento dos dados, pode ler este livro sem entrar em detalhes da construção dos códigos e dar atenção apenas às características das visualizações produzidas. Você pode, assim, fazer apenas uma Trilha Visualização e entender conceitos que podem ser depois implementados em qualquer linguagem ou ferramenta que você deseje. E espero que você possa nesse caso se concentrar nos conceitos e princíos sem dar muita atenção ao código. Afinal a visualização de dados envolve uma série de princípios que vão muito além da linguagem ou ferramentas empregadas e definir corretamente tipo de visualização e suas características, bem como compreender seus resultados, é algo talvez até mais importante e que certamente precede a codificação e construção dos gráficos.
Mas se você está de fato interessado em produzir visualizações de dados com Python
(ou mesmo com outra linguagem)
esta introdução certamente será bastante útil. Neste caso, como outros livros de programação, o código é parte integrante do texto e é importante que você acompanhe a leitura dos códigos fornecidos com sua execução e consulta
a documentação das api’s e pacotes empregados. O texto discute o que é essencial nos códigos mas não discute cada comando e detalhes da codificação que podem ter lidos diretamente no código dos programas e opções menos importantes podem ser exploradas pelo leitor na documentação dos pacotes.
Como Está Organizado Este Livro¶
O capítulo de Introdução apresenta para você por quê precisamos produzir Visualizações dos Dados. Você vai aprender também quais os principais tipos de análise que podemos fazer com a Visualização de Dados para obter um melhor entendimento dos dados. Em seguida o capítulo Básico: Colab, Python, NumPy e Pandas apresenta um resumo dos principais recursos que você precisa conhecer para iniciar a criação de Visualizações de Dados com Python. Você pode saltar, ou apenas fazer uma leitura diagonal desse capítulo, caso você já programe em Python e conheça os principais recursos das bibliotecas Numpy e Pandas ou no caso de você estar fazendo apenas a Trilha de Visualização deste livro. O capítulo seguinte, Gráficos com Python, introduz o uso da biblioteca Matplotlib
, a principal biblioteca de visualização do Python e, aqui, mesmo que você esteja fazendo a Trilha de Visualização, é importante que você percorra os recursos que o Matplotlib
apresenta, que são comuns a muitas outras bibliotecas e ferramentas de visualização de dados.
Os 4 capítulos seguintes dividem a produção da visualização de dados por quatro eixos principais de análise dos dados, Evolução, Distribuição, Quantidades e Proporcões e Relações, e são a parte central deste texto.
O capítulo Boas Práticas discute algumas boas práticas para a produção correta de visualizações dos dados, e ao final um apêndice resume alguns recursos úteis para o desenvolvimento de visualizações de dados e recursos empregados neste livro.
Sendo um texto de introdório não tratamos aqui muitos aspectos importantes da visualização de dados, e mesmo tratamos todos os tipos de gráficos e recursos, ou por serem mais avançados ou por terem aplicação muito específica. É o caso, por exemplo, de gráficos dinâmicos, gráficos em 3D e mapas, produção de animações, infográficos ou mesmo a narrativa de histórias dos dados (storytelling) que o leitor poderá buscar em um segundo momento e eventualmente nos materiais complementares deste livro.
Códigos Fonte e Dados¶
Todos os códigos deste livro foram desenvolvidos e executados em Python no ambiente Google Colab e podem ser obtidos em https://github.com/Rogerio-mack/Visualizacao-de-Dados-em-Python. Lá você também poderá encontrar atualizações do código, do texto e materiais complementares, e as bases empregadas. Todos os exemplos empregam bases públicas que foram, quando necessário, adaptadas. Dentro do possível, procuramos empregar dados de diferentes áreas e tornar os exemplos mais ilustrativos de casos reais de análise.