“Um simples gráfico traz mais informações para a mente do analista de dados do que qualquer outro dispositivo.” - John Tukey
Que tal falar sobre gráficos?1
O R é uma das linguagens mais populares no mundo da ciência de dados e análise estatística. Uma das bibliotecas mais utilizadas para visualização de dados no R é o ggplot, que permite criar gráficos sofisticados com facilidade e flexibilidade. Este pacote oferece uma variedade de recursos para criação de gráficos de alta qualidade, permitindo que os usuários personalizem cada aspecto do gráfico de acordo com suas necessidades.
O ggplot2
é baseado na “gramática dos gráficos”, uma teoria que fornece uma estrutura sistemática para construir visualizações. A gramática dos gráficos define um conjunto de regras para mapear variáveis aos elementos visuais em um gráfico, permitindo que os usuários criem gráficos sofisticados com facilidade. O ggplot2
implementa essa teoria de forma intuitiva e poderosa, tornando-o uma das bibliotecas mais populares para visualização de dados em R. Ao entender a gramática dos gráficos e como o ggplot2
a utiliza, os usuários podem criar gráficos precisos e esteticamente agradáveis que comunicam efetivamente suas descobertas.
Neste post, iremos explorar algumas dicas úteis sobre como utilizar o ggplot2
. Com uma compreensão sólida da gramática dos gráficos, os usuários podem aproveitar ao máximo esse pacote que é parte do tidyverse
. Aprender a utilizar o ggplot2
pode parecer assustador no início, mas com um pouco de prática, os usuários podem se tornar proficientes em criar gráficos sofisticados e informativos. Com isso em mente, vamos explorar algumas das dicas e truques para utilizar o ggplot2
e aproveitar todo o seu potencial.
Para criar os gráficos, primeiro precisamos iniciar nossos pacotes. Vamos utilizar o tidyverse
(onde o ggplot2
está incluído) e o palmerpenguins
, que reúne dados sobre pinguins coletados e disponibilizados pela Dra. Kristen Gorman e a Estação Palmer, Antártica LTER.
library(tidyverse)
library(palmerpenguins)
Para criar um gráfico com o ggplot, é necessário ter três elementos principais: os dados (data), o mapeamento das variáveis (mapping) e o tipo de geometria (geom). O conjunto de dados deve estar no formato adequado para a visualização desejada, enquanto o mapeamento define como as variáveis serão plotadas nos eixos e qual será a cor ou forma de cada elemento, a estética (aesthetic). A geometria define o tipo de gráfico, como barras, pontos ou linhas, que será utilizado para representar os dados. Com esses três elementos, é possível criar uma variedade de gráficos personalizados e informativos com o ggplot.
Os três elementos dos gráficos: data
, mapping
e geom_
Inicialmente vamos informar com quais dados vamos trabalhar usando o operador pipe (|>) nativo do R. Você vai notar que teremos uma tela em branco, pois ainda não informamos quais variáveis vão ser utilizadas
|>
penguins ggplot()
É hora de dizer quais variáveis vamos utilizar. Para isso utilizamos o argumento mapping
, que vai dar a estética (aes()
) do gráfico. Para o eixo x informamos o comprimento da nadadeira dos pinguins em milímetros (flipper_length_mm
) e no eixo y a massa corporal em gramas desses bichinhos fofos (body_mass_g
). O resultado obtido já se parece um pouco mais com um gráfico, já que as variáveis estão indicadas nos eixos, mas ainda não terminamos.
|>
penguins ggplot(mapping = aes(x = flipper_length_mm,
y = body_mass_g))
Chegou a hora de dizer qual geometria queremos utilizar. Como queremos ver a relação entre duas variáveis numéricas, vamos utilizar geom_point
, que vai incluir pontos na nossa tela e gerar um gráfico de dispersão.
|>
penguins ggplot(mapping = aes(x = flipper_length_mm,
y = body_mass_g)) +
geom_point()
Warning: Removed 2 rows containing missing values (`geom_point()`).
Você vai notar que o ggplot deu um aviso sobre valores ausentes. Nesse sentido, ele segue o mesmo princípio do R de que valores ausentes não podem passar despercebidos.
Existem muitos outros geoms e vários outros atributos que podem ser adicionados ao gráfico.
|>
penguins ggplot(aes(flipper_length_mm,
+
body_mass_g)) geom_point(aes(color = species,
shape = species)) +
geom_smooth(method = "lm") +
labs(title = "Massa corporal e comprimento da nadadeira",
subtitle = "Dimensões para Adelie, Chinstrap e Gentoo",
x = "Comprimento da nadadeira (mm)",
y = "Massa corporal (g)",
color = "Espécie",
shape = "Espécie") +
scale_color_colorblind()
Conclusão
Neste post você aprendeu sobre a criação de gráficos no R usando o pacote ggplot2
Se estiver precisando de ajuda para analisar dados quantitativos ou outras atividades acadêmicas, você pode contatar a Beta Consultoria e Assessoria através do e-mail beta.consultac@gmail.com
Notas de rodapé
O conteúdo deste post é baseado em um material que está sendo produzido pelo professor Francisco Pablo Huascar Aragão Pinheiro para um curso de introdução ao R para análise de dados em Psicologia.↩︎