Explorando bancos de dados no R

Tutoriais de R
Autora

Esthela Sá

Data de Publicação

4 de abril de 2023

Bancos de dados do R

O R vem com vários bancos de dados para que você possa treinar com eles.

Para ver uma lista de todos os bancos disponíveis você pode usar a função data()

Um banco de dados bem famoso é o mtcars. Os dados foram extraídos da revista americana Motor Trend de 1974 e compreendem o consumo de combustível e 10 aspectos do design e desempenho de automóveis para 32 carros (modelos de 1973 a 1974).

Para colocá-los em seu ambiente de trabalho você também vai usar a função data()

data(mtcars)

Tidyverse

O tidyverse é um conjunto de pacotes que otimizam o processo de escrever nosso códigos.

Para utilizá-lo você precisa usar a função library().

library(tidyverse)

there is no package called 'tidyverse'

Caso receba essa mensagem de erro, você vai precisar instalá-lo com a função install.packages().

install.packages("tidyverse")
library(tidyverse)

Ele tem algumas funções interessantes para darmos uma olhada inicial nos bancos de dados com que vamos trabalhar.

Para ver uma lista das variáveis, é possível usar a função glimpse().

glimpse(mtcars)
Rows: 32
Columns: 11
$ mpg  <dbl> 21.0, 21.0, 22.8, 21.4, 18.7, 18.1, 14.3, 24.4, 22.8, 19.2, 17.8,…
$ cyl  <dbl> 6, 6, 4, 6, 8, 6, 8, 4, 4, 6, 6, 8, 8, 8, 8, 8, 8, 4, 4, 4, 4, 8,…
$ disp <dbl> 160.0, 160.0, 108.0, 258.0, 360.0, 225.0, 360.0, 146.7, 140.8, 16…
$ hp   <dbl> 110, 110, 93, 110, 175, 105, 245, 62, 95, 123, 123, 180, 180, 180…
$ drat <dbl> 3.90, 3.90, 3.85, 3.08, 3.15, 2.76, 3.21, 3.69, 3.92, 3.92, 3.92,…
$ wt   <dbl> 2.620, 2.875, 2.320, 3.215, 3.440, 3.460, 3.570, 3.190, 3.150, 3.…
$ qsec <dbl> 16.46, 17.02, 18.61, 19.44, 17.02, 20.22, 15.84, 20.00, 22.90, 18…
$ vs   <dbl> 0, 0, 1, 1, 0, 1, 0, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 0,…
$ am   <dbl> 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 0, 0,…
$ gear <dbl> 4, 4, 4, 3, 3, 3, 3, 4, 4, 4, 4, 3, 3, 3, 3, 3, 3, 4, 4, 4, 3, 3,…
$ carb <dbl> 4, 4, 1, 1, 2, 1, 4, 2, 2, 4, 4, 3, 3, 3, 4, 4, 4, 1, 2, 1, 1, 2,…

Nessa saída você pode ver o número de casos (32 rows) e número de variáveis (11 columns). Também é mostrado o tipo de cada variável. Nesse banco todas as variáveis são numéricas, mais precisamente do tipo ‘double-precision floating-point format’

Com a função slice_head() é possível ver as primeiras variáveis do banco de dados. O argumento nindica quantas linhas você quer na saída.

slice_head(mtcars, n = 5)
                   mpg cyl disp  hp drat    wt  qsec vs am gear carb
Mazda RX4         21.0   6  160 110 3.90 2.620 16.46  0  1    4    4
Mazda RX4 Wag     21.0   6  160 110 3.90 2.875 17.02  0  1    4    4
Datsun 710        22.8   4  108  93 3.85 2.320 18.61  1  1    4    1
Hornet 4 Drive    21.4   6  258 110 3.08 3.215 19.44  1  0    3    1
Hornet Sportabout 18.7   8  360 175 3.15 3.440 17.02  0  0    3    2

A função slice_tail(), por sua vez, mostra os casos finais do banco.

slice_tail(mtcars, n = 4)
                mpg cyl disp  hp drat   wt qsec vs am gear carb
Ford Pantera L 15.8   8  351 264 4.22 3.17 14.5  0  1    5    4
Ferrari Dino   19.7   6  145 175 3.62 2.77 15.5  0  1    5    6
Maserati Bora  15.0   8  301 335 3.54 3.57 14.6  0  1    5    8
Volvo 142E     21.4   4  121 109 4.11 2.78 18.6  1  1    4    2

Para vizualizar uma tabela dinâmica como dados, use a função view().

view(mtcars)

Conclusões

Neste post, você aprendeu a acessar os bancos de dados que vem com o R e também a usar funções do tidyverse para dar uma olhada em seu conteúdo.

Se estiver precisando de ajuda para analisar dados quantitativos ou outras atividades acadêmicas, você pode contatar a Beta Consultoria e Assessoria através do e-mail