Ao lidar com Data Science em R , os pacotes do Tidyverse são seus melhores amigos! Esses pacotes do Tidyverse foram especialmente projetados para Data Science com uma filosofia de design comum. Eles incluem todos os pacotes necessários ao fluxo de trabalho da ciência de dados, desde a exploração de dados até a visualização de dados. Por exemplo, readr serve para importação de dados, tibble e tidyr ajudam a organizar os dados, dplyr e stringr contribuem para a transformação de dados e ggplot2 é vital para a visualização de dados.

What-Are-the-Tidyverse-Packages-in-R-Language

Existem oito pacotes principais do Tidyverse, a saber , ggplot2, dplyr, tidyr, readr, purrr, tibble, stringr e forcats que são mencionados neste artigo. Todos esses pacotes são carregados automaticamente de uma vez com o comando install.packages (“tidyverse”). Além desses pacotes, o Tidyverse também possui alguns pacotes especializados que não são carregados automaticamente, mas precisam de sua própria chamada. Isso inclui o DBI para bancos de dados relacionais. httr para APIs da web, rvest para web scraping, etc. Agora, vamos ver os pacotes principais do Tidyverse e aprender mais sobre eles!

1. ggplot2

ggplot2é uma biblioteca de visualização de dados R baseada na Gramática dos Gráficos. ggplot2 pode criar visualizações de dados como gráficos de barras, gráficos de pizza, histogramas, gráficos de dispersão, gráficos de erro, etc. usando API de alto nível. Também permite adicionar diferentes tipos de componentes ou camadas de visualização de dados em uma única visualização. Uma vez que ggplot2 foi informado de quais variáveis ​​mapear para quais estéticas no enredo, ele faz o resto do trabalho para que o usuário possa se concentrar na interpretação das visualizações e levar menos tempo para criá-las. Mas isso também significa que não é possível criar gráficos altamente personalizados no ggplot2. Mas há muitos recursos na comunidade RStudio e Stack Overflow que podem ajudar no ggplot2 quando necessário. Se você deseja instalar o ggplot2, o melhor método é instalar o tidyverse usandoinstall.packages (“tidyverse”) . Ou você pode simplesmente instalar o ggplot2 usando install.packages (“ggplot2”) . Você também pode instalar a versão de desenvolvimento do GitHub usando devtools::install_github (“tidyverse / ggplot2”)

2. dplyr

dplyr é uma biblioteca de manipulação de dados muito popular em R. Ela possui cinco funções importantes que são combinadas naturalmente com a função group_by() que pode ajudar na execução dessas funções em grupos. Essas funções incluem a função mutate() que pode adicionar novas variáveis ​​que são funções de variáveis ​​existentes, a função select() que seleciona as variáveis ​​com base em seus nomes, a função filter() que seleciona seleciona as variáveis ​​com base em seus valores, resume() função que reduz vários valores em um resumo, e a função organize() que organiza a ordem das linhas. Se você deseja instalar o dplyr, o melhor método é instalar o tidyverse usando install.packages (“tidyverse”) . Ou você pode simplesmente instalar o dplyr usando install.packages (“dplyr”). Você também pode instalar a versão de desenvolvimento do GitHub usando devtools::install_github (“tidyverse / dplyr”)

3. tidyr

tidyr é uma biblioteca de limpeza de dados em R que ajuda a criar dados organizados. Dados organizados significam que todas as células de dados têm um único valor com cada uma das colunas de dados sendo uma variável e as linhas de dados sendo uma observação. Esses dados organizados são essenciais no tidyverse e garantem que mais tempo seja gasto na análise de dados e na obtenção de valor dos dados, em vez de limpar os dados continuamente e modificar as ferramentas para lidar com dados desordenados. As funções em tidyr geralmente se enquadram em cinco categorias, a saber, Dinâmica que altera os dados entre formas longas e largas, Aninhamento que altera os dados agrupados de modo que um grupo seja uma única linha com um quadro de dados aninhado, Dividindo colunas de caracteres e combinando-as, Retangling que converte listas aninhadas em tibbles organizadas e converte valores ausentes implícitos em valores explícitos. Se você deseja instalar o tidyr,install.packages (“tidyverse”) . Ou você pode simplesmente instalar o tidyr usando install.packages (“tidyr”) . Você também pode instalar a versão de desenvolvimento do GitHub usando devtools::install_github (“tidyverse / tidyr”)

4. readr

r eadré uma biblioteca que fornece um método simples e rápido para ler dados retangulares, como formatos de arquivo tsv, csv, delim, fwf, etc. readr pode analisar muitos tipos diferentes de dados usando uma função que analisa o arquivo total e outra que enfoca na coluna específica. Esta especificação de coluna define o método para converter os dados na coluna de um vetor de caracteres para o tipo de dados mais adequado. Na maioria dos casos, isso é feito automaticamente por readr. readr pode ler diferentes tipos de formatos de arquivo usando diferentes funções, nomeadamente read_csv() para arquivos separados por vírgula, read_tsv() para arquivos separados por tabulação, read_table() para arquivos tabulares, read_fwf() para arquivos de largura fixa, read_delim() para arquivos delimitados e read_log() para arquivos de log da web. Se você deseja instalar o readr, o melhor método é instalar o tidyverse usandoinstall.packages (“tidyverse”) . Ou você pode simplesmente instalar readr usando install.packages (“readr”) . Você também pode instalar a versão de desenvolvimento do GitHub usando devtools::install_github (“tidyverse / readr”)

5. ronronar

purrr é um conjunto detalhado de ferramentas para funções e vetores e é usado principalmente para gerenciar a programação funcional em R. Um bom exemplo disso são as funções map() que são usadas para substituir vários loops for que complicam e bagunçam o código código inro mais simples e fácil de ler. Além disso, todas as funções purrr são de tipo estável, o que significa que elas retornam o tipo de saída anunciado e, se isso não for possível, fornecem um erro. Se você deseja instalar o purrr, o melhor método é instalar o tidyverse usando install.packages (“tidyverse”). Ou você pode simplesmente instalar o purrr usando install.packages (“purrr”) . Você também pode instalar a versão de desenvolvimento do GitHub usando devtools::install_github (“tidyverse / purrr”)

6. tibble

Uma tabela é uma forma de data.frame que inclui as partes úteis e descarta as partes que não são tão importantes. Portanto, os tibbles não mudam os nomes das variáveis ​​ou tipos, como data.frames, nem fazem correspondência parcial, mas trazem problemas à tona muito mais cedo, como quando uma variável não existe. Portanto, um código com tibbles é muito mais limpo e eficaz do que antes. Tibbles também são mais fáceis de usar com conjuntos de dados maiores que contêm objetos mais complexos, em parte antes de um método print() aprimorado. Você pode criar novos tibbles a partir de vetores de coluna usando a função tibble() e também pode criar um tibble linha por linha usando uma função tribble(). Se você deseja instalar o tibble, o melhor método é instalar o tidyverse usando install.packages (“tidyverse”). Ou você pode simplesmente instalar o tibble usando install.packages (“tibble”) . Você também pode instalar a versão de desenvolvimento do GitHub usando devtools::install_github (“tidyverse / tibble”)

7. stringr

stringré uma biblioteca que possui muitas funções usadas para limpeza de dados e tarefas de preparação de dados. Ele também foi projetado para trabalhar com strings e possui muitas funções que tornam esse processo fácil. stringr é construído sobre stringi, que é uma biblioteca de componentes internacionais para Unicode C. Portanto, se houver alguma função que você deseja usar, mas não consegue encontrar em stringr, o melhor lugar para procurá-la é stringi. Isso também significa que, uma vez que você domina o stringr, o stringi não é tão difícil de usar, pois os dois pacotes têm convenções semelhantes. Todas as funções em stringr começam com str e usam um vetor de string como primeiro argumento. Algumas dessas funções incluem str_detect(), str_extract(), str_match(), str_count(), str_replace(), str_subset(), etc. Se você deseja instalar stringr, o melhor método é instalar o tidyverse usandoinstall.packages (“tidyverse”) . Ou você pode simplesmente instalar o stringr a partir do CRAN usando install.packages (“stringr”) . Você também pode instalar a versão de desenvolvimento do GitHub usando devtools::install_github (“tidyverse / stringr”)

8. forcats

forcats é uma biblioteca R que se preocupa com o tratamento de problemas associados a vetores. Esses vetores são variáveis ​​que têm um conjunto fixo de valores possíveis que podem assumir, os quais já são conhecidos de antemão. Portanto, forecats lida com questões como mudanças nas ordens de valores em vetores, reordenando os vetores, etc. Algumas das funções em forcats são fct_relevel() que reordena um vetor manualmente, fct_reorder() que reordena um fator usando outra variável, fct_infreq ( ) que reordena um fator por valores de frequência etc. Se você deseja instalar forcats, o melhor método é instalar o tidyverse usando install.packages (“tidyverse”) . Ou você pode simplesmente instalar forcats usando install.packages (“forcats”) . Você também pode instalar a versão de desenvolvimento do GitHub usandodevtools::install_github (“tidyverse / forcats”).

Go Premium (uma experiência sem anúncios com muitos mais recursos)