TidyTuesday | 2019W8: Doctorants des Universités Américaines

Pour ma quatrième participation au #TidyTuesday, nous avons accès au nombre de doctorants des Universités américaines. Les données brutes sont disponibles sur le site de l’SED. J’ai choisi de me concentrer sur l’évolution du nombre de doctorant par champ d’étude.

IMPORTER

usa<- read_excel("sed17-sr-tab012.xlsx",
                    sheet="Table 12",
                    range="A4:O59", #conserver seulement les données pertinentes
                    col_names = TRUE, #identifier la première ligne comme nom de colonne
                    col_types = NULL)

EXPLORER

glimpse(usa)
## Observations: 55
## Variables: 15
## $ `Field of study` <chr> NA, "All fields", "Life sciences", "Agricultu...
## $ `1987.0`         <chr> "Number", "32365.0", "5783.0", "1144.0", "383...
## $ X__1             <chr> "Percent", "100.0", "17.9", "3.5", "11.9", "2...
## $ `1992.0`         <chr> "Number", "38886.0", "7172.0", "1261.0", "479...
## $ X__2             <chr> "Percent", "100.0", "18.4", "3.2", "12.3", "2...
## $ `1997.0`         <chr> "Number", "42539.0", "8421.0", "1212.0", "578...
## $ X__3             <chr> "Percent", "100.0", "19.8", "2.8", "13.6", "3...
## $ `2002.0`         <chr> "Number", "40031.0", "8478.0", "1129.0", "569...
## $ X__4             <chr> "Percent", "100.0", "21.2", "2.8", "14.2", "4...
## $ `2007.0`         <chr> "Number", "48132.0", "10702.0", "1321.0", "72...
## $ X__5             <chr> "Percent", "100.0", "22.2", "2.7", "15.0", "4...
## $ `2012.0`         <chr> "Number", "50944.0", "11964.0", "1255.0", "83...
## $ X__6             <chr> "Percent", "100.0", "23.5", "2.5", "16.3", "4...
## $ `2017.0`         <chr> "Number", "54664.0", "12592.0", "1606.0", "84...
## $ X__7             <chr> "Percent", "100.0", "23.0", "2.9", "15.5", "4...

Nous disposons donc de 7 années de données, entre 1987 et 2017, pour lesquels les 8 grands sujets d’étude sont disponibles. Ancune donnée ne sera manquante lorsque le ménage sera fait dans les données.

PRÉPARER

usa_dr%
  rename(study="Field of study")%>% #corriger les noms de colonnes
  select(study, `1987.0`, `1992.0`, `1997.0`, `2002.0`, `2007.0`, `2012.0`, `2017.0`)%>%
  filter(!is.na(study), !study=="All fields")%>% #retirer les lignes vides et la somme
  mutate(study=ifelse(study=="Othera", "Others", study))%>%
  filter(study %in% c("Life sciences", "Physical sciences and earth sciences",
                      "Mathematics and computer sciences", "Psychology and social sciences", "Engineering",
                      "Education", "Humanities and arts", "Others"))%>% # conserver les grandes catégories
  mutate(study=trimws(study, which ="both"))%>% #retirer les espaces blancs avant et après
mutate(`1987.0`= as.numeric(`1987.0`), `1992.0`=as.numeric(`1992.0`), `1997.0`=as.numeric(`1997.0`), `2002.0`=as.numeric(`2002.0`), `2007.0`=as.numeric(`2007.0`), `2012.0`=as.numeric(`2012.0`), `2017.0`=as.numeric(`2017.0`))
#ajouter les rangs par années
usa_rank%
arrange((`1987.0`)) %>%
mutate("1987"= 1:nrow(usa_dr))%>%
arrange((`1992.0`)) %>%
mutate("1992" = 1:nrow(usa_dr))%>%
arrange((`1997.0`)) %>%
mutate("1997" = 1:nrow(usa_dr))%>%
arrange((`2002.0`)) %>%
mutate("2002" = 1:nrow(usa_dr))%>%
arrange((`2007.0`)) %>%
mutate("2007" = 1:nrow(usa_dr))%>%
arrange((`2012.0`)) %>%
mutate("2012" = 1:nrow(usa_dr))%>%
arrange((`2017.0`)) %>%
mutate("2017" = 1:nrow(usa_dr))%>%
  select(study, "1987", "1992", "1997", "2002", "2007","2012","2017")%>%
  gather(key=annee, value=rang, -study)%>% #changer la mise en page pour analyse
  mutate(annee=as.numeric(annee)) #changer le format des années à numérique

VISUALISER

#Graphique
gg<-ggplot(data=usa_rank, aes(x=annee, y=rang, group=study, color=study))
gg<-gg + geom_line(size=2)
gg<-gg + geom_point(size=4)
gg<-gg + scale_color_manual(values = c("#A9A9A9", "#A9A9A9", "#A9A9A9", "#A44A3F", "#A9A9A9", "#A9A9A9", "#A9A9A9", "#A9A9A9"))
gg<-gg +  geom_point(color = "#FFFFFF", alpha = .8, size = 1)
#Ajouter les étiquettes de données
gg% filter(annee == 2017), aes(label = study, x = 2017.5) , hjust = 0, color = "#888888", size = 4)
gg% filter(annee == 1987), aes(label = study, x = 1986.5) , hjust = 1, color = "#888888", size = 4)
#ajuster les axes
gg<-gg + scale_y_continuous(breaks=seq(1,8,1), limits = c(1, 8))
gg<-gg + scale_x_continuous(breaks=seq(1987, 2017, 5),limits = c(1977, 2027))
#modifier la légende
gg<-gg + theme(legend.position="none")
#modifier le thème
gg<-gg +theme(panel.border = element_blank(),
              panel.background = element_rect(fill = "#FFFFFF", colour = "#FFFFFF"),
              plot.background = element_rect(fill = "#FFFFFF", colour = "#FFFFFF"),
              panel.grid.major.y= element_blank(),
              panel.grid.major.x= element_blank(),
              panel.grid.minor = element_blank(),
              axis.line = element_blank(),
              axis.ticks.y = element_blank(),
              axis.ticks.x = element_blank())
#ajouter les titres
gg<-gg + labs(title= "Doctorants Américains: classement des domaines d'études de 1987 à 2017",
              subtitle="Les sciences de la vie est le domaine d'étude préféré des 10 dernières années",
              y=NULL,
              x=NULL)
gg<-gg + theme(plot.title    = element_text(hjust=0,size=25, color="#8B8B8B"),
               plot.subtitle = element_text(hjust=0,size=18, color="#8B8B8B"),
               axis.title.y  = element_blank(),
               axis.title.x  = element_blank(),
               axis.text.y   = element_blank(),
               axis.text.x   = element_text(hjust=0.5, size=10, color="#8B8B8B"))

Pour visualiser l'évolution du nombre d'étudiants aux différents sujets d'étude, j'ai choisi présenter les comparaisons sous forme de rang. Donc, pour chaque année, le sujet avec le moins d'étudiant a le rang 1 et celui avec le plus d'étudiant a le rang 8. En mettant les années côte à côte, on voit l'évolution du classement pour chaque sujet dans le temps. Les siences de la vie est le domaine d'étude avec la plus grande variation dans le temps: avant 2002, il se situait dans les sujets les moins populaires et depuis 2007 c'est le sujet avec le plus d'étudiant. Voici ce que ça donne:

rank fra final

Répondre

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion /  Changer )

Photo Google

Vous commentez à l'aide de votre compte Google. Déconnexion /  Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion /  Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion /  Changer )

Connexion à %s