Pour ma quatrième participation au #TidyTuesday, nous avons accès au nombre de doctorants des Universités américaines. Les données brutes sont disponibles sur le site de l’SED. J’ai choisi de me concentrer sur l’évolution du nombre de doctorant par champ d’étude.
MPORTER
usa<- read_excel("sed17-sr-tab012.xlsx",
sheet="Table 12",
range="A4:O59", #conserver seulement les données pertinentes
col_names = TRUE, #identifier la première ligne comme nom de colonne
col_types = NULL)
EXPLORER
glimpse(usa)
## Observations: 55
## Variables: 15
## $ `Field of study` <chr> NA, "All fields", "Life sciences", "Agricultu...
## $ `1987.0` <chr> "Number", "32365.0", "5783.0", "1144.0", "383...
## $ X__1 <chr> "Percent", "100.0", "17.9", "3.5", "11.9", "2...
## $ `1992.0` <chr> "Number", "38886.0", "7172.0", "1261.0", "479...
## $ X__2 <chr> "Percent", "100.0", "18.4", "3.2", "12.3", "2...
## $ `1997.0` <chr> "Number", "42539.0", "8421.0", "1212.0", "578...
## $ X__3 <chr> "Percent", "100.0", "19.8", "2.8", "13.6", "3...
## $ `2002.0` <chr> "Number", "40031.0", "8478.0", "1129.0", "569...
## $ X__4 <chr> "Percent", "100.0", "21.2", "2.8", "14.2", "4...
## $ `2007.0` <chr> "Number", "48132.0", "10702.0", "1321.0", "72...
## $ X__5 <chr> "Percent", "100.0", "22.2", "2.7", "15.0", "4...
## $ `2012.0` <chr> "Number", "50944.0", "11964.0", "1255.0", "83...
## $ X__6 <chr> "Percent", "100.0", "23.5", "2.5", "16.3", "4...
## $ `2017.0` <chr> "Number", "54664.0", "12592.0", "1606.0", "84...
## $ X__7 <chr> "Percent", "100.0", "23.0", "2.9", "15.5", "4...
Nous disposons donc de 7 années de données, entre 1987 et 2017, pour lesquels les 8 grands sujets d’étude sont disponibles. Ancune donnée ne sera manquante lorsque le ménage sera fait dans les données.
PRÉPARER
usa_dr<-usa%>%
rename(study="Field of study")%>% #corriger les noms de colonnes
select(study, `1987.0`, `1992.0`, `1997.0`, `2002.0`, `2007.0`, `2012.0`, `2017.0`)%>%
filter(!is.na(study), !study=="All fields")%>% #retirer les lignes vides et la somme
mutate(study=ifelse(study=="Othera", "Others", study))%>%
filter(study %in% c("Life sciences", "Physical sciences and earth sciences",
"Mathematics and computer sciences", "Psychology and social sciences", "Engineering",
"Education", "Humanities and arts", "Others"))%>% # conserver les grandes catégories
mutate(study=trimws(study, which ="both")) #retirer les espaces blancs avant et après
#ajouter les rangs par années
usa_rank<-usa_dr%>%
arrange(desc(`1987.0`)) %>%
mutate("1987"= 1:nrow(usa_dr))%>%
arrange(desc(`1992.0`)) %>%
mutate("1992" = 1:nrow(usa_dr))%>%
arrange(desc(`1997.0`)) %>%
mutate("1997" = 1:nrow(usa_dr))%>%
arrange(desc(`2002.0`)) %>%
mutate("2002" = 1:nrow(usa_dr))%>%
arrange(desc(`2007.0`)) %>%
mutate("2007" = 1:nrow(usa_dr))%>%
arrange(desc(`2012.0`)) %>%
mutate("2012" = 1:nrow(usa_dr))%>%
arrange(desc(`2017.0`)) %>%
mutate("2017" = 1:nrow(usa_dr))%>%
select(study, "1987", "1992", "1997", "2002", "2007","2012","2017")%>%
gather(key=annee, value=rang, -study)%>% #changer la mise en page pour analyse
mutate(annee=as.numeric(annee)) #changer le format des années à numérique
VISUALISER
#Graphique
gg<-ggplot(data=usa_rank, aes(x=annee, y=rang, group=study, color=study))
gg<-gg + geom_line(size=2)
gg<-gg + geom_point(size=4)
gg<-gg + scale_color_manual(values = c("#A9A9A9", "#A9A9A9", "#A9A9A9", "#A44A3F", "#A9A9A9", "#A9A9A9", "#A9A9A9", "#A9A9A9"))
gg<-gg + geom_point(color = "#FFFFFF", alpha = .8, size = 1)
#Ajouter les étiquettes de données
gg<-gg + geom_text(data = usa_rank %>% filter(annee == 2017), aes(label = study, x = 2017.5) , hjust = 0, color = "#888888", size = 4)
gg<-gg + geom_text(data = usa_rank %>% filter(annee == 1987), aes(label = study, x = 1986.5) , hjust = 1, color = "#888888", size = 4)
#ajuster les axes
gg<-gg + scale_y_continuous(breaks=seq(1,8,1), limits = c(1, 8))
gg<-gg + scale_x_continuous(breaks=seq(1987, 2017, 5),limits = c(1977, 2027))
#modifier la légende
gg<-gg + theme(legend.position="none")
#modifier le thème
gg<-gg +theme(panel.border = element_blank(),
panel.background = element_rect(fill = "#FFFFFF", colour = "#FFFFFF"),
plot.background = element_rect(fill = "#FFFFFF", colour = "#FFFFFF"),
panel.grid.major.y= element_blank(),
panel.grid.major.x= element_blank(),
panel.grid.minor = element_blank(),
axis.line = element_blank(),
axis.ticks.y = element_blank(),
axis.ticks.x = element_blank())
#ajouter les titres gg<-gg + labs(title= "Doctorants Américains: classement des domaines d'études de 1987 à 2017",
subtitle="Les sciences de la vie est le domaine d'étude préféré des 10 dernières années",
y=NULL,
x=NULL)
gg<-gg + theme(plot.title = element_text(hjust=0,size=25, color="#8B8B8B"),
plot.subtitle = element_text(hjust=0,size=18, color="#8B8B8B"),
axis.title.y = element_blank(),
axis.title.x = element_blank(),
axis.text.y = element_blank(),
axis.text.x = element_text(hjust=0.5, size=10, color="#8B8B8B"))
Pour visualiser l’évolution du nombre d’étudiants aux différents sujets d’étude, j’ai choisi présenter les comparaisons sous forme de rang. Donc, pour chaque année, le sujet avec le moins d’étudiant a le rang 1 et celui avec le plus d’étudiant a le rang 8. En mettant les années côte à côte, on voit l’évolution du classement pour chaque sujet dans le temps. Les siences de la vie est le domaine d’étude avec la plus grande variation dans le temps: avant 2002, il se situait dans les sujets les moins populaires et depuis 2007 c’est le sujet avec le plus d’étudiant. Voici ce que ça donne: