Graphique de rang: suivre l’évolution dans le temps

Pour ma quatrième participation au #TidyTuesday, nous avons accès au nombre de doctorants des Universités américaines. Les données brutes sont disponibles sur le site de l’SED. J’ai choisi de me concentrer sur l’évolution du nombre de doctorant par champ d’étude.

MPORTER

usa<- read_excel("sed17-sr-tab012.xlsx",
                       sheet="Table 12",
                      range="A4:O59", #conserver seulement les données pertinentes
                      col_names = TRUE, #identifier la première ligne comme nom de colonne
                      col_types = NULL)



EXPLORER

glimpse(usa)
## Observations: 55  
## Variables: 15  
## $ `Field of study` <chr> NA, "All fields", "Life sciences", "Agricultu...  
## $ `1987.0`         <chr> "Number", "32365.0", "5783.0", "1144.0", "383...  
## $ X__1             <chr> "Percent", "100.0", "17.9", "3.5", "11.9", "2...  
## $ `1992.0`         <chr> "Number", "38886.0", "7172.0", "1261.0", "479...  
## $ X__2             <chr> "Percent", "100.0", "18.4", "3.2", "12.3", "2...  
## $ `1997.0`         <chr> "Number", "42539.0", "8421.0", "1212.0", "578...  
## $ X__3             <chr> "Percent", "100.0", "19.8", "2.8", "13.6", "3...  
## $ `2002.0`         <chr> "Number", "40031.0", "8478.0", "1129.0", "569...  
## $ X__4             <chr> "Percent", "100.0", "21.2", "2.8", "14.2", "4...  
## $ `2007.0`         <chr> "Number", "48132.0", "10702.0", "1321.0", "72...  
## $ X__5             <chr> "Percent", "100.0", "22.2", "2.7", "15.0", "4...  
## $ `2012.0`         <chr> "Number", "50944.0", "11964.0", "1255.0", "83...  
## $ X__6             <chr> "Percent", "100.0", "23.5", "2.5", "16.3", "4...  
## $ `2017.0`         <chr> "Number", "54664.0", "12592.0", "1606.0", "84...  
## $ X__7             <chr> "Percent", "100.0", "23.0", "2.9", "15.5", "4...

Nous disposons donc de 7 années de données, entre 1987 et 2017, pour lesquels les 8 grands sujets d’étude sont disponibles. Ancune donnée ne sera manquante lorsque le ménage sera fait dans les données.

PRÉPARER

usa_dr<-usa%>%
    rename(study="Field of study")%>% #corriger les noms de colonnes
    select(study, `1987.0`, `1992.0`, `1997.0`, `2002.0`, `2007.0`, `2012.0`, `2017.0`)%>%
    filter(!is.na(study), !study=="All fields")%>% #retirer les lignes vides et la somme
     mutate(study=ifelse(study=="Othera", "Others", study))%>%
    filter(study %in% c("Life sciences", "Physical sciences and earth sciences",
                         "Mathematics and computer sciences", "Psychology and social sciences", "Engineering",
                        "Education", "Humanities and arts", "Others"))%>% # conserver les grandes catégories
    mutate(study=trimws(study, which ="both")) #retirer les espaces blancs avant et après   

#ajouter les rangs par années  
usa_rank<-usa_dr%>% 
     arrange(desc(`1987.0`)) %>%
            mutate("1987"= 1:nrow(usa_dr))%>%
     arrange(desc(`1992.0`)) %>%
            mutate("1992" = 1:nrow(usa_dr))%>%
     arrange(desc(`1997.0`)) %>%
            mutate("1997" = 1:nrow(usa_dr))%>%
     arrange(desc(`2002.0`)) %>%
            mutate("2002" = 1:nrow(usa_dr))%>%
     arrange(desc(`2007.0`)) %>%
            mutate("2007" = 1:nrow(usa_dr))%>%
     arrange(desc(`2012.0`)) %>%
            mutate("2012" = 1:nrow(usa_dr))%>%
    arrange(desc(`2017.0`)) %>%
            mutate("2017" = 1:nrow(usa_dr))%>%
    select(study, "1987", "1992", "1997", "2002", "2007","2012","2017")%>%
    gather(key=annee, value=rang, -study)%>% #changer la mise en page pour analyse
    mutate(annee=as.numeric(annee)) #changer le format des années à numérique



VISUALISER

#Graphique  
gg<-ggplot(data=usa_rank, aes(x=annee, y=rang, group=study, color=study))  
gg<-gg + geom_line(size=2)  
gg<-gg + geom_point(size=4)  
gg<-gg + scale_color_manual(values = c("#A9A9A9", "#A9A9A9", "#A9A9A9", "#A44A3F", "#A9A9A9", "#A9A9A9", "#A9A9A9", "#A9A9A9"))  
gg<-gg +  geom_point(color = "#FFFFFF", alpha = .8, size = 1)  
#Ajouter les étiquettes de données  
gg<-gg + geom_text(data = usa_rank %>% filter(annee == 2017), aes(label = study, x = 2017.5) , hjust = 0, color = "#888888", size = 4)  
gg<-gg + geom_text(data = usa_rank %>% filter(annee == 1987), aes(label = study, x = 1986.5) , hjust = 1, color = "#888888", size = 4)  
#ajuster les axes   
gg<-gg + scale_y_continuous(breaks=seq(1,8,1), limits = c(1, 8))  
gg<-gg + scale_x_continuous(breaks=seq(1987, 2017, 5),limits = c(1977, 2027))  
#modifier la légende  
gg<-gg + theme(legend.position="none")  
#modifier le thème  
gg<-gg +theme(panel.border = element_blank(),
                panel.background = element_rect(fill = "#FFFFFF", colour = "#FFFFFF"),
                plot.background = element_rect(fill = "#FFFFFF", colour = "#FFFFFF"), 
                panel.grid.major.y= element_blank(),
                panel.grid.major.x= element_blank(),
                panel.grid.minor = element_blank(),
                axis.line = element_blank(),
                axis.ticks.y = element_blank(),
                axis.ticks.x = element_blank())  
#ajouter les titres  gg<-gg + labs(title= "Doctorants Américains: classement des domaines d'études de 1987 à 2017",
                subtitle="Les sciences de la vie est le domaine d'étude préféré des 10 dernières années",
                y=NULL,
                 x=NULL)  
gg<-gg + theme(plot.title    = element_text(hjust=0,size=25, color="#8B8B8B"),
                 plot.subtitle = element_text(hjust=0,size=18, color="#8B8B8B"),
                 axis.title.y  = element_blank(),
                 axis.title.x  = element_blank(),
                 axis.text.y   = element_blank(),
                 axis.text.x   = element_text(hjust=0.5, size=10, color="#8B8B8B"))

Pour visualiser l’évolution du nombre d’étudiants aux différents sujets d’étude, j’ai choisi présenter les comparaisons sous forme de rang. Donc, pour chaque année, le sujet avec le moins d’étudiant a le rang 1 et celui avec le plus d’étudiant a le rang 8. En mettant les années côte à côte, on voit l’évolution du classement pour chaque sujet dans le temps. Les siences de la vie est le domaine d’étude avec la plus grande variation dans le temps: avant 2002, il se situait dans les sujets les moins populaires et depuis 2007 c’est le sujet avec le plus d’étudiant. Voici ce que ça donne:

rank fra final

Publicités

Laisser un commentaire

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.