TidyTuesday | 2019W7: USDA Dépenses fédérales en recherche et développement

Pour ma troisème participation au #TidyTuesday, nous avons accès aux données des dépenses fédérales en recherche et développement pour les différents département aux États Unis. Ce ne sera surement pas une surprise si je vous dit que mon choix c’est arrêté sur le USDA (Département d’agricutlure des États Unis). Les données brutes sont disponibles sur le site de l’AAAS.

IMPORTER

usda<- read_excel("USDA.xlsx",
                    sheet="Data",
                    range="A3:T12", #conserver seulement les données pertinentes
                    col_names = TRUE, #identifier la première ligne comme nom de colonne
                    col_types = NULL)

PRÉPARER

usda_depenses%
  rename(departement="Fiscal Years", "2018"="2018**")%>% #corriger les noms de colonnes
  filter(!is.na(departement), !departement=="USDA Total R&D")%>% #retirer les lignes vides et la somme
  mutate(departement=ifelse(departement=="AFRI", "National Institute of Food and Agriculture", departement))%>% #modifier le nom
  mutate(departement=str_replace(departement,"\\*", ""))  %>% #retirer *
  mutate(departement=as.factor(departement)) %>% #additionner les deux ligne pour NIFA
  group_by(departement)%>%
  summarise_all(sum, na.rm=TRUE)%>%
  mutate_at(vars("2000":"2018"), funs(./sum(.)*100)) %>% #générer des pourcentages
  gather(key=annee, value=valeur, -departement) #changer la mise en page pour analyse

EXPLORER

str(usda_depenses)
## Classes 'tbl_df', 'tbl' and 'data.frame':    95 obs. of  3 variables:
##  $ departement: Factor w/ 5 levels "Agricultural Research Service",..: 1 2 3 4 5 1 2 3 4 5 ...
##  $ annee      : chr  "2000" "2000" "2000" "2000" ...
##  $ valeur     : num  51.2 2.45 3.61 12.11 30.64 ...
summary(usda_depenses)
##                                      departement    annee          
##  Agricultural Research Service             :19   Length:95         
##  All Other                                 :19   Class :character  
##  Economic Research Service                 :19   Mode  :character  
##  Forest Service                            :19                     
##  National Institute of Food and Agriculture:19                     
##                                                                    
##      valeur      
##  Min.   : 1.330  
##  1st Qu.: 2.939  
##  Median :12.809  
##  Mean   :20.000  
##  3rd Qu.:39.306  
##  Max.   :57.529

Nous disposons donc de 19 années (2000 à 2018) de données pour lesquels les 5 catégories des dépenses fédérales en recherche et développement sont disponibles. Ancune donnée n’est manquante.

VISUALISER

#Ordonner les départements pour l'affichage dans le graphique
usda_depenses$departement <- factor(usda_depenses$departement,levels=c("Agricultural Research Service","National Institute of Food and Agriculture","Forest Service","Economic Research Service","All Other"))

#Graphique
gg<-ggplot(data=usda_depenses, aes(x=annee, y=valeur, group=departement))
gg<-gg + geom_line()
gg<-gg + geom_area(aes(fill=departement))
gg<-gg + scale_fill_manual(values = c("#1E6583", "#4B93B1", "#73ABC2", "#AFCFDC", "#D7E7ED"))
#ajuster les axes
gg<-gg + facet_grid(~departement)
gg<-gg + scale_y_continuous(breaks=seq(0,60,10), limits = c(0, 60))
gg<-gg + scale_x_discrete(breaks=c(2000,2018))
#modifier la légende
gg<-gg + theme(legend.position="none")
#modifier le thème
gg<-gg +theme(panel.border = element_blank(),
              panel.background = element_rect(fill = "#FFFFFF", colour = "#FFFFFF"),
              plot.background = element_rect(fill = "#FFFFFF", colour = "#FFFFFF"),
              panel.grid.major.y= element_blank(),
              panel.grid.major.x= element_blank(),
              panel.grid.minor = element_blank(),
              axis.line = element_line(size = 0.5, linetype = "solid", colour = "#8B8B8B"),
              axis.ticks.y = element_line(size=0.5, linetype="solid", colour = "#8B8B8B"),
              axis.ticks.x = element_blank())
#ajouter les titres
gg<-gg + labs(subtitle="USDA: Évolution des dépenses en R&D des différents départements depuis 2000",
              y="% du budget annuel")
gg<-gg + theme(plot.subtitle = element_text(hjust=0,size=20, color="#000000"),
               axis.title.y  = element_text(hjust=1,size= 10, colour = "#8B8B8B"),
               axis.title.x  = element_blank(),
               axis.text.y   = element_text(hjust=0.5,size= 10, colour = "#8B8B8B"),
               axis.text.x   = element_text(hjust=0.5,size= 6, colour = "#8B8B8B"))

 

Pour visualiser les données de chaque catégorie et les comparer entre elles, j’ai choisi de présenter les données avec des graphiques linéaires et des aires sous les courbes en les plaçant côte à côte. Pour faciliter la comparaison entre les années, j’ai choisi de présenter le budget de chaque catégorie en pourcentage par rapport au budget total comme on sait que celui-ci change à chaque année.

 

 

Sur le graphique, on voit bien l’évolution et l’importance dans le budget de chacune des catégories, mais la visualisation manque d’un petit quelque chose… peut-être attriblable au fait qu’il y a beaucoup d’information. C’est pourquoi j’ai choisi de pousser la visualisation un peu plus loin et de me concentrer sur la comparaison entre les deux postes de dépenses les plus importants. Voici ce que ca donne:

#Sélectionner 2 départements pour second graphique:
usda_max_dep%
  filter(departement %in% c("Agricultural Research Service","National Institute of Food and Agriculture"))%>%
  arrange(annee, departement)

#Générer un sous ensemble de données pour faire afficher en couleur la zone entre les deux graphiques
usda_max_dep_rebon%
  group_by(annee)%>%
    mutate(max = max(valeur),
           min = min(valeur))

#Graphique
gg<-ggplot(data=usda_max_dep, aes(x=annee, y=valeur, group=departement, color=departement))
#ajouter la couleur entre les deux lignes
gg<-gg + geom_ribbon(data=usda_max_dep_rebon,aes(x = annee, ymin= min, ymax = max), fill= "#8B8B8B", alpha = 0.4)
gg<-gg + geom_line(size=2)
gg<-gg + scale_color_manual(values = c("#679436", "#427AA1"))
#ajuster les axes
gg<-gg + scale_y_continuous(breaks=seq(0,70,10), limits = c(0, 70))
gg<-gg + scale_x_discrete(breaks=c(2000,2018))
#modifier la légende
gg<-gg + theme(legend.position="none")
#modifier le thème
gg<-gg +theme(panel.border = element_blank(),
              panel.background = element_rect(fill = "#FFFFFF", colour = "#FFFFFF"),
              plot.background = element_rect(fill = "#FFFFFF", colour = "#FFFFFF"),
              panel.grid.major.y= element_blank(),
              panel.grid.major.x= element_blank(),
              panel.grid.minor = element_blank(),
              axis.line = element_blank(),
              axis.ticks.y = element_blank(),
              axis.ticks.x = element_blank())
#ajouter les titres
gg<-gg + labs(subtitle="USDA: comment on évolué les dépenses en R&D depuis 2000?",
              y="% du budget annuel")
gg<-gg + theme(plot.subtitle = element_text(hjust=0,size=16, color="#000000"),
               axis.title.y  = element_text(hjust=0.60,size= 10, colour = "#8B8B8B"),
               axis.title.x  = element_blank(),
               axis.text.y   = element_blank(),
               axis.text.x   = element_text(hjust=0.5,size= 10, colour = "#8B8B8B"))
#ajouter des étiquettes de données
gg<-gg + annotate(geom="text", x=1,y=54, label="51%", color="#679436", size=4, hjust=0.5, fontface="bold")
gg<-gg + annotate(geom="text", x=1,y=27, label="31%", color="#427AA1", size=4, hjust=0.5, fontface="bold")
gg<-gg + annotate(geom="text", x=19,y=47, label="43%", color="#679436", size=4, hjust=0.5, fontface="bold")
gg<-gg + annotate(geom="text", x=19,y=39, label="43%", color="#427AA1", size=4, hjust=0.5, fontface="bold")
gg<-gg + annotate(geom="text", x=3,y=60, label="ARS", color="#679436", size=4, hjust=0.5, fontface="bold")
gg<-gg + annotate(geom="text", x=3,y=22, label="NIFA", color="#427AA1", size=4, hjust=0.5, fontface="bold")

SWD Challenge| 2019M2: Visualiser la variance dans les données

Pour ce deuxième défi, Cole nous a proposé de visualiser la variance dans les données. En voyant son analyse sur le climat de sa région, j’ai instantanément voulu faire le même type d’analyse pour Québec parce que j’ai l’impression que l’hiver 2019 est l’un des plus froid que nous avons eu ici depuis longtemps.

Sur le site d’Environnement Canada, j’ai pu trouver les données historique de la station météo de Québec, Québec. Avec ces données, j’ai pu constater que les températures du mois de janvier 2019 ont variées entre 2.1°C  et -30.9°C pour en moyenne se situer à -13.9°C. Pour vous donner un point de comparaison, les normales climatiques (1981 à 2010) pour cette station en janvier sont de -12.2°C avec des températures variant entre -7.1°C et -17.3°C. La température moyenne de janvier 2019 n’est pas très éloignée de la normale historique et on constate aussi que les écarts de températures ont été plus grand que la normale, mais ça ne traduit pas bien mon impression qui a fait frette ici en janvier…

Pour valider mon impression sur notre mois de janvier glacial, j’ai voulu tester un type de graphique communément apellé violin plot pour mettre côte à côte les mois de janvier des années précédentes.

Ce type de graphique nous permet non seulement de bien voir la variance des tempétaures à chaque année mais aussi de faire afficher la médiane (ligne en gris qui traverse chaque graphique) pour bien comparer les années entres elles. Ce graphique m’a permis de constater que oui y a fait frette en janvier à Québec! En fait, pour la moitié des jours de janvier les températures ont été inférieures à -14°C. Les derniers mois de janvier avec autant de journées avec des températures aussi froide remontent à 2014 et 2015. Par contre, janvier 2019 n’est pas le mois où les températures ont le plus variées, les mois de janvier de 2013, 2014 et 2018 ont vu des plus grand écarts entre les températures minimales et maximales.

Voilà!

MakeoverMonday | 2019W4: Utilisation de l’électricité au 10 rue Downing en 2017

Quatrième semaine pour #MakeoverMonday.

Voici le graphique original et l’article:

Ce qui fonctionne:

  • Titre bien utilisé
  • Graphique interactif qui permet au lecteur de fouiller pour voir plus de données
  • Bonne utilisation des couleurs pour identifier les périodes de haute et de faible consommation d’énergie
  • 3 paramètres bien mis en valeur dans les encadrés

Ce qui ne fonctionne pas:

  • Pour moi, il manque un point de comparaison. On voit bien que la consommation d’énergie varie en fonction des heures de la journée, mais il est difficile d’extraire une tendance ou de discerner si ce bâtiment est plus ou moins efficace qu’un autre.

Mes objectifs pour cette visualisation:

  • Faire un parallèle entre les données de consommation d’électricité et la température moyenne de la région pour voir si la météo a une influence sur la consommation d’énergie de ce bâtiment.
  • Garder ça clair et simple!

Voici mon graphique:

utilisaiton énergie final rev

Mettre en parallèle la consommation d’énergie avec la variation de température absolue à partir de 8 degrés permet de bien faire ressortir la tendance dans les données de 2017: plus la température s’éloigne de 8 degrés, plus il y a consommation d’énergie.

Voilà!

L’irrigation des patates du Québec

Dans son dernier programme Prime-Vert le MAPAQ a inclus une mesure pour soutenir les producteurs dans leur gestion de l’eau d’irrigation. Il y aurait près de 6 000 exploitations au Québec qui produisent des cultures qui auraient avantage à être irriguées. Toutefois, peu d’entre eux font une gestion optimale de leur eau d’irrigation. Ce programme a donc été mis en place pour aider les exploitations agricoles à optimiser l’usage de l’eau d’irrigation par l’acquisition d’équipements spécialisés et le conseil technique.

Je me suis interrogé à savoir à quoi ressemble les besoins en irrigation dans les différentes régions du Québec. La principale culture irriguée au Québec est la pomme de terre. Donc, en considérant la moyenne des besoins des cultivars hâtifs et tardifs des pommes de terres et l’historique des 5 dernières années de Agrométéo pour les précipitations et l’évapotranspiration de 7 stations météo, je suis arrivée a déterminer les besoins moyen en eau par région.

test irrigation final

Les conditions météorologiques des 5 dernières années, nous indique que, en moyenne, à St-Bernard et à St-Léonard-de-Portneuf les précipitations sont suffisantes pour combler les besoins de la culture. Toutefois, pour la station de St-Bernard, les valeurs varient d’un besoin en eau de 64 mm en 2018 à un surplus en eau de 48 mm en 2016.  En Montérégie, en Estrie et dans le centre du Québec, il y a un déficit d’environ 60 mm à chaque année pour combler les besoins en eau de la culture. Dans le Bas St-Laurent, ce déficit atteint 110 mm.

En conclusion, la décision d’irriguer les cultures doit tenir compte d’une multitude de facteurs et l’historique des besoins en eau en fait certainement partie. Pour plus de détails sur le programme de subvention, consulter le site du MAPAQ ou votre agronome.