TidyTuesday | 2019W5: Portrait de la production laitière aux États-Unis

Quoi de mieux que des données du domaine agricole pour me lancer dans les #TidyTuesday! Pour la qinquième semaine, les données à travailler portent sur la production laitière des vaches et sur la consommation de produits laitiers aux États-Unis.

Voici la source, l’article et le répertoire github.

L’objectif des #TidyTuesday est de permettre à la communauté #RStats de pratiquer les techniques de traitement, de nettoyage et de visualidation de données ainsi que de parfaire les aptitudes à tirer des conclusions.

EXPLORATION INITIALE

Après avoir importé et pris connaissance des différentes bases de données fournies, l’agronome en moi est curieuse de voir à quoi ressemble l’évolution de la production laitière des vaches aux États-Unis. J’ai récemment fait un travail similaire pour la production laitière québeçoise, ce sera intéressant de voir comment est-ce que ça de compare.

summary(vaches)
##       year      avg_milk_cow_number  milk_per_cow   milk_production_lbs
##  Min.   :1980   Min.   : 9010000    Min.   :11891   Min.   :1.284e+11  
##  1st Qu.:1988   1st Qu.: 9171000    1st Qu.:14254   1st Qu.:1.445e+11  
##  Median :1997   Median : 9314000    Median :16871   Median :1.561e+11  
##  Mean   :1997   Mean   : 9695743    Mean   :16962   Mean   :1.626e+11  
##  3rd Qu.:2006   3rd Qu.:10135000    3rd Qu.:19722   3rd Qu.:1.794e+11  
##  Max.   :2014   Max.   :11059000    Max.   :22259   Max.   :2.061e+11  
##  avg_price_milk    dairy_ration     milk_feed_price_ratio
##  Min.   :0.1210   Min.   :0.03445   Min.   :1.520        
##  1st Qu.:0.1275   1st Qu.:0.04550   1st Qu.:2.540        
##  Median :0.1360   Median :0.04914   Median :2.700        
##  Mean   :0.1462   Mean   :0.05784   Mean   :2.697        
##  3rd Qu.:0.1530   3rd Qu.:0.05886   3rd Qu.:3.030        
##  Max.   :0.2400   Max.   :0.12150   Max.   :3.640        
##  milk_cow_cost_per_animal milk_volume_to_buy_cow_in_lbs alfalfa_hay_price
##  Min.   : 820             Min.   : 6560                 Min.   : 64.64   
##  1st Qu.:1100             1st Qu.: 7574                 1st Qu.: 79.22   
##  Median :1190             Median : 8626                 Median : 94.03   
##  Mean   :1283             Mean   : 8848                 Mean   :104.59   
##  3rd Qu.:1425             3rd Qu.: 9697                 3rd Qu.:109.20   
##  Max.   :1950             Max.   :13411                 Max.   :206.08   
##  slaughter_cow_price
##  Min.   :0.3300     
##  1st Qu.:0.3988     
##  Median :0.4503     
##  Mean   :0.4875     
##  3rd Qu.:0.5147     
##  Max.   :1.0204

Nous disposons donc de 34 années de 1980 à 2014. Pour chaque année, le nombre moyen de vaches aux États-Unis est donné et varient entre 9 et 11 millions. La moyenne de lait produit par vache est aussi présente et varie entre 11 891 et 22 259 lbs de lait par vache par année. C’est un point de départ intéressant.

Années:

str(vaches$year)
##  num [1:35] 1980 1981 1982 1983 1984 ...
Hmisc::describe(vaches$year)
## vaches$year 
##        n  missing distinct     Info     Mean      Gmd      .05      .10 
##       35        0       35        1     1997       12     1982     1983 
##      .25      .50      .75      .90      .95 
##     1988     1997     2006     2011     2012 
## 
## lowest : 1980 1981 1982 1983 1984, highest: 2010 2011 2012 2013 2014

Les années sont en format numérique, les 34 années séparant 1980 et 2014 sont présentes, donc aucune données manquante à gérer.

Production de lait:

str(vaches$milk_per_cow)
##  int [1:35] 11891 12183 12306 12622 12541 13024 13285 13819 14185 14323 ...
Hmisc::describe(vaches$milk_per_cow)
## vaches$milk_per_cow 
##        n  missing distinct     Info     Mean      Gmd      .05      .10 
##       35        0       35        1    16962     3756    12269    12573 
##      .25      .50      .75      .90      .95 
##    14254    16871    19722    21257    21750 
## 
## lowest : 11891 12183 12306 12541 12622, highest: 21142 21334 21722 21816 22259

Les données de production laitières sont classées comme des données quantitatives discrètes (integer), on va devoir changer le format pour travailler avec des valeurs quantitative continue (numeric). Les valeurs de production de lait sont présentes pour les 34 années, donc aucune donnée manquante à gérer. Aussi, ces valeurs sont en lbs/vache, au Québec on parle de kg de lait produit par vache par année. Je vais faire la conversion pour des fins de comparaison.

 

plt1 % select(milk_per_cow) %>%
  ggplot(aes(x="", y = milk_per_cow)) +
  geom_boxplot(fill = "#D8EADF", color = "black") +
  coord_flip() +
  theme_classic() +
  xlab("") +
  ylab("Lait par vache")+
  theme(axis.text.y=element_blank(),
        axis.ticks.y=element_blank())

plt2 % select(milk_per_cow) %>%
  ggplot() +
   geom_histogram(aes(x = milk_per_cow, y = (..count..)/sum(..count..)),
                       position = "identity", binwidth = 1500,
                       fill = "#D8EADF", color = "black") +
   ylab("Fréquence Relative")+
   xlab("")+
  theme_classic()+
  theme(axis.text.x = element_blank())+
  theme(axis.ticks.x = element_blank())

plt2 + plt1 + plot_layout(nrow = 2, heights = c(2, 1))

La distribution des données semble normale. Aucune valeur extrème qui pourrait être considérée comme une valeur aberrante.

RANGEMENT

Cette table de donnée répond déjà au 3 grands principe de tidy data donc, pour l’analyse que je veux faire de ces données il n’y a aucun travail à faire pour cette étape.

PRÉPARATION

vaches_prep%
   mutate(milk_per_cow==(as.numeric(milk_per_cow)))%>% #changer le type de la variable
   mutate(milk_per_cow_kg=milk_per_cow/2.2)%>%  #changement des unités de lbs à kg
   select(year, milk_per_cow_kg)  #sélection des variables pour l'analyse

#validation du changement de type
str(vaches_prep$milk_per_cow_kg)
##  num [1:35] 5405 5538 5594 5737 5700 ...

VISUALISATION DES DONNÉES

ggplot(data=vaches_prep, aes(x=year, y = milk_per_cow_kg)) +
  geom_bar(stat="identity", width=0.85, fill='#FFFFFF', color='#B8B8B8') +
  scale_x_continuous(breaks=seq(1980,2014,5), limits = c(1979,2015))+
  scale_y_continuous(breaks=seq(0,12000,2000), limits = c(0,12000))+
  labs(y="Lait (kg) par vache",
      title="Évolution de la production laitière moyenne par vache aux États-Unis",
      subtitle="Elle a plus que doublée au cours des 35 dernières années et surpassait le Québec de 1143 kg/vache en 2014!")+
  theme(plot.title = element_text(hjust=0,  size=22, color="#5D5D5D",face="bold"),
        plot.subtitle = element_text(hjust=0,  size=14, color="#004FFF",face="bold"),
        axis.title.x = element_blank(),
        axis.title.y = element_text(hjust=1,  size=12, color="#B8B8B8"),
        axis.text =  element_text(hjust=0.5,size=12, color="#B8B8B8"))+
  theme( panel.border = element_blank(),
         panel.background = element_blank(),
         panel.grid.major.y= element_blank(),
         panel.grid.major.x= element_blank(),
         panel.grid.minor = element_blank(),
         axis.line = element_line(size = 0.5, linetype = "solid", colour = "#B8B8B8"),
         axis.ticks = element_line(size=0.5, linetype="solid", colour = "#B8B8B8"))+
  annotate(geom="text", x=1980,y=5750, label="4405", color="#004FFF", size=5, hjust=0.5, fontface="bold")+
  annotate(geom="text", x=2014,y=10400, label="10118", color="#004FFF", size=5, hjust=0.5, fontface="bold")+
  annotate(geom="text", x=2015,y=8700, label="Qc", color="#000000", size=5, hjust=0, fontface="bold")+ geom_abline(intercept = -220688.7763, slope = 114.0526, size=1.3)

Mes objectifs sont de montrer l’évolution dans le temps de la production de lait par vache aux États-Unis, mettre l’enphase sur l’amélioration de la période de 35 ans de données disponibles et de comparer ces données avec la moyenne de la production laitières des vaches du Québec que j’ai obtenu suite à mon analyse récente des données de Valacta. Voici le graphique que j’obtient:

Répondre

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion /  Changer )

Photo Google

Vous commentez à l'aide de votre compte Google. Déconnexion /  Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion /  Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion /  Changer )

Connexion à %s