ADV29_TRANSCRIPT – Faire les calculs


TEASER: Quand on prépare des visuels, c’est important de s’assurer de les présenter de manière à ce qu’ils soient facilement compris par le lecteur et des fois, ça implique de faire nos devoirs et de sortit la calculatrice…

INTRODUCTION: Ici Johanie Fournier et bienvenue à un nouvel épisode d’Agriculture, Données et Visualisation. Le podcast où je vous apporte avec moi dans le processus de traitement et de visualisation de données pour apprendre à présenter vos propres données de la manière la plus efficace possible. Sans plus tarder, voici l’épisode de cette semaine.

Bonjour et bienvenue dans ce 29e épisode. J’espère que vous allez bien! Aujourd’hui, on regarde les montants des prêts étudiants aux États-Unis.

Les données de cette semaine proviennent du Department of Education. Le lien pour y avoir accès se trouve dans mon article de blogue au johaniefournier.com/tyt2019w48

Donc, cette semaine on dispose d’une base de données de 291 lignes d’information. Chacune de ces lignes nous renseigne sur l’agence responsable du prêt, l’année et le trimestre (qui sont données dans deux colonnes différentes), le montant de la dette et le montant total des remboursements. On dispose aussi de la composition de ces remboursements soit les montants donnés volontairement, ceux consolidés, ceux réhabilités et les saisies de salaires.

Alors, après avoir regardé ces données je me suis fixé comme objectif de présenter l’évolution de la dette et l’évolution des remboursements. J’étais curieuse de visualiser la relation entre les deux.

CHOIX DU TYPE DE VIZ: J’ai choisi de présenter ces données avec deux histogrammes. Même si les données sont en fait une évolution dans le temps et que j’aurais pu utiliser des courbes, je voulais me servir des barres des histogrammes pour mettre de l’emphase sur la différence entre les valeurs des prêts et celles des remboursements.

PRÉSENTER LE GRAPHIQUE: Je ne veux pas trop vous expliquer maintenant le processus de réflexion qui a mené à la création de mon graphique parce que c’est l’objectif de la deuxième partie de l’épisode. Par contre, je peux vous présenter maintenant les éléments esthétiques qui composent mon graphique. J’ai gardé les mêmes pour faciliter les comparaisons entre les différentes versions que j’ai créé cette semaine.

Donc, j’ai choisi de présenter mes deux séries de données (prêts et remboursements) avec des histogrammes. Les prêts sont présentés en gris et les remboursements sont en orangé.

J’ai utilisé le titre à la fois pour émettre ma conclusion (les prêts augmentent, mais pas les remboursements) et pour identifier ma légende. C’est un petit truc que je trouve particulièrement intéressant parce que ça facilite grandement la vie au lecteur et ça uniformise le visuel.

Mon sous-titre est explicatif, je viens apporter quelques détails concentrant les variations et j’ai aussi ajouté des étiquettes de données seulement pour la série de valeur qui concerne les remboursements. Comme les valeurs des remboursements sont plus petites, je voulais mettre l’emphase là-dessus. Pour l’autre série de données, en un coup d’oeil, on voit que le montant des prêts à augmenté de 50% entre 2015 et 2018…

ADD: Hey! tu travailles avec R et ça t’intéresse de voir le code que j’ai utilisé pour nettoyer et visualiser mes données? Va voir dans les notes de cet épisode, j’ai mis un lien vers l’article de blogue dans lequel tu pourras trouver tous les détails dont tu as besoin. Tant qu’à être rendu sur mon site, prend aussi le temps d’aller voir l’épisode 19, c’est un épisode spécial que j’ai créé pour la journée internationale du Podcast et tu pourras y retrouver un lien pour télécharger un outil gratuit: faire passer le message. Faire passer le message, c’est en fait un petit guide qui te donne les grandes lignes points à comprendre et des étapes à considérer pour créer des visuels qui vont efficacement faire passer ton message à ton audience.

REVOIR LES RÈGLES D’OR DE LA DATAVIZ: Alors, comme je vous disais, mon objectif cette semaine était de visualiser d’une part l’évolution du montant des prêts et des remboursements. On a donc deux variables à visualiser. C’est un bel exemple cette semaine qui me permet d’expliquer qu’avant de faire notre visuel final, il faut prendre le temps de faire nos calculs pour s’assurer qu’on présenter notre histoire le la manière la plus efficace possible pour permettre au lecteur de bien comprendre. Alors, avec les données de cette semaine, mon premier réflexe a été de faire un pourcentage avec ces deux montants pour obtenir le pourcentage des remboursements sur la valeur totale des prêts pour un trimestre en particulier.

En mettant ces valeurs dans un graphique, on voit clairement que le pourcentage des valeurs remboursées diminue. Et si on ne suit pas convenablement nos règles de la dataviz, on peut se retrouver avec un graphique qui ne dit pas toute la vérité. En fait, j’ai fait le saut, parce que les paramètres de base de R quand on crée n’importe quel type de graphique sont d’ajuster les valeurs des axes en fonction de ce qui a à présenter. Donc, si on a des valeurs qui varient de 2 à 3.5%, R nous montre un axe des y tronqué en fonction de ces valeurs. Et le graphique qu’on obtient fait peur! et surtout ça mène à une mauvaise interprétation. Oui c’est vrai que la valeur des remboursements diminue, mais de 0.8% pas de 80% comme peut le suggérer un graphique mal fait…

Donc, visualiser les remboursements en pourcentage, c’est bien si on le fait avec un visuel qui est bien proportionné, mais ce n’est pas suffisant pour moi. Si je présente seulement cette série de donnée, on ne sait pas si la variation vient d’une réelle diminution des remboursements ou d’une augmentation des valeurs des prêts. Pour mieux comprendre d’où vient la variation, j’ai fait deux autres graphiques.

Dans le premier, j’ai présenté les valeurs des remboursements en M de dollars. On peut voir que 1.7M dans le dernier trimestre de 2015 à 2.6M à la fin de 2018. Donc, on ne constate pas une diminution, mais bien une augmentation de la valeur des remboursements!!! Qu’est-ce qui fait que, quand on présente les valeurs en pourcentage les remboursements diminuent dans le temps? Et bien, comme la valeur nette des remboursements augmente, ça ne peut être qu’à cause de la valeur des prêts étudiants. Dans un pourcentage, la variation peut venir du numérateur ou du dénominateur et même dans certains cas des deux paramètres. Donc, utiliser des pourcentages pour présenter des données c’est bien, ça permet de simplifier grandement les choses dans la majorité des cas, mais avant de présenter ça il faut s’assurer d’avoir fait nos devoirs et de comprendre d’où exactement vient la variation. D’un pour pouvoir l’expliquer lorsqu’on présente les résultats et de deux pour s’assure de justement bien présenter les résultats.

J’étais dans l’erreur avec ma courbe qui présentait l’évolution de la valeur des remboursements en pourcentage sur la valeur totale des prêts. Ce n’est pas que le calcul soit mauvais, mais ce graphique ne répond pas clairement à mon objectif, et surtout, il manque des éléments dans ce graphique pour que le lecteur comprenne l’entièreté des éléments qu’il y a à retenir…

Dans le deuxième, j’ai présenté uniquement la valeur des prêts étudiants. J’ai utilisé les mêmes éléments esthétiques pour créer un graphique qui montre seulement l’évolution des prêts étudiants en M de dollars. On voit que la valeur passe de 60M en 2015 à près 120M en 2018… cette fois, la conclusion est assez claire, la variation vient de l’augmentation dans la valeur des prêts. Donc, pour que notre lecteur comprenne bien, il faut mettre de l’avant le fait que la valeur des prêts augmente drastiquement et que la valeur des remboursements reste quasi inchangée dans le temps.

Alors, je vous entends penser d’ici… c’est facile, on met les deux séries de valeur dans le même graphique et le tour est joué!! Eh ben, désolé de vous décevoir, mais c’est pas si simple que ça…. ce n’est pas simple parce qu’on se retrouve dans une situation ou les valeurs des deux séries de données sont très différentes. Si la variation avant été plus petite entre les deux séries, on aurait pu facilement présenter tout ça dans le même graphique et garder l’échelle en M de dollars et ça aurait bien sorti, mais là on se trouve avec des valeurs qui vont de 1.5M 120M à mettre dans un même graphique et par dessus tout ça on veut que le lecteur comprenne en un seul coup d’oeil tout ce qu’on a compris avec notre travail minutieux des dernières heures et 4 derniers graphiques….

La solution? Les pourcentages!! Ce n’est pas mauvais des pourcentages, faut juste bien savoir les utiliser…Alors, j’ai repris ma série de données qui présenter les valeurs des remboursements en pourcentage de la valeur totale des prêts pour chaque trimestre. C’est un bon point de départ. La seule chose qu’il faut ajouter à ça c’est la notion que c’est la valeur des prêts qui augmente. J’ai donc choisi de présenter la valeur des prêts, mais en pourcentage de diminution par rapport au dernier trimestre de 2018. Je me retrouve donc avec une série de données et une échelle qui montre que la valeur des remboursements varie peu et une série de données qui montre du premier coup d’oeil que la valeur des prêts a augmenté drastiquement depuis le dernier trimestre de 2015. Bingo!! On ajouter un bon titre et on bon sous-titre à ça et on est prêt à aller expliquer nos conclusions.

CONCLUSION: Voilà, ça fait le tour de ce que je voulais présenter aujourd’hui. Si jamais tu as des commentaires ou des questions, n’hésite pas à me contacter. Tu peux aller au johaniefournier.com/contact pour m’écrire directement ou aller dans la section commentaire de l’épisode pour poser tes questions, ça va me faire plaisir de te répondre. Alors, j’espère que cet épisode a été utile et que tu as appris quelque chose, merci de m’avoir écouté et on se dit à la semaine prochaine!

Quelques liens utiles:

Publicités

Laisser un commentaire

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.