ADV24_TRANSCRIPT – Fancy ou pas…


TEASER: C’est bien d’être capable de créer des graphiques plus sophistiqués que les traditionnelles courbes et histrogrammes. Mais, est-ce que c’est toujours à notre avantage? La réponse: ça dépend…

INTRODUCTION: Ici Johanie Fournier et bienvenue à un nouvel épisode d’Agriculture, Données et Visualisation. Le podcast où je vous apporte avec moi dans le processus de traitement et de visualisation de données pour apprendre à présenter vos propres données de la manière la plus efficace possible. Sans plus tarder, voici l’épisode de cette semaine.

Bonjour et bienvenue dans ce 24e épisode. J’espère que vous allez bien et que vous être prêt parce qu’aujourd’hui on jase de film d’horreur.

Les données de cette semaine proviennent de IMDB et sont disponibles sur le site de Kaggle. Le lien pour les télécharger se trouve dans mon article de blogue au johaniefournier.com/tyt2019w42.

Donc, cette semaine on dispose d’une base de données qui nous liste les films d’horreur créés entre 2012 et 2017. Dans les données qui sont disponibles, on retrouve le titre du film, le genre, la date de publication, le pays dans lequel il a été publié, des évaluations, la durée, des informations sur les acteurs qui on joué dans ces films, la langue, la location du tournage et le budget de création. Comme vous pouvez le constater, il y a de quoi s’amuser.

Les données de cette semaine présentent quand même un petit défi au niveau du traitement et de l’analyse avant de pouvoir être utilisées pour créer un graphique. Je vais vous expliquer en gros ce que j’ai fait cette semaine, mais si vous voulez avoir plus de détails sur le processus d’analyse vous pouvez toujours vous référer à l’épisode de la semaine passée, donc l’épisode 23, dans lequel je donne des pistes pour aborder l’analyse de données.

Alors, après avoir regardé ces données, je me suis fixé comme objectif cette semaine de visualiser les différences dans les sommes investies pour créer ces films d’horreur être les pays. Pour y arriver, j’ai dû travailler le format de la date, les données disponibles étaient stockées sous forme de caractère. C’est la même chose pour le budget: il était stocké sous forme de caractère, mais en plus, certaines cellules de données contenaient la devise. Donc, il a fallu que je sépare la devise du montant investi et que je convertisse les montants investis pour pouvoir comparer tous ces montants entre eux.

CHOIX DU TYPE DE VIZ: Donc, pour pouvoir comparer les montants investis, j’ai initialement choisi de présenter ça avec un heat map. On va regarder en deuxième partie d’épisode quels sont les avantages et les inconvénients de ce choix et le comparer avec un type de graphique plus traditionnel, mais pour l’instant, je vous présente mon heat map.

PRÉSENTER LE GRAPHIQUE: Alors, j’ai présenté les années sur l’axe des x et les pays sur l’axe des y. Les heat map nous permettent de présenter 3 variables, ce qui est assez intéressant. Donc, j’ai présenté les sommes investies à l’intérieur du visuel en utilisant une échelle de couleur. Donc, la somme investie pour chaque combinaison année/pays est représentée par une couleur dans le rectangle qui lui correspond. Comme ma troisième variable, la somme investie, est une variable continue, j’ai choisi de représenter les petites valeurs en jaune-orange et les plus grandes valeurs en orange plutôt rouge. Avec les variables continues, c’est important de ne pas utiliser deux couleurs pour ne pas confondre l’auditoire. En fait, il faut qu’on puisse associer naturellement la couleur plus claire avec la valeur plus faible et la couleur plus foncée ou plus saturée avec la valeur la plus grande. En utilisant seulement une seule couleur, c’est beaucoup plus évident. On se poserait beaucoup plus de questions sur l’association couleur-valeur si j’avais utilisé du bleu et du vert pour créer mon heat map. Et pour ce qui est du choix des couleurs plus orangé cette semaine, et ben j’ai suivi le thème de la semaine! J’aurais mal vu utiliser mon traditionnel gris et bleu clair pour un thème comme les films d’horreur à une semaine de l’Halloween en plus! C’est pour cette raison aussi que j’ai choisi d’utiliser un fond foncé pour mon graphique, question de créer une ambiance et de respecter le thème. Ensuite, j’ai fait un rappel du rouge-orange qu’on retrouve pour la ligne des États-Unis en utilisant cette couleur pour le titre. Et je me suis permis de faire de la place entre le titre et le graphique lui-même pour ajouter un sous-titre. À mon avis le plus gros problème des heat maps c’est qu’il n’y a pas de chiffres. On voit clairement que les États-Unis on investis plus, mais on ne sait pas de combien…. Alors, j’ai voulu ajouter un peu de clareté à tout ça en incluant les sommes moyennes investies par les États-Unis et les autres pays…

ADD: Hey! tu travailles avec R et ça t’intéresse de voir le code que j’ai utilisé pour nettoyer et visualiser mes données? Va voir dans les notes de cet épisode, j’ai mis un lien vers l’article de blogue dans lequel tu pourras trouver tous les détails dont tu as besoin.

REVOIR LES RÈGLES D’OR DE LA DATAVIZ: Alors, savoir faire des heat maps c’est bien…je me souviens d’avoir travaillé très fort pour faire mon premier, c’est pas si facile que ça et ça ne s’applique pas à tous les types de données. Mais est-ce que c’est le bon type de graphique pour présenter les données de cette semaine? Pour me convaincre, j’ai créé exactement le même graphique, mais au lieu de présenter les données avec un heat map, j’ai choisi de présenter les sommes investies avec des courbes. C’est plate et ennuyeux comme type de graphique vous allez me dire…. c’est ce qu’on va voir…

Dans les notes de l’épisode, j’ai mis les liens pour voir les deux graphiques. Donc, mon heat map, dans lequel on peut voir les différences dans les sommes investies avec des couleurs et mon graphique avec des courbes dans lequel les différences dans les sommes investies sont présentées par la hauteur des courbes puisque les sommes investies sont présentées sur l’axe des y…

Les avantages du heat map: c’est visuellement attrayant, peu importe nos données, ça va toujours nous donner un pavé de couleur et on va se le dire ça attire plus l’oeil que des courbes.

Les inconvénients du heat map: Les différences sont présentées par des couleurs. On ne voir pas l’amplitude des différences. À mon avis c’est le plus gros défaut des heat maps, et la perfectionniste que je suis n’aime pas du tout ne pas pouvoir visualiser avec des chiffres l’amplitude des différences. On peut palier à ça en ajoutant un sous-titre, mais le problème reste là quand même, notre cerveau perçoit les couleurs comme des éléments différents pas comme un gradient qui va nous montrer l’amplitude des différences.

Les désavantages: des courbes. C’est plate, me direz-vous! C’est vrai que c’est le type de graphique le plus utilisé et probablement le plus usé que je connaisse. Comparer à ça même les histogrammes peuvent trouver le moyen d’être fancy si l’on y travaille un peu… par contre, je pense qu’il faut prendre en considération que ce défaut peut aussi être un avantage, si vous présentez à un public qui n’est pas à l’aise avec l’interprétation des graphiques. C’est à peu près certain qu’il vont comprendre les courbes dans trop d’effort de votre part, c’est très utilisé donc ça devient presque inné de comprendre comment ça marche…

Un autre avantage pour l’utilisation des courbes cette semaine est qu’on peut voir l’amplitude des différences entre les sommes investies par les États-Unis et celles des autres pays. Et on n’a pas besoin d’un paragraphe pour l’expliquer. En un seul coup d’oeil on comprend vite que les États-Unis sont loin devant… et on a même pas besoin dans ce cas là de se soucier de débuter l’axe des y a 0 pour bien visualiser l’amplitude des différences, ça se fait tout seul…

Alors, quel le meilleur type de graphique pour cette semaine? Heat map ou courbe? À mon avis, ça dépend… ça dépend de l’objectif à lequel le graphique doit répondre. Si, c’est pour présenter sur un blogue, je pense que l’avantage d’attirer l’oeil du heat map peut nous être utile parce que l’objectif ici serait d’attirer les lecteurs vers notre blogue pour ensuite leur raconter quelque chose… Si je devais présenter ces données à un comité décisionnel quelconque et que des décisions importantes devaient être prises suite à la présentation de mes résultats. Je choisirais des courbes, c’est moins flachy, mais mon objectif serait de présenter les données de la manière la plus claire possible. Donc je voudrais m’assurer que le type de graphique que je choisis n’exclut pas personne, dans le sens où je ne m’attends pas que mon auditoire ait des connaissances particulières ou soit à l’aise avec les types des graphiques plus complexes et je voudrais surtout que les résultats sautent aux yeux. Comme ça, si je n’ai pas l’attention de tous pendant toute ma présentation, je sais que la même conclusion sera comprise par tout le monde parce que c’est plus qu’évident.

Donc en résumé, doit-on choisir de créer des graphiques plus sophistiqués ou rester dans le traditionnel avec les courbes et les histogrammes? Je pense que ça dépend… ça dépend du contexte, de l’objectif et surtout de l’audience. Dans un contexte d’entreprise ou d’enseignement, il faut absolument éviter de choisir un type de graphique qui ne nous permet pas d’atteindre notre objectif principal qui est de bien démontrer la conclusion, mais surtout de bien démontrer qu’on maitrise le sujet qu’on présente. Y a rien de pire que de faire une présentation officielle et de voir les directeurs se creuser la tête pour essayer de comprendre ou on veut en venir avec notre beau graphique ben fancy mais pas très pratique pour répondre à leurs questions. Il y a des endroits tout désigné pour démontrer nos compétences en créations de design plus complexe, un blogue par exemple, mais dans un contexte d’entreprise, les compétences qu’on doit avant tout mettre de l’avant sont celle qu’on a des données qu’on présente. On gagne plus de crédibilité à démontrer les résultats clairs avec des courbes tout en répondre aux questions pour démontrer qu’on maitrise bien les données qu’on n’en gagnera jamais à compliquer la vie aux directeurs en leur présentant même le plus flachy des un heat map.

CONCLUSION: Voilà, ça fait le tour de ce que je voulais présenter aujourd’hui. Si jamais tu as des commentaires ou des questions, n’hésite pas à me contacter. Tu peux aller au johaniefournier.com/contact pour m’écrire directement ou aller dans la section commentaire de l’épisode pour poser tes questions, ça va me faire plaisir de te répondre. Alors, j’espère que cet épisode a été utile et que tu as appris quelque chose, merci de m’avoir écouté et on se dit à la semaine prochaine!

Tu as aimé le contenu de cet épisode? Il est temps d’aller écrire une évaluation sur iTunes ou sur ta plateforme préférée et de t’abonner à mon podcast pour être avisé lors de la sortie du prochain épisode. Bonne semaine et amuse-toi bien à visualiser tes données!

Quelques liens utiles:


Publicités

Une réflexion sur “ADV24_TRANSCRIPT – Fancy ou pas…

  1. Pingback: ADV24 - Fancy ou pas… | Johanie Fournier, agr.

Laisser un commentaire

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.