ADV22_TRANSCRIPT – Simplifier les comparaisons

TEASER: Comment fait-on pour comparer deux éléments différents pour deux catégories différentes donc 4 éléments différents en tout? Et, en plus, s’assurer de le faire d’une manière qui facilite la vie au lecteur, parce qu’on veut qu’il comprenne quelque chose…C’est ce qu’on regarde aujourd’hui.

INTRODUCTION: Ici Johanie Fournier et bienvenue à un nouvel épisode d’Agriculture, Données et Visualisation. Le podcast où je vous apporte avec moi dans le processus de traitement et de visualisation de données pour apprendre à présenter vos propres données de la manière la plus efficace possible. Sans plus tarder, voici l’épisode de cette semaine.

Bonjour et bienvenue dans ce 22e épisode. J’espère que vous allez bien et que vous être bien reposé par ce qu’aujourd’hui on regarde les résultats des performances des athlètes de la fédération internationale de force athlétique.

Les données de cette semaine sont disponibles sur le site de Open Powerlifting. Le lien pour les télécharger se trouve dans mon article de blogue au johaniefournier.com/tyt2019-41.

Les données mises à notre disposition pour ce Tidytuesday sont un petit sous-ensemble des données limitées aux événements IPF (International Powerlifting Federation). L’ensemble complet de données avec beaucoup plus de colonnes et d’autres événements peut être trouvé sous forme de fichier directement sur le site de Open Powerlifting.

Alors, on dispose d’une base de données qui contient 41152 résultats de performance d’athlète. On ne pourra pas utiliser toutes ces 41152 lignes de données parce qu’il y a des valeurs manquantes dans la base de données, mais ça vous donne une petite idée de notre terrain de jeu…On dispose de plusieurs variables intéressantes, mais j’ai décidé de me concentrer uniquement sur le sexe, qui est une variable catégorique identifiée par M pour homme (men en anglais) et F pour femme (female en anglais). On dispose aussi de l’âge de l’athlète et d’une variable qui nous donne une catégorie d’âge, donc une variable discrète qui identifie des groupes d’âge entre 5 et 99 ans par tranche de 4 ans. J’ai retiré la catégorie 5-12, parce qu’il y avait seulement des données disponibles pour les femmes et en plus c’était une valeur aberrante. De toute façon, ça ne change absolument rien pour l’objectif que j’ai en tête cette semaine. Dans la base de données, on dispose aussi du poids de l’athlète en kg et les résultats de ses performances pour 3 épreuves principales de soulevé de poids. Je vous sauve de ma piètre explication de ses 3 épreuves, je vais juste vous mentionner que j’ai choisi de me concentrer sur l’épreuve du deadlift donc, le soulevé de terre, simplement parce que je pense que c’est l’épreuve qui est la plus impressionnante et surement aussi la plus exigeante sur les articulations. Ces athlètes ont toute mon admiration, jamais je ne serai capable de lever des poids comme ça…

Après avoir regardé brièvement ces données, je me suis fixé comme objectif cette semaine visualiser la relation entre le poids de l’athlète et le poids que cet athlète peut soulever à l’épreuve du deadlift en fonction de l’âge. Je veux aussi faire cette comparaison pour les hommes et les femmes. Donc 2 poids (athlète et soulevé) avec 2 sexes, vous venez de comprendre d’où viennent mes 4 éléments à comparer…

Comme pour les semaines précédentes, je n’ai pas cette semaine de contraintes d’audience ou de format de visuel.

Les données ne présentent pas un défi cette semaine, parce qu’il n’y a vraiment aucune transformation ou conversion qui doit être faite pour les utiliser. La seule manipulation que j’ai faite a été de calculer la moyenne et l’écart-type des poids de mes 2 catégories par sexe et classe d’âge et de m’assurer que ces données sont organisées dans la table pour être utilisable pour créer un graphique avec R.

CHOIX DU TYPE DE VIZ: Donc, j’ai créé quelques versions cette semaine, mais dans mes 3 versions, j’ai choisi d’identifier mes moyennes avec des points et d’utiliser les traditionnels traits pour identifier les écarts-types. C’est une façon parmi tant d’autres de montrer des tendances, et quand il y a beaucoup de points de données, je pense que cette méthode à me mérite d’être clair. On ne se perd pas dans un nuage de points et on dispose d’un visuel qui identifie plus clairement la moyenne et l’écart-type comparativement à des courbes de tendances. De toute façon, ça n’aurait pas été approprié de présenter des courbes avec les données de cette semaine, parce que l’intervalle de nos catégories sur l’axe des x n’est pas constant.

PRÉSENTER LE GRAPHIQUE: Alors, le visuel principal que j’ai crée pour le Tidytuesday de la semaine présente 2 séries de données. Une pour les hommes que j’ai identifiée en orange et une pour les femmes identifiée en mauve. Chaque point représente la moyenne du ratio poids soulevé/poids corporel pour la catégorie d’âge. Je vais vous expliquer toute la réflexion qui a mené à l’utilisation de ce ratio en deuxième partie d’épisode. La conclusion intéressante que j’ai pu constater en créant les autres versions de mon graphique est que la capacité des femmes à soulever des poids diminue moins rapidement que celles des hommes avec l’âge. C’est donc ce que j’ai mis de l’avant dans mon titre. En sous-titre, j’ai expliqué un peu le fameux ratio, parce que c’est un concept qui peut ne pas être évident pour tout le monde et j’ai aussi expliqué la conclusion. Pour mettre encore plus de l’avant ma conclusion, j’ai utilisé des zones d’ombres grises pour les catégories d’âge pour lesquels les femmes ont particulièrement bien performé comparativement aux hommes, donc que la diminution du ratio est moins grande pour les femmes que pour les hommes. Par contre, je trouvais que ce n’était pas encore assez évident, pour vraiment dégager la tendance, il fallait bien prendre le temps de regarder les données et, comme je vous l’ai déjà mentionné, j’essaie de faciliter la vie le plus possible au lecteur et surtout de ne pas prendre pour acquis qu’il vont prendre le temps de scruter à la loupe mon graphique pour comprendre ou je peux en venir. Donc, j’ai décidé de tracé des lignes entre les catégories d’âge ou ma conclusion est la plus marquée. De cette façon, je pense que je rends visuellement vraiment claire la tendance que je veux que le lecteur perçoive c’est-à-dire que les femmes perdent leur super pouvoir moins vite que les hommes avec l’âge.

ADD: Hey! tu travailles avec R et ça t’intéresse de voir le code que j’ai utilisé pour nettoyer et visualiser mes données? Va voir dans les notes de cet épisode, j’ai mis un lien vers l’article de blogue dans lequel tu pourras trouver tous les détails dont tu as besoin.

REVOIR LES RÈGLES D’OR DE LA DATAVIZ: Alors, comment j’ai fait pour en venir à faire des ratios pour présenter mes résultats? Et ben, comme mon objectif cette semaine était de visualiser la relation entre le poids de l’athlète et le poids qu’il est capable de soulever et de comparer ça pour les hommes et les femmes, j’ai commencé par créer un visuel qui compare ces 4 éléments. En utilisant facet_grid dans R j’ai pu créer un graphique composé de 2 plus petits graphiques, un pour les hommes et un pour les femmes. Le premier que j’ai fait présentait les résultats des hommes et des femmes superposés verticalement. J’ai mis tous les graphiques dont je parle ici en lien dans les notes de l’épisode, n’hésitez pas à aller y jeter un coup d’oeil. Donc, avec ce graphique, on voyait bien que les femmes sont un peu moins lourdes que les hommes et qu’elles peuvent soulever de moins grosse charge. On voit aussi que les capacités des hommes à soulever des poids sont à leurs meilleurs pour la tranche d’âge 24-34 ans et que c’est le même patron de données qu’on retrouve chez les femmes aussi. Par contre, je pense que, avec ce graphique-là, c’est pas mal toutes les comparaisons qu’on peut faire, et ça reste vague dans le sens ou on a une vague idée des différences de poids.

Avoir une vague idée dans un graphique c’est vraiment quelque chose qui me fatigue énormément. Mon objectif ici ce n’est pas d’explorer des données, mais bien d’expliquer des données et une vague idée, à mon sens, ça n’explique rien clairement. Donc, mon premier réflexe a été de changer l’orientation de la grille créée avec facet_grid. En utilisant cette fonction dans R, on contrôle l’organisation des panneaux et c’est bien pratique. Dans mon deuxième essai, j’ai mis mes 2 graphiques côte à côte. Comme la plupart des conclusions que je semble vouloir mettre de l’avant se font sur le poids, je pensais que ce serait une bonne idée de mettre les hommes et les femmes sur une même ligne horizontale. C’est le deuxième graphique que j’ai mis en lien dans les notes de l’épisode. Je pense que mettre tout ça sur une ligne horizontale, ça aide à mettre nos conclusions de l’avant: on voit vraiment ressortir les performances impressionnantes des hommes, mais c’est pas encore assez clair à mon gout. C’est pas assez clair, parce que pour vraiment aller plus loin dans l’interprétation de ce graphique, on doit promener nos yeux entre la section des hommes et la section des femmes pour essayer de bien comprendre. Et ça, ça ne marche pas… mais vraiment pas! En plus, cette deuxième version fait ressortir le fait que les hommes sont plus lourds que les femmes…. Donc, on compare les poids soulevés par catégorie d’âge…. par des personnes qui possèdent des kg de muscles différents…. je n’y connais pas grand-chose… mais je pense que ces athlètes n’ont pas beaucoup de gras sur le dos pour être capable de performer comme ça…. Donc, de là la fameuse idée de mon ratio, si je divise le poids soulevé par le poids de l’athlète, je me retrouve avec une performance par kg de muscle…. qui est facilement comparable entre les hommes et les femmes…Tadam! la vlà ma solution!! C’est du 2 pour 1, je simplifie ma comparaison parce qu’au lieu de comparer 4 courbes, je n’en compare que 2 et en prime, je compare les performances sur une même base donc je fais abstraction de la différence de poids entre les hommes et les femmes pour une même catégorie d’âge.

Le seul désavantage de l’utilisation des ratios dans des graphiques comme ça c’est que ce n’est pas instinctif pour tout le monde la comparaison des ratios… Donc, faut vraiment prendre la peine de mettre clairement la conclusion en évidence et d’explique notre calcul…et c’est dans la boite!

CONCLUSION: Voilà, ça fait le tour de ce que je voulais présenter aujourd’hui. Si jamais tu as des commentaires ou des questions, n’hésite pas à me contacter. Tu peux aller au johaniefournier.com/contact pour m’écrire directement ou aller dans la section commentaire de l’épisode pour poser tes questions, ça va me faire plaisir de te répondre. Alors, j’espère que cet épisode a été utile et que tu as appris quelque chose, merci de m’avoir écouté et on se dit à la semaine prochaine!

Tu as aimé le contenu de cet épisode? Il est temps d’aller écrire une évaluation sur iTunes ou sur ta plateforme préférée et de t’abonner à mon podcast pour être avisé lors de la sortie du prochain épisode. Bonne semaine et amuse-toi bien à visualiser tes données!

Quelques liens utiles:

Publicités

Une réflexion sur “ADV22_TRANSCRIPT – Simplifier les comparaisons

  1. Pingback: ADV22 - Simplifier les comparaisons | Johanie Fournier, agr.

Laisser un commentaire

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.