samedi 19 février 2011

Les chances de marquer sont du "data journalism"

Le data journalism est un genre de concept un peu foireux qui recoupe une réalité de plus en plus omniprésente dans l'univers médiatique actuel. En gros, il s'agit d'un type de journalisme orienté vers le traitement de séries de données dans le but d'en exposer la structure.

Le discours sur le data journalism donne cours à tout un tas de suppositions, de regroupements imbéciles et et sers trop souvent de simple paravent à un renouveau d'un discours gestionnaire totalement dénué d'intérêt. Mais malgré la chienlit, n'en demeure pas moins qu'il est ici question d'un espace de renouveau du champ de pratique du journalisme, appuyé sur les vagues successives de transformation de la pratique encourue par l'informatisation massive de la profession et par l'émergence d'internet comme nouvelle réalité sociale. Le journaliste nous parle du monde qui nous entoure et ce monde, on tend déjà à l'oublier parce que le phénomène est massif au point de couvrir la quasi-totalité de l'horizon sur lequel porte notre regard, a été profondément transformé par cet immense bassin de données à l'air libre qu'est devenu internet.

Parce que nous baignons aujourd'hui dans une mer d'information dans laquelle nous nous mouvons aidés d'outils toujours plus puissants, parce que ces outils contribuent à faire de pans toujours plus importants de notre existence individuelle des moments de production de données à leur tour jetées dans cette immense mer, parce que ce processus se répète à toutes les échelles de toutes les organisations qui peuplent nos vies, notre monde est aujourd'hui inextricablement imbriqué dans une immense noosphère. Les journalistes, en bons témoins du moment, rendent compte de ce dans quoi ils pataugent. Le data journalism, au-delà des citations-choc et des discours vaseux, serait simplement une façon de désigner comment ils adaptent leur pratique à ce qui suinte depuis longtemps déjà par tous les pores de notre monde.

Plus précisément, certains éléments du data journalism (semble qu'on dit journalisme de données en français, mais je ne suis pas certain de la traduction...) me semblent être particulièrement intéressants:
  • L'accent mis sur la collection de données publiées par différents organismes, données ensuite consignées dans des bases de données. Cette pratique permet de jeter sur ces données un regard différent de celui promu par les organisations qui, à l'origine, les ont mobilisées.
  • L'impératif de lisibilité inhérent au travail journalistique force l'élaboration de nouveaux modes d'expositions de ces grands ensembles de données. La réflexion entourant la publication de ces données me semble être particulièrement fascinante. L'évolution des formes de représentation graphiques est un univers en pleine progression, aboutissant sur des résultats fascinants. Les outils mis à notre disposition, l'intersection de champs de savoirs auparavant séparés (la bio-informatique se révèle soudainement un réservoir de savoir-faire extrêmement pertinent) font tomber bien des murs.
  • Le data journalism est parfois le lieu d'échanges entre les journalistes et les lecteurs. L'utilisation de données publiées permet en effet à ceux qui s'y intéressent de rempiler sur le propos du journaliste, de creuser certains points, voir d'en développer de nouveaux.  
Si j'isole ces trois points en particulier, c'est qu'ils illustrent en plein comment ce que je fais sur En attendant les Nordiques n'est que ça: du journalisme de données. Du journalisme bancal, sans supervision, sans canaux de diffusions institutionnalisés, mais du journalisme. J'allais dire sans prétention, mais ça serait un mensonge; j'ai l'orgueil de croire que ce que je fais ici apporte quelque chose de différent, un certain regard sur un objet qui me fascine.

J'ai décidé de faire ce blogue à force de lire d'autres blogues qui, eux aussi, font à mon sens du journalisme. Certains le font sous un nom d'emprunt, d'autres ont cessé depuis, souvent ces blogues sont des aventures éphémères, un travail d'amateur, mais un travail sérieux, méthodique. Topham et Tobalev chez Lions in winter, Jeff sur Sisu Hockey, Gabriel Desjardins sur behindthenet, Vic Ferrari sur Irreverent Oilers fan, Dennis King sur MC79Hockey.com, Martin sur La vie est une puck, JLikens sur Objective NHL, The contrarian goaltender sur Brodeur is a fraud... Et j'en oublie (la section des liens à gauche est un bon endroit)...

Je me suis parfois mis à regretter que les vrais journalistes ne soient pas plus réceptifs à ce qui se fait sur la blogosphère. Mais, à force d'y penser, je suis maintenant convaincu que ces regrets sont franchement mal avisés. Les journalistes, s'ils aiment tous leur job, sont quand même en train de faire leur job. Ils ont des échéances, des patrons, ils oeuvrent dans des réseaux souvent tissés très serrés.

En retournant dans les archives du blogue, j'ai été surpris de voir à quel point j'ai modifié les graphiques et tableaux que j'accole à mes résumés de match. Un journaliste qui fait le beat du Canadien n'a tout simplement pas cette liberté; ce qu'il dit doit être compris, les tableaux et statistiques qu'il adjoint à son texte sont faits par d'autres qui n'ont pas le temps de réinventer la mise en page ou l'infographie du média toutes les semaines. C'est une différence fondamentale et maintes fois soulignée qui sépare le travail du blogueur amateur du journaliste professionnel et c'est la source, me semble-t-il, d'une lenteur dans le changement de la pratique du journalisme qui est difficile à comprendre pour le blogueur libre de réinventer la roue quand ça lui chante.

Plus fondamentalement, le blogueur qui s'échine à faire du journalisme de données jouit de la possibilité de réinventer ses indicateurs au fil de sa réflexion, qui elle-même s'expose au rythme qui sied à son auteur. Bien des indicateurs, que ce soient les TVF, la représentation des +/- sous forme de pourcentages, l'insistance sur les chiffres à 5 contre 5 sont autant de ruptures avec les modes d'explications établis dans les médias traditionnels. Si ceux-ci sont pour changer leur façon de faire, ce ne sera que graduellement et au contact de sources de données fiables. En ce sens, il est significatif que ce qui émerge comme stat avancées dans les médias professionnels sorte essentiellement du site de Gabriel Desjardins, behindthenet.ca. Il s'agit après tout de la seule source fiable et constante de données avancées sur le hockey et son interface renouvelée et plus conviviale contribuera certainement à accélérer la diffusion des indicateurs qu'on y retrouve.

Toujours est-il, les liens entre blogosphère et journalistes professionnels seront toujours difficiles, c'est dans la nature même des choses. Mais je demeure sincèrement convaincu de la pertinence de ce qui se développe sur cette même blogosphère, non seulement pour les amateurs de hockey, mais pour le journalisme en général. Il faut simplement rester conscient des limites de l'exercice et, surtout, de ne pas s'accrocher inutilement à certaines façons de faire lorsqu'on tente de répondre à la question suivante: "Est-ce que mon travail est utile?".

Des trois points saillants que j'ai détaillés plus haut au sujet du journalisme de données, j'ai constaté que seuls les deux premiers décrivaient ce que je fais ici. C'est pourquoi j'ai décidé de faire un petit quelque chose supplémentaire, en ligne avec le troisième point. Il est facile de regarder ces données portant sur les 169 derniers matchs disputés par le CH et de se dire "c'est à moi!". C'est normal, jusqu'à un certain point. Mais le fait est que sur mon disque dur, ces données ne servent que lorsque je prends la peine de les manipuler. À quelque part, je trouve ça insuffisant. Si on a l'orgueil de croire que ce qu'on fait peut servir, on se doit de trouver un moyen de laisser le monde s'en servir, genre. 

C'est pourquoi on retrouvera désormais à la gauche du blogue un lien vers un classeur Google Spreadsheet contenant la totalité des données que j'ai recensées jusqu'ici au sujet des chances de marquer. Rien de bien compliqué, vraiment: il s'agit simplement du contenu des trois premiers tableaux que je publie avec chaque match, tableaux qui sont le fruit d'un script mis à la disposition de tous par Vic Ferrari.

Voici, pour ceux qui suivent tout ça par fils RSS interposés, le lien vers le classeur Google en question.

J'espère que ces données vont servir, non seulement à des blogueurs et des journalistes curieux de manipuler eux-mêmes les données brutes desquelles je tire mes analyses, mais aussi à tous ces lecteurs curieux et silencieux... Vous êtes probablement nombreux à savoir vous servir d'Excel, de SAS, de R et de dieu sais quel autre logiciel apte à manipuler ces données. Mon seul chagrin est de ne pas avoir sur blogger un équivalent quelconque des "fanshots" sur Sports Blog Nation, un moyen de permettre à mes lecteurs de publier ici leurs propres petits billets avec leurs analyses et remarques. Un bon jour, qui sait.

14 commentaires:

Mathieu a dit…

Le problème que j'ai avec le journalisme 'mainstream', ce n'est pas tant qu'il est inchangeant pour les raisons que tu exposes -- c'est que ce journalisme, que j'appelerai journalisme de narration, en vient au point qu'il n'a presque plus de valeur en tant qu'analyse, tant il s'empêtre dans les histoires préconçues et tente trop de confirmer au lecteur ce qu'il pense déjà (ce qui permet de vendre des papiers), tant il ménage ses préférés et tape sur ses boucs émissaires, tant il essaie de ne pas contredire les histoires véhiculées précédemment même si celles-ci se révèle de plus en plus fausses... chez certains on en vient même à penser qu'il y a divorce d'avec la réalité.

On en vient à se demander ce que les journalistes professionnels apportent, puisque leur analyse est d'une telle pauvreté qu'elle devient parfois tellement pénible qu'on en change de poste (et je ne parle pas uniquement de Benoît Brunet; dans mon cas c'est en phase de devenir la règle plutôt que l'exception). C'est un sujet qui a déjà été abordé par nos amis des Oilers, bien sûr, et ils en venaient à la conclusion que la seule chose que les journalistes apportaient de plus que les blogueurs était l'accès privilégié aux joueurs et autres intervenants -- et comme ils se contentaient de rapporter les clichés sans trop de controverse, la valeur de cette accès était pratiquement nulle. La question devient donc -- le journalisme sportif, quossa donne?

En quelque part, c'est normal puisque les journalistes ont une formation de communicateur, pas d'analyste, et sont donc conditionnés à rechercher une histoire, même là où il n'y en a pas (et, hélas, à préférer l'histoire facile à comprendre et habituelle à une plus complexe et moins alignées aux préconceptions en cours). Pour un endroit où le hockey a beaucoup d'importance, il est peut-être inévitable que la qualité des journalistes qui le couvrent soit très inégale. Cependant, j'en viens quand même à m'interroger, moi aussi, quant à l'utilité de plusieurs de ces journalistes sportifs.

Maintenant, nous savons bien tous qu'ils n'ont pas à changer. Tant qu'ils auront leur auditioire (pratiquement captif), ils pourront continuer à débiter des fadaises en toute impunité. C'est pour cela que le journaliste sportif n'est pas en urgent besoin de réforme pour se donner un minimum de 'relevance'. Le cercle vicieux est assez triste: les journalistes écvrivent pour maintenir les idées préconçues du public, et le public, renforcé dans ses idées, cherche des médias qui vont confirmer lesdites idées... On n'en sortira pas de sitôt.

Le journalisme sportif n'a rien à voir avec le journalisme dans le fond, c'est une grosse job d'entertainement. Il est, par certains côtés, au journalimse réel ce que la lutte professionnelle est à la lutte Olympique.

Mathieu a dit…

Cela dit (maintenant que j'ai fait ma montée de lait sur une tangente) merci beaucoup pour le tableur! J'vais voir si je ne vais pas penser à faire quelques trucs avec.

Anonyme a dit…

Ça fait plaisir de lire ta démarche, ton approche dirais-je par déformation cruellement scolaire. Toutefois, j'imagine naïvement qu'il existe une sorte de compromis possible (et fertile) entre le journalisme «narratif» (dixit Mathieu) et la mise à jour de données brutes. Tu as d'ailleurs mis le doigt dans la plaie et tu ne t'ai pas gêné pour farfouiller: que faire de ces données concrètement? Eh bien, le problème n'est pas là je crois. Le problème est dans la liaison (voir la livraison) de ces données.
Exemple cradingue.
Comment concilier l'information suivante: Price dort sur la switch parce qu'il goal nuit et jour ET/OU Price a fourré Paris Hilton toute la nuit en sniffant de la coke sur le cul d'une pute dépeignée qui a un vague accent croate. Je fais exprès, Bukowski, sort de ce corps! Sans blague, le menu fretin du journaliste ne changera jamais, dans la mesure où il se nourrit de «données» affectives et qu'elles éclipsent les autres données (effectives) qui ne méritent pas d'être entourés de guillements...
Cependant (je suis à cours de toutefois et d'autres marqueurs de relations nices...) la donnée pure peut surement faire son chemin, et plus certainement, vers la donnée affective (toute la question blog or not to blog). Comment elle s'organise et se gère est une question de routine, une question de machinerie interne que tu dois résoudre dans l'enfer de tes tourments. Ta vraie job, très ingrate, est de rendre ces données «sexy» dans la juste mesure où on ne perd pas de vue que «l'intelligence, c'est sexy»! et que quelqu'un, quelque part, comprend quelque chose ;-P

Ceci dit, merci pour la leçon!

Stanin Kostsityn

Anonyme a dit…

Ceci étant dit, Mathieu, j'adore ta construction rhétorique et, permets moi de te citer, j'ai particulièrement savouré ta finale:

«Le journalisme sportif n'a rien à voir avec le journalisme dans le fond, c'est une grosse job d'entertainement. Il est, par certains côtés, au journalimse réel ce que la lutte professionnelle est à la lutte Olympique.»

Toutefois (cependant, par contre etc) je me dis un truc un peu bête: en dépréciant autant la pratique journalistique on peut chavirer vers le côté obscur, du genre c'est Bush qui a téléguidé les avions du 911 ou Moubarak n'était que le «en attendant» des méchants socialistes démocrates qui espèrent des duplicats de Khonémi (fuck, comment ça s'écrit???)...
Je fais exprès, mais typer une pratique peut entraîner des dérives, et lorsqu'il s'agit de journalisme on touche presque au sacré...

Où je veux en venir? Je crois comme toi que le consensus «on fait simple et juteux» ça paie et que nos amis de RDS l'ont compris jusqu'à l'aliénation, mais il ne faut pas voir de l'ombre où il fait soleil. Le journalisme tendra toujours à divertir, mais l'inverse est difficilement imaginable.

Donc, ce n'est pas aux idiots de faire mieux, c'est aux autres de mieux faire...et, tadam, magie, la blogosphère est là!

Stalin poignet d'argent

Olivier a dit…

@Mathieu: En fait, le journalisme sportif mélange souvent les genres, passant du reportage au commentaire ou encore à l'analyse. En ce sens, il me semble qu'il s'agit d'un lieu fort peu structuré par rapport à d'autres espaces de la profession; en journalisme politique, par exemple, le commentaire et l'analyse sont beaucoup plus rigoureusement distincts des reportages.

Je n'en ai pas trop contre le journalisme de narration, personnellement. Comme tu le soulignes si bien, le sport est un vecteur de divertissement et le journalisme qui s'y attache réflètes forcément cet état de choses.

Par ailleurs, les inimités entre blogueurs et journalistes sont facilement identifiables par ce questionnement que tu indique par la question "Le journalisme sportif, quossa donne?". Si déplaisant soit-elle, la réponse est manifestement "un flux continu de contenus permettant de saturer un tas de plateformes de consommation d'information, plateformes maintenues à grands frais (et avec grands espoirs de profits) par des conglomérats toujours plus gros." Genre. Bref, ça ne s'en va pas demain matin :).

Olivier a dit…

@Érick/Stanin: Distinction intéressante que celle des données affectives/effectives, élégante même... Je remarquerais simplement ceci:

Il faut faire attention avec les distinctions entre journalistes; les plus ouverts aux nouvelles voies d'interprétation ouvertes par l'analyse de données du hockey, par exemple, me semblent être les "beat writers". Les Grands Analystes, eux, ont leurs "sources" et donnent leurs opinions, parfois sous la forme de coups de gueules (Tremblay), parfois sous la forme d'analyses poussées (Ladouceur). Les beat writers qui ont a se taper la job de bras qu'est la couverture des 82 matchs + séries, me semblent plus sensibles à l'attrait des stats et de ce qu'elles permettent de dire sur un match donné. Bref, si on regarde la chose sous l'angle strict de la "hiérarchie" du journalisme sportif, c'est bel et bien par le "menu fretin" (les humbles "beat writers") que le renouveau des outils d'analyse est en train de s'effectuer. De ce que j'en ai vu, le journalisme sportif, en ce sens, n'est pas différent des autres domaines du journalisme. On attribue beaucoup d'importance aux éditorialistes et autres commentateurs, mais c'est bien par les journalistes "ordinaires" (lire: sans blogues et sans chroniques) que le regard sur l'objet public se redéfinit.

Je ne m'attendais honnêtement pas à ce qu'une conversation émerge de ce billet :)

Mathieu a dit…

Quin, je me suis amusé à faire un petit calcul arch-simple pendant que le CH est, encore une fois, incapable d'acheter un but vs. Calgary.

À forces égales
CH: 838 chances, 105 buts.
Adversaires: 819 chances, 101 buts

Pourcentage de conversion: CH 12.5%, adversaires: 12.3%

Moins pire que je le croyais. D'autre part, je fus quelque peu surpris de me rendre compte que le CH est dans le rouge pour les chances au total. L'effet de l'"indiscipline", nul doute...

Le Canadien en fait, paraît moins bien avec ces sommes que ce que je m'attendais. Faudrait que je fasse les calculs avec le score égal.

Simon Lamarche a dit…

@Mathieu: En comparant ces chiffres-là aux totaux des tirs, ce ne serait pas un début de preuve que le CH prend en moyenne des tirs de moins bonne qualité que l'adversaire? Si son total % de chances sur tirs est plus petit que celui des adversaires?

MathMan a dit…

Peut-être (heille, on pourrait aller chercher 150$ chez le terrifiant, vénérable Gabe Desjardins).

Mais pas assez pour que ça comble la différence. Pour une chose, avec 50.6% des chances à forces égales, on ne s'attendrait pas à voir le CH avec un différentiel de buts négatif.

L'autre chose c'est une question de degrés Canadien est présentement, avec .935% d'arrêts adverses, l'équipe la plus malchanceuse en offensive à forces égales. Notablement, depuis que behindthenet.ca maintient ces données (2006-2007), *aucune équipe* n'a maintenu un pourcentage de tirs aussi faible à forces égales. Même en assumant que le Canadien prend systématiquement des tirs de mauvaise qualité, on pousse le bouchon.

Simon Lamarche a dit…

Dans le fond, le but serait quoi? De confirmer ce que le MSM dit, "qu'il faut mettre un gars devant le but"?

Je serais horrifié de voir qu'ils ont raison, mais bon, la théorie aurait quand même le mérite d'être basé sur quelque chose d'observable...

Il suffirait par la suite de regarder les 3000 dernières chances de marquer de Canadiens et de répertorier celles ou il y avait un gars les deux pieds dans le crease.

D'la ptit bière! Pour 150$ tsé!

MathMan a dit…

Tiens, un autre trucmuche amusant que j'ai monté pour expliquer le manque d'offensive du CH... c'est tres primaire, aucune stat avancée là-dedans, mais ça illustre un peu l'énormité de la chose:

Saison Tirs/Match Buts/Match % de tirs
2010-2011 33.0 2.53 7.67%
2009-2010 28.6 2.56 8.95%
2008-2009 30.0 2.95 9.83%
2007-2008 29.1 3.13 10.76%
2006-2007 29.6 2.92 9.86%
2005-2006 30.1 2.94 9.77%
2003-2004 27.7 2.54 9.17%
2002-2003 25.8 2.51 9.73%
2001-2002 25.5 2.52 9.88%
2000-2001 26.2 2.51 9.58%
1999-2000 26.0 2.39 9.19%
1998-1999 27.7 2.24 8.09%
1997-1998 27.8 2.87 10.32%

Simon Lamarche a dit…

La théorie de la régression vers la norme dit que si on fait les séries, on peut s'attendre à ce qu'ils tirent tous 25% comem Cammy l'an passé, j'ai bien compris?

Bon, c'est certain que comme les pourcentages passés n'ont aucun impact sur les pourcentages futurs, on ne peut pas compter dessus. Mais les Devils et les Stars (comme vous avez pu lire sur behindthenet) ont tout de même démontré que ça arrivait!

Olivier a dit…

Le retour de Cammalleri va aider, je crois. Et sans dire que les échecs passés sont garants de succès futurs, je pense que le % de réussite est un bon argument pour signaler que le CH n'a pas de problème d'offensive. Ils n'ont pas étés opportunistes (disons ça comme ça), mais ils ont une bonne attaque, parce que ces résultats nous indiquent qu'ils sont amanchés pour en mettre plus qu'ils s'en font mettre.

J'en connais qui vont lire toute sortes de cochonneries entre les lignes de la dernière phrase. :)

Mathieu a dit…

De façon assez intéressante, j'ai fait le calcul et les Invincibles Bruins de Boston (tm) on fait le cheminement inverse: de 7.54% à 9.29%.

Faut croire que l'an dernier ils étaient petits, n'allaient jamais au filet, et tiraient toujours de l'extérieur. Cette année ils ont tous pris 2" et 20 livres, foncent au filet comme des malades et ne tirent que de l'enclave!