Journées d'étude

Pierre-Yves Lacour – L’existence précaire des données scientifiques pour l’historien

L’existence précaire des données scientifiques pour l’historien

Par Pierre-Yves Lacour

Maître de conférences en Histoire moderne à l’Université Paul Valéry, Montpellier, CRISES

  1. Dans un chapitre du recueil d’article Prouver et gouverner, A. Desrosières décrit les manières de quantifier dans les sciences sociales : “Plutôt que le verbe mesurer, nous préférons utiliser le verbe quantifier, défini comme ‘exprimer par des nombres ce qui l’a été auparavant par des mots’. Cela implique d’abord de convenir, c’est-à-dire de se mettre d’accord sur des conventions, des choix d’objets et de mises en équivalence, puis, une fois arrêtées ces conventions de procéder aux opérations de mesure proprement dites. Cette façon de dire a l’avantage de ne pas préjuger de l’existence de quelque chose de prêt à la mesure, comme pourrait le suggérer (à tort) une imitation naïve des science de la nature. Dans les sciences sociales, la quantification ne crée pourtant pas ex nihilo ses objets (Hacking, 1999), mais leur donne une forme et donc une existence particulière, différentes de celles qui résultent de leur expression par des mots. C’est en cela que la quantification transforme le monde. Or les diverses sciences sociales diffèrent par la nature des principales conventions d’équivalence préludant à la quantification” (Desrosières, 2014, chap. 11, 236). Ces quelques phrases servent de fil pour réfléchir sur les pratiques historiennes des données quantitatives[1].
  1. A. Desrosières compare l’usage des données quantitatives en histoire, sociologie, sciences politiques, psychologie et économie, sciences qui font des usages plus ou moins réguliers et souvent différents des méthodes quantitatives. La place de la discipline historique dans les sciences humaines et sociales est originale parce qu’elle regarde autant – si ce n’est davantage – du côté des humanités et de leur axiologie (travail philologique, importance de l’érudition et de la mise en récit) que du côté des sciences sociales de formation plus récente et disposant d’un capital symbolique plus faible. A. Desrosières rattache la pratique historienne – toujours minoritaire – de la quantification à l’usage de données qui sont inscrites dans la longue durée et qui postulent des “équivalences inter-temporelles”, c’est-à-dire à ce que l’on appelle l’histoire sérielle de l’École des Annales (Lemercier et Zalc, 2007, chap. 1). Il rattache de son côté la quantification des sociologues à l’usage des comptabilités publiques, donc aux classifications d’État. À la vérité, les usages de la quantification par les historiens se rapprochent souvent des pratiques des sociologues, parce qu’ils ont en partage un ensemble de questions (par ex. la définition des classes) et de méthodes (des tris à plat à l’analyse factorielle des données), ce qui relève d’ailleurs la porosité des deux champs disciplinaires, particulièrement dans l’approche qualifiée de “socio-historienne”. Encore faut-il dire, comme me le faisait remarquer C. Lemercier, que cette approche relève essentiellement de l’histoire sociale contemporaine, c’est-à-dire d’un petit segment de la communauté historienne.
  1. Comme l’écrit encore A. Desrosières, l’historien quantitativiste ne travaille pas à partir de données scientifiques ex nihilo, c’est-à-dire de données issues d’observations mesurées lors d’expériences contrôlées. Il dispose, comme matériel initial, d’archives, c’est-à-dire de documents produits dans les temps passés. Or les archives conservées en France sont, du moins pour la période moderne, en grande partie produites par des organisations dépendantes des deux grandes autorités ou méta-institutions que sont alors l’État et l’Église. En France, la gestion des archives est d’abord le fait des institutions qui les produisent et en font usage avant que l’État révolutionnaire ne confisque les archives anciennes (désormais séries anciennes) tout en prenant en charge la conservation des documents nouvellement produits (désormais séries modernes). Les archives publiques sont depuis lors conservées dans des lieux spécifiques et distincts des institutions productrices des documents. Elles sont réparties entre dépôts selon les ressorts administratifs dont dépendent les producteurs, l’État, le département et la commune.
  1. Les documents produits par ces administrations sont souvent des listes de personnes, de lieux ou d’objets. Elles reposent sur la définition de “classes d’équivalence” qui rassemblent des individus ayant un caractère commun (Desrosières, 1995, 14-15). Parmi ces classes, on peut trouver aussi bien des baptisés, des mariés et des décédés dans des registres paroissiaux que des soldats dans des registres matricules ou des chefs de famille dans des rôles fiscaux. Les enregistrements nouveaux sont en général inscrits à l’occasion d’un évènement advenu, en un moment précis et dans un lieu circonscrit, à un individu, une propriété, un lieu (par ex. un baptisé est un individu ayant reçu dans une paroisse donnée un jour donné le sacrement du baptême). Ces enregistrements sont mis à la file dans des livres reliés ou codex selon un ordre chronologique dans ce que l’on appelle le plus souvent des registres, et parfois des rôles voire des journaux.
  • Registre paroissial des communautés
  • Registre fiscal ou rôle d’imposition
  • Registre d’écrou des prisons
  • Registre d’entrée et de sortie des hôpitaux
  • Registre matricule de l’armée
  • Registre de présences d’assemblées
  • Registre des comptes ou des personnels des organisations
  1. Lorsqu’ils sont conservés dans des archives publiques, ces registres sont souvent produits par des institutions relevant de l’appareil d’État. Certains registres sont liés aux formes du prélèvement des communautés (le fisc, la conscription), d’autres à la discipline de segments sociaux (la prison, l’hôpital), d’autres, enfin, à la gestion interne des institutions (les comptes, les personnels). Ils donnent lieu à la mobilisation de personnels extérieurs ou à la formation de bureaucraties dédiées. Ces registres ont fait le principal matériau de nombre d’enquêtes historiques où les données ont été traitées de manière sérielle. Il faut néanmoins souligner que des sources se donnant dans d’autres formes matérielles ont aussi pu être traitées de manière quantitative comme, par exemple, les actes notariés ou bien encore les mercuriales qui indiquent le prix des denrées – et surtout du blé – sur les marchés, deux types de sources abondamment utilisées par les historiens de l’Ancien Régime.
  1. Pour dire le monde social, l’historien travaille donc parfois à partir de registres à établir des données par sélection (que garder ?), inscription (comment retranscrire ?), classification (comment coder ?), agrégation (comment rassembler ?) selon des hypothèses de travail et dans la perspective d’une interrogation statistique. L’historien vient aux archives armé de quelques hypothèses qui expliquent en partie les choix qu’il opère dans la construction des données. Mais l’observation quotidienne de son travail montre surtout un rapport très empirique aux données qu’il construit. Dans le cadre du master TRACES – Histoire et sciences sociales, nous pilotons à trois – Marc Conesa, Lionel Dumond et moi – une petite enquête collective sur les enfants prisonniers d’Aniane à la fin du XIXe s. Réalisant la base de données avec les étudiants, nous avons collectivement pris une multitude de micro-décisions :
  • historiciser les catégories observées et trouver des équivalences entre les codages à distance de temps ;
  • créer une colonne “divers” avec des informations en vrac parce que, à un moment donné de la recherche, tandis que la problématique s’affine, tel ou tel type d’information peut paraître pertinent, être retiré du vrac et former un nouveau champ ;
  • précipiter lors du codage une multitude d’informations dans un champ, parfois au format booléen, en oui et non, parce les détails paraissaient non pertinents par rapport à la problématique de travail ;
  • agréger des données, le plus tard possible, parce que, grosso modo, c’est une agrégation pertinente rapportée à la problématique.
  1. Or ces micro-décisions sont à chaque fois précisément justifiées, du moins le devraient-elles. Enseignants et étudiants, nous conservons trace, sur un document séparé, de chacune d’entre elles et versionnons nos tableaux de données pour pouvoir retrouver la logique de chacun de nos choix au besoin. Cela invite néanmoins à quelques réflexions. Au moment de noter ces micro-décisions, nous sortons nos carnet pour les inscrire rapidement au fil du travail collectif – rapidement pour ne pas perdre le fil justement – mais ces notes ne sont lisibles que par nous-mêmes, ne serait-ce que parce qu’elles sont griffonnées entre une liste de courses et une prise de note de séminaire. Elles sont de fait perdues pour la communauté de recherche si elle ne sont pas retranscrites, jointes à la base de données et clarifiées. Dans les “livrables” que sont les bases de données dans les programmes de recherche en sciences humaines et sociales – par ex. dans le cadre des ERC –, ces informations pourtant essentielles pour connaître les conditions de la production des données sont rarement incluses, ce qui rend l’usage de ces bases beaucoup plus hasardeux. La fascination des bureaucraties managériales de la recherche pour le big data (par ex. Ollion, 2014 ; Lemercier, 2017), pour la massivité des données au détriment de la qualité de leur construction n’aide pas à faire comprendre les enjeux épistémologiques liés à l’explicitation de ces micro-décisions .
  1. Pour les historiens, “rendre publiques” les données de recherche pourrait revêtir deux enjeux, soit offrir à la communauté disciplinaire des matériaux à réagencer dans d’autres recherches liées à d’autres problématiques, soit donner aux chercheurs les matériaux nécessaires pour asseoir, ou au contraire mettre en défaut, une recherche déjà publiée (par ex. sur la définition d’un corpus ou des classes d’équivalence). Cela relève dans le premier cas du partage des données et, dans le second, de l’administration de la preuve. En ce qui concerne le partage des données, tout au moins pour les sciences sociales, les réusages des données produites par d’autre(s) sont souvent très difficiles dans la mesure, justement, où les catégories ont été construites en fonction d’une problématique qui définit la perspective d’une recherche sur un objet. Pour ce qui touche à l’administration de la preuve – et incidemment à la possibilité de la contradiction – l’enjeu de l’accessibilité des données de recherche peut être important. Le problème se pose alors surtout en termes de rémunération symbolique du travail dans des champs disciplinaires où coexistent des pratiques plus ou moins coûteuses en terme de temps de travail (réaliser une base de données peut être comparativement très lourd) mais des formes comparables de produits de la recherche (le livre ou l’article) et des modalités communes d’évaluation (par ex. l’article de revue comme unité de mesure bibliométrique).
  1. C’est particulièrement vrai en histoire où l’introduction progressive des incitations à publier davantage – le fameux publish or perish– crée des conditions favorables au progrès de l’histoire comme discipline humaniste – voire comme sous-secteur de la littérature – au détriment de l’histoire comme science sociale mobilisant souvent, et d’ailleurs pas toujours ni nécessairement, des données quantitatives. Tous ceux qui, comme c’est mon cas, conçoivent l’histoire comme une science sociale mais ne font du “quanti” qu’occasionnellement, le savent bien : rédiger un paragraphe analysant un jeu de données et/ou construire un bon graphique prend beaucoup plus (parfois vraiment beaucoup plus) de temps que citer et commenter un texte. Pour limiter les effets pervers de ces politiques de recherche appuyées sur la bibliométrie dans une discipline qui louche dans deux directions différentes, la communauté de recherche pourrait alors élaborer des formes spécifiques de gratification symbolique pour la réalisation de bases de données tout en invitant les chercheurs à ne livrer une base de données qu’avec un fichier explicitant la délimitation du corpus, décrivant les catégories employées et recensant l’ensemble des micro-décisions prises au cours de la recherche.

Références citées  :

– Desrosières Alain, « Classer et mesurer : les deux faces de l’argument statistique », Réseaux. Communication – Technologie – Société, 13-71, 1995, p. 11‑29.

– Desrosières Alain, Prouver et gouverner. Une analyse politique des statistiques publiques, Paris, La Découverte, 2014, chap. 11 : “La Quantification des sciences sociales : une comparaison historique [présentation à l’École française de Rome, 2012]”.

– Hacking Ian, The social construction of what?, Cambridge (Mass.), Harvard University Press, 1999.

– Lemercier Claire et Zalc Claire, Méthodes quantitatives pour l’historien, Paris, La Découverte, 2007.

– Lemercier Claire, « Scruter les sociétés après l’’homme moyen’ », in Mokrane Bouzeghoub (éd.), Les big data à découvert, Paris, CNRS, 2017, p. 264‑265.

– Ollion (Étienne), « Les sciences sociales n’ont pas (vraiment) besoin des big data », intervention au colloque Big data, entreprises et sciences sociales – Usages et partages des données numériques de masse, 02 juin 2014 : http://www.college-de-france.fr/site/pierre-michel-menger/symposium-2014-06-02-16h30.htm

[1] Je remercie vivement Claire Lemercier pour sa lecture attentive d’une première version de ce billet et pour l’abondance de ses commentaires.

Catégories :Journées d'étude

Laisser un commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion /  Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion /  Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion /  Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion /  Changer )

Connexion à %s