Page du plan détaillé


Navigation par niveau


Navigation par tag


Navigation par EDC


navigation par suivi édito



rechercher un contenu


SECTEUR COURANT DU MANUEL > TEDI - Transformations des États démocratiques industrialisés > Jérôme VALLUY    

Introduction - Section - Définition(s) francophones des humanités numériques

I. À éditorialiser
A. En cours de rédaction


SOMMAIRE

Notre problématique de départ correspond à celle de la plupart des chercheurs travaillant sur ce domaine aujourd’hui (2016) ; elle peut s’énoncer par une question très simple exprimant le degré d’incertitude collective à cet égard : Que sont les humanités numériques ?, et, pour préciser cette problématique, comme questions connexes : "Peut-on repérer une ou des définitions tendancielles de cette expression ?" et "Quelles sont les composantes du domaine évoqué par cette ou ces définition(s) ?". J’ai cherché des réponses dans les articles scientifiques spécialisés sur le domaine et plus spécifique sur cette question. Une recherche bibliographique systématique, réalisée durant l’été 2015 puis actualisée ultérieurement, permet d’apporter des éléments de réponse... en provenance de celles et ceux, parmi les auteurs, qui acceptent d’utiliser et de commenter ce label naissant. Mais elle montre surtout que beaucoup de chercheurs travaillent sur ce domaine, tel que définit par les précédents, sans utiliser le label lui-même. Le label des "humanités numériques" apparaît déjà comme un objet de dissensus au sein de la communauté scientifique la plus concernée entre celles et ceux qui l’utilisent et les autres qui ne l’utilisent pas mais font des recherches sur le domaine.

Humanités numériques francophones : diversité thématique

Par requêtes systématiques dans les principales bases de données francophones du domaine des humanités au sens large des arts, lettres et sciences humaines (OpenEdition, Cairn, Persee, Erudit, Google-scholar, HAL, etc) sur les index « humanités numériques » ou « humanités digitales » (ou l’inverse, ou en anglais) ou "humanisme numérique" ou « humanités » plus des spécifications (contrôlées dans les textes), j’ai sélectionné un millier d’articles susceptibles de concerner de près ou de loin le domaine d’étude. Je l’ai pré-traité par "lecture rapide" des articles (résumé, table des matières, introduction, conclusion, sondages dans le texte... à raison d’environ dix minutes par articles) pour opérer un premier classement en "corpus" distincts selon leurs proximités à la question centrale et les segments thématiques auxquels ils pouvaient se rattacher. Il en résulte une sélection entre trois cercles concentriques, avec dans le plus central, 58 articles très spécifiés sur la question de la définition des humanités numériques, un second cercle plus large de 56 articles moins focalisés sur cette question mais susceptible d’y apporter des éléments intéressants de réponses et un second cercle beaucoup plus large de 922 articles répartis en segments thématiques qui ne traitent pas spécifiquement de la question mais se rapportent au domaine d’étude correspondant aux définitions naissantes des humanités numériques. Le corpus bibliographique en cours de constitution est présenté publiquement et fait l’objet de diffusions permettant de le compléter : http://www.costech.utc.fr/spip.php?article81

Présentation de la démarche de recherche bibliographique systématique réalisé durant l’été 2015, et actualisée ultérieurement sur certains segments, autour de la question : "Que sont les humanités numériques ?" - Corpus intégral en ligne : http://www.hnp.terra-hn-editions.org/TEDI/article423.html

Étude bibliographique sur les humanités numériques francophones (J.Valluy, 2015)

Étude bibliographique (inachevée / en cours) sur les "humanités numériques" (ou "humanités digitales" ou, "sciences humaines numériques" selon la proposition du GTD/OQLF) dans le cadre de recherches en cours (Journée d’étude du 8 juin 2015 et projet HumaNum/EdiNum (juin/dec.2015) sur les multiples dimensions de ce domaine émergent avec comme question centrale "Que sont les humanités numériques ?" (=. non pas ce qu’elles doivent être mais ce qu’elles sont pour celles et ceux qui utilisent la notion dans leurs textes) et comme questions connexes : "Peut-on repérer une ou des définitions tendancielles de cette expression ?" et "Quelles sont les composantes du domaine évoqué par cette ou ces définition(s) ?". ● Première étape de recherche : étude de la bibliographie francophone, avec l’hypothèse de spécificités intellectuelles, dans la construction sociale de cette définition (ou de ces définitions) dans ce périmètre linguistique, liées à l’émergence institutionnelle des humanités numériques en France et dans les institutions transnationales dépendant des financements alloués par le gouvernement français. ● Critères de sélection : textes de recherche approfondie, en excluant les textes non centrés sur le domaine ou trop à la marge et les textes courts assimilables à des billets d’humeur ou simples tribunes d’opinion ou comptes-rendus ou interview... et en déplaçant autant que possible les références pouvant être plus précisément classées dans les autres catégories bibliographiques connexes et ci-jointes notamment sur "universités", disciplines, "éditorialisation", "ouvrages dynamiques", "wikipedia", "auctorialité", "recommandations", "technologies" "métiers", "usages". Un corpus plus large sur les humanités numériques francophones est donc à reconstituer en incluant les références inscrites dans ces catégories connexes. ●Recherches des url d’accès aux textes : préférence pour les url d’accès direct au texte intégral en libre accès et, à défaut, pour les url d’accès via abonnements aux plateformes de rééditorialisation numérique et, par défaut, pour les url de présentation de texte (livre, article...) sur le site du premier éditeur. ● Une seconde étude est en cours sur corpus équivalents en langue anglaise pour comparaisons ultérieures ; amorcée sur WP.● Toute suggestion de complément bibliographique ou thématique sera la bienvenue : merci de l’adresser à jerome.valluy@utc.fr. Nota bene : cette rubrique sera souvent modifiée et actualisée au rythme des avancées de la recherche en cours ; pour s’abonner au flux rss :

J.Valluy, 9 sept. 2015.

C01 - Corpus de textes en français dont le titre comporte « humanités numériques » ou « humanités digitales » (ou l’inverse, ou en anglais) ou "humanisme numérique" ou « humanités » + une spécification (contrôlée dans le texte) référée au numérique : 58 références (15 en 2015/août, 19 en 2014, 7 en 2013, 11 en 2012, 2 en 2011, 1 en 2010, 1 en 2009, 1 en 2008,1 en 2007)

C02 - Corpus d’autres textes en français directement relatifs au sujet comportant généralement « humanités numériques » ou « humanités digitales » (ou l’inverse, ou en anglais) dans le résumé et/ou dans le texte (corpus à segmenter ultérieurement) : 56 références

C03 - Corpus de textes connexes au thème des humanités numériques par extensions thématiques présentes dans les textes du corpus C1 et dans les textes du corpus C2 les plus centrés sur le sujet : 922 références

Une lecture rapide de ce corpus durant le deuxième semestre 2015, montre qu’une myriade de contenus disciplinaires, théoriques, méthodologiques très divers prolifèrent dans les débats scientifiques avec souvent de fortes divergences de sens. En première approximation, les humanités numériques apparaissent comme une catégorie de communication savante mais aussi, de façon imbriquée, de communication gouvernementale. Le label « humanités numériques » semble avoir d’autant plus de succès tant dans les institutions politiques et administratives que dans les débats scientifiques que son contenu est imprécis.

Humanités numériques francophones : spécificités thématiques et linguistiques

La recherche réalisée par Eglantine Schmitt porte sur les centres d’intérêts des recherches indexées aux humanités numériques, leurs sujets de prédilection, les domaines socio-professionnels auxquelles elles se rapportent, les technologies numériques qu’elles étudient prioritairement 1. Cette recherche présente un double intérêt : elle fait apparaître, par comparaison entre deux bases de données (HAL pour le champ linguistique francophone et SCOPUS pour le champ linguistique anglophone), une nette différenciation de ces centres d’intérêt d’un champ linguistique à l’autre ; elle apporte aussi une contribution à la question des contenus caractéristiques des humanités numériques, au moins dans une certaine mesure. La méthode correspond assez bien aussi aux "humanités numériques", au sens restreint de la première définition valorisant l’utilisation d’outils numériques dans la recherche en sciences humaines : ici, la détection automatique de thématiques sollicite l’API de l’entreprise Proxem, éditrice de logiciels d’analyse sémantique, selon une méthode déjà présentée par François-Régis Chaumartin 2. La simplification du graphe de co-occurences des thématiques ainsi détectées est réalisée par l’algorithme "Apriori" conçu en 1994 par deux informaticiens d’IBM 3. Cette recherche apporte des indices précieux, mais ne fournit pas de preuves définitives pour deux raisons : 1) les bases de données utilisées sont elles-mêmes affectées de biais de composition quant à leur représentativité de l’ensemble du champ linguistique et scientifique concerné (la base HAL, notamment, est peu alimentée par les chercheurs en humanités qui semblent s’en méfier et se trouve alimentée par certains segments disciplinaires, notamment sciences informatiques et sciences de l’information, plus que par d’autres) ; 2) l’algorithme "Apriori" procède à des associations et corrélations complexes difficilement maîtrisables par les chercheurs, comme moi, incapables d’entrer, de lire et de comprendre les choix intellectuels qui président aux opérations de l’algorithme... et la sociologie des usages de la statistique, notamment les travaux d’Alain Desrosières, ne laissent guère espérer de "preuve" ou d’"objectivité" indiscutable par les statistiques. Malgré ces réserves méthodologiques, cette recherche apportent des indices qui esquissent une deuxième approximation quant à la définition des humanités numériques : elles apparaissent définies de façon spécifique dans le périmètre linguistique francophone, portées notamment par des acteurs institutionnels du secteur professionnel des bibliothèques, des archives, de la documentation, de l’information scientifique et technique, ce qui corrobore d’autres observations, sociologiques de la configuration des acteurs moteurs dans l’émergence récente de label.

JPEG - 86.4 ko
Figure 1. Réseau simplifié des thématiques des digital humanities anglophones (E.Schmitt, 2015)
JPEG - 83.3 ko
Figure 2. Réseau simplifié des thématiques des digital humanities francophones (E.Schmitt, 2015)

Présentation de la méthodologie utilisée par Églantine Schmitt pour produire les deux images de représentation visuelle des réseaux de thématiques interdépendantes caractéristiques des humanités numériques francophones et des humanités numériques anglophones/

La structuration disciplinaire et thématique des humanités numériques (E. Schmitt, 2015)

La démarche générale est une analyse comparée qui étudie comment s’articulent les différentes thématiques traitées par les humanités numériques en langue anglaise et en langue française. La méthode adoptée se déroule en quatre étapes :
– l’acquisition de jeux de résumés d’articles scientifiques sur Scopus pour les travaux anglophones et HAL pour leur pendant francophone ;
– la détection des thématiques mentionnées dans ces résumés à travers un service de traitement automatique du langage ;
– la hiérarchisation de ces thématiques à travers des techniques de fouille de données et d’analyse de graphe ;
– la visualisation et l’interprétation des résultats.

Les données utilisées, des résumés d’articles scientifiques, ont donc été téléchargées à partir des termes de recherche « digital humanities » sur le service de recherche de Scopus pour les publications en anglais et « digital humanities » ainsi que « humanités numériques » sur HAL pour le français. Respectivement 610 et 292 articles ont ainsi été identifiés, dont 527 et 154 proposaient un résumé après dédoublonnage. Le déséquilibre de taille entre ces deux jeux de données sera compensé plus bas.

Chacun de ces jeux a été ensuite passé dans un service de détection de la thématique (topic modeling). En l’occurrence, il s’agissait du service proposé par la société Proxem sous la forme d’une API 4 (interface de programmation) et fondé sur les travaux de François-Régis Chaumartin (2013). Le service détecte la langue de chaque document envoyé et renvoie jusqu’à 50 thématiques sous la forme de catégories Wikipédia. Dans le cadre du travail présenté ici, 10 thématiques ont été demandées pour chaque résumé ; lorsque le score de pertinence de la thématique était en-dessous d’un certain seuil fixé par le service, moins de dix thématiques étaient transmises.

Une première tentative a ensuite consisté à calculer et visualiser les cooccurrences de ces thématiques. Le résultat obtenu était très dense et ne permettait pas d’interprétation. Afin de simplifier le réseau des thématiques, un algorithme de règles d’association (Agrawal et Srikant 1994) a été mobilisé. L’algorithme Apriori est l’un des dix algorithmes les plus populaires en fouille de données (Wu et al. 2008). Originellement pensé pour étudier les associations fréquentes entre produits pour un supermarché, il permet de faire ressortir des cooccurrences significatives au sein d’un ensemble d’items.

Les thématiques détectées ont été considérées comme des items. L’implémentation dans le langage de programmation R (package « arules » par Hahsler et al. 2015) présente deux paramètres : la confiance (« confidence »), qui correspond à la fréquence de chaque item pris individuellement, et le « lift » qui correspond à fréquence de chaque association. La confiance a été fixée à 0.3 pour les deux jeux de données, le lift à 0.01 pour le corpus anglais et 0.02 pour le corpus français : en étant moins sélectif sur ce dernier, on pouvait ainsi compenser l’écart de volume entre les deux jeux de données. Des expérimentations antérieures ont montré que le seuil de confiance avait peu d’influence sur le résultat final, d’où le choix d’un seuil assez bas. En effet, les associations calculées sont généralement des recombinaisons des thématiques les plus significatives ; il permet néanmoins d’obtenir un plus grand nombre de règles, ce qui rend le graphe final plus riche.

Enfin, les règles ainsi générées, qui peuvent associer deux items ou plus, ont été simplifiées en calculant les cooccurrences des items paire par paire. De cette transformation résulte une perte d’information mais il devient possible de générer un réseau où les nœuds sont des thématiques et les liens des associations. Ces paires sont servi de base à la génération de deux graphes non dirigés visualisés dans le logiciel Gephi (Jacomy et al. 2012) avec l’algorithme Force Atlas 2 et en ajustant la taille des nœuds en fonction du degré. Les regroupements de thématiques, matérialisés par des couleurs, sont calculés avec l’implémentation dans Gephi de la méthode de Louvain (Blondel et at. 2008), un algorithme pour détecter des communautés dans des réseaux d’individus.

A plusieurs reprises, des techniques ont donc été empruntées à d’autres domaines de connaissances : les thématiques sont tantôt modélisées comme des items dans une liste d’achats, tantôt comme des individus dans un réseau où l’on recherche des communautés. Ces emprunts tiennent à une conviction selon laquelle les techniques créées par des mathématiciens ou des informaticiens ne sont pas spécifiques à un domaine. On ne peut pas forcément en dire autant des procédés qui apparaissent au sein d’une discipline, et sont donc conçus pour résoudre un problème très spécifique, dont on trouve plus difficilement des équivalents ailleurs. Néanmoins, cette affirmation est loin d’être systématique : l’algorithme de Metropolis (1953) par exemple, conçu pour le cas spécifique de la distribution de Boltzmann en physique statistique, a été généralisé 20 ans plus tard (Hasting 1970) et sert aujourd’hui non seulement de technique de simulation, pour un usage plutôt scientifique donc, mais aussi comme procédé de génération d’un échantillon suivant une distribution statistique spécifique, ce qui a une utilité beaucoup plus large en informatique universitaire et industrielle. Ces circulations méthodologiques ne sont pas problématiques dans la mesure où la technique est vidée du sens spécifique qui est conféré à ses éléments, puis retrouve du sens lorsqu’elle est réimportée et réinterprétée par une discipline ou un usage spécifique.

Dans les faits, les techniques circulent couramment entre disciplines, moins entre le monde universitaire et l’industrie. Un bon exemple est justement celui de la manipulations de graphes, au départ fondé sur une branche des mathématiques (la topologie) puis importé en sociologie pour devenir l’analyse de réseaux sociaux (Rieder 2009), mais aussi en linguistique avec l’analyse de cooccurrences (Leydesdorff 1995) tout en poursuivant son développement en mathématiques (Barabási 1999), mais avec des implications sur la structure du web qui inspireront des travaux plus appliquées sur l’analyse du web (Fouetillou 2008). L’analyse de graphe a aujourd’hui des usages très diversifiés dans l’industrie comme par exemple la détection des fraudes 5 .

Ces circulations sont rendues possibles par la nature fondamentale du calcul. En lui-même, il ne porte pas sur le sens des éléments qu’il manipule mais sur les symboles utilisés. C’est au sein du domaine que ces symboles reçoivent une signification : à l’entrée du calcul, par la modélisation de la question, et à sa sortie par l’interprétation des résultats. Ces phases de modélisation et d’interprétation sont, elles, bien spécifiques à une disciplines et se construisent aussi bien par l’argumentation et la confirmation que par les conventions qui émergent d’une culture épistémique communes et se stabilisent avec le temps. Le travail présenté ici ne prétend pas bénéficier d’un haut niveau de stabilisation ; de façon empirique, il s’appuie sur le caractère intuitif de la lecture des graphes visualisés, coloriés et hiérarchisés pour proposer de nouveaux moyens d’accès au réel et, plus précisément ici, aux objets, aux thématiques et aux disciplines mobilisés pour une notion spécifique dans le monde scientifique.

Les traitements précédents ont donc pour résultat deux visualisations (Figure 1 et Figure 2) qui font apparaître un réseau simplifié des thématiques liées aux humanités numériques en langue anglaise et française. La première présente plusieurs regroupements de taille différente, dont un coeur plus important lié à l’édition et à l’archivage mais aussi un intérêt pour d’autres disciplines, telles que la géographie, la pédagogie, les sciences cognitives, ainsi que des techniques contemporaines de fouille de texte et de données. La mention de l’ACM, l’une des principales associations de recherche en informatique, témoigne d’une liaison effective avec le domaine, confirmée par les liens entre le regroupement principal du graphe et ceux liés aux techniques mobilisées. La seconde, qui matérialise l’activité scientifique en français relative aux digital humanities, montre un graphe plus simple, avec beaucoup moins de regroupements, qui fait essentiellement apparaître des thématiques liées à l’édition et ses différents supports, et aux bases de documents numériques.

Ces visualisations suggèrent donc que les publications francophones occupent donc un champ thématique et disciplinaire beaucoup plus restreint que leurs pendants anglophones. Contrairement à ce qu’ambitionne le manifeste francophone des humanités numériques, l’inclusion des sciences humaines et sociales et l’interdisciplinarité avec l’informatique ne sont pas perceptibles, si l’on en croit l’analyse présentée ici, dans les travaux effectivement publiés autour des digital humanities.

Eglantine Schmitt , "La structuration disciplinaire et thématique des humanités numériques". In : Collogue ISKOFrance 2015 : Systèmes d’organisation de connaissances et Humanités numériques. Strasbourg 6

La conclusion d’Eglantine Schmitt corrobore mes propres observations plus intuitives et relatives à d’autres sources de données : "Ces visualisations suggèrent donc que les publications francophones occupent donc un champ thématique et disciplinaire beaucoup plus restreint que leurs pendants anglophones. Contrairement à ce qu’ambitionne le manifeste francophone des humanités numériques, l’inclusion des sciences humaines et sociales et l’interdisciplinarité avec l’informatique ne sont pas perceptibles, si l’on en croit l’analyse présentée ici, dans les travaux effectivement publiés autour des digital humanities".

Jérôme VALLUY‚ « Introduction - Section - Définition(s) francophones des humanités numériques  »‚ in Transformations des États démocratiques industrialisés - TEDI  - Version au 2 décembre 2020‚  identifiant de la publication au format Web : 2