lundi 15 février 2016

Qu'est-il arrivé au Web sémantique?

Je m'étais promis de ne plus rien écrire directement à ce sujet, mais il m'est difficile de ne pas mettre en perspective les considérations des quelques billets précédents avec l'histoire du Web sémantique. En préalable à cette analyse, un petit aperçu de Google Tendances sur les termes de recherche "Semantic Web" et "Deep learning" depuis dix ans.


Cela ressemble à la chronique d'une mort lente. Bien sûr, ce n'est qu'un écho d'une rumeur, et il y a sans doute beaucoup à dire sur les algorithmes qui sous-tendent ce genre de comparaison, et la représentativité des données utilisées. Mais il n'y a pas de fumée sans feu. 
On pourra objecter que le Web sémantique et le Deep learning ne sont pas vraiment des technologies concurrentes, qu'elles n'ont pas vraiment les mêmes champs d'application. Je n'entrerai pas dans ce débat technique. Ce qui m'intéresse ici est de voir dans le déclin apparent des unes et l'essor des autres (au moins dans ce qui fait le buzz), les signes d'un important changement que nous avons commencé à évoquer dans le précédent billet, et que je résumerais de la façon suivante. Nous sommes en train de passer de systèmes utilisant une sémantique a priori, fixée par la logique formelle des axiomes et des règles, à des systèmes utilisant une sémantique a posteriori, plus fluctuante et basée sur un apprentissage utilisant l'analyse massive des données et des usages.
Si cette tendance se confirme, et on a de bonnes raisons de le croire, que restera-t-il des efforts de la communauté du Web sémantique pour construire une pile de standards, des vocabulaires et des ontologies, et tous les outils qui vont avec? Dans une discussion de novembre 2015 intitulée "What happened to the Semantic Web", Krzysztof Janowicz résume de façon assez réaliste la situation dans cette réponse dont je traduis en substance quelques extraits.
Le problème principal qui fait obstacle à une partie de notre travail est une incompréhension fondamentale de ce qu'est réellement la sémantique et comment elle émerge. Beaucoup d'entre nous semblent croire que ce qui définit un bon usage des technologies du Web sémantique (les "killer apps") implique des ontologies lourdes et compliquées qui sont axiomatisées en utilisant les plus puissants de nos langages de représentation des connaissances et qui font un plein usage de nos raisonneurs. Comme +Kingsley Idehen et d'autres l'argumentent, les "killer apps" sont déjà là. Elles utilisent les URI comme identifiants globaux, l'idée des données liées, les relations d'identité comme sameAs, et un soupçon de raisonnement (dans la majorité des cas une simple utilisation de propriétés transitives) pour enrichir et étendre les résultats de recherche. 
Le Web sémantique devrait être une couche, fine et idéalement transparente, de communication entre l'utilisateur (pas seulement humain) et les données, et c'est là que notre travail a le plus d'impact. [...] Notre succès sera mesuré par la capacité de nos technologies à réduire la probabilité de combiner des données incompatibles, à faciliter la recherche et la publication de données pertinentes, à supporter les scientifiques et les décideurs dans l'analyse de la signification (statistique et analytique) des données. Par contraste, essayer de fixer de façon précise, abstraite et non ambiguë la signification de toutes sortes de termes dans un cadre logique, est voué à l'échec.
Bref, si globalement nous n'avons pas travaillé pour rien, il est sans doute temps de trier les placards, d'archiver pour mémoire et l'instruction des générations futures nos belles, complexes, coûteuses et finalement inutilisables ontologies et les raisonneurs qui vont avec dans les musées de l'inventivité humaine. Conservons pour l'usage courant quelques-uns de nos chers vocabulaires, les plus légers, ceux qui flottent bien à la surface des choses et remontent bien au vent. Et tant pis pour ceux que le poids de leur cargaison logique a entraînés par le fond à la première tempête de vraies données.