Documents structurés et Web

Résumé : Le Web a une douzaine d'années. Il a considérablement évolué depuis 1990 et va continuer dans les années qui viennent. Il s'agit d'évolutions technologiques, mais aussi de changements dans les usages et les populations concernées. Pour l'utiliser efficacement aujourd'hui et surtout demain, il est important de prendre ces changements en compte. Cet article analyse la situation courante et les tendances majeures qui se dessinent. Il propose ensuite une rapide revue des techniques en cours d'élaboration qui mettront en oeuvre ces tendances. Enfin il évalue l'impact de ces changements pour les utilisateurs.

Abstract: The Web is twelve years old. It has significantly evolved since 1990 and will keep on changing in the future. Changes concern the technology, the usage and the user communities. To make the best use of the Web today, but also tomorrow, it is important to take all those changes into account. This article analyses the current situation as well as the major trends of evolution. It provides a quick review of the technologies that are currently under development and that implement those trends. Finally, the consequences for the users are evaluated.

Les débuts du Web

Le Web est essentiellement un espace d'information accessible par réseau. Ses applications sont nombreuses : diffusion d'information, activités coopératives, commerce électronique, communication de groupe, recherche d'information, informatique répartie. Ce sont quelques concepts à la fois puissants et simples, qui lui donnent ce large champ d'application et en font un outil universel. Il y a d'abord un système d'adressage, les URI (Universal Resource Identifiers), qui permet d'identifier toutes les ressources accessibles, fichiers, documents, images, enregistrements vidéo ou sonores, programmes, boîtes à lettres, services, etc. Vient ensuite un protocole, HTTP (Hypertext Transfer Protocol), qui permet d'échanger ces ressources ou de les atteindre à travers un réseau. Enfin un format de document, HTML (HyperText Markup Language) permet de représenter un type particulier de ressources, des documents hypertexte relativement simples.

Ces trois éléments de base étaient présents dès les origines, lorsque Tim Berners-Lee a créé le Web [1]. Ils ont permis le développement foudroyant du Web, pour deux raisons principales : la simplicité et l'ouverture. Chacune de ces technologies est simple, donc facile à mettre en oeuvre. De nombreux développeurs peuvent les maîtriser et fournir à peu de frais des outils efficaces.

Par ailleurs ce sont des technologies ouvertes et modulaires, qui peuvent s'étendre et se combiner avec d'autres. Ainsi, HTTP n'est pas le seul protocole utilisable sur le Web. FTP (File Transfer Protocol) existait avant HTTP pour transférer des fichiers, de même que SMTP (Simple Mail Transfer Protocol) pour transférer le courrier électronique. Le mécanisme d'adressage, ouvert à tous les protocoles, permet d'accéder des pages HTML aussi bien que des fichiers et des boîtes à lettre. Toutes ces ressources s'ajoutent donc immédiatement à celles gérées par des serveurs HTTP (souvent nommés serveurs Web).

HTML participe aussi à cette ouverture des technologies. C'est un format très répandu sur le Web, qui contribue fortement à la cohésion de l'ensemble, essentiellement à travers ses liens hypertexte qui fournissent un accès très simple à toutes sortes de ressources. En effet, un lien consiste essentiellement en un URI et peut donc référencer n'importe quelle ressource. Mais HTML n'est pas, et de loin, le seul format de document du Web. Des formats conçus indépendamment sont également supportés, et d'autres formats ont été, sont et seront développés spécifiquement pour le Web.

Évolutions

Malgré ses nombreux attraits, le Web des débuts avait quelques limites. Il permettait de partager des pages d'information essentiellement textuelles et en anglais, avec quelques images, le tout accédé par un utilisateur humain à partir d'une station de travail ou d'un PC relié à l'Internet.

Les évolutions en cours tendent à faire tomber les limites des débuts. Elles couvrent des domaines très variés, notamment la structure des documents, l'internationalisation, le multimédia, les appareils d'accès et les nouvelles applications.

Une évolution majeure est celle du Web sémantique [2]. Dans le Web des débuts, seul un humain peut réellement utiliser l'information disponible sur le Web. Les machines ne sont pas capables de l'interpréter et ne fournissent donc que des outils de localisation, de transfert, de mise en forme et de présentation. Dans le Web sémantique, l'information a une signification explicite, ce qui permet aux machines de la traiter réellement. Cette nouvelle vision du Web s'appuie sur deux concepts :

une représentation plus riche, plus structurée, plus rigoureuse de l'information elle-même, condition première pour que des programmes puissent agir sur le contenu,
des méta-données, c'est-à-dire une description externe rigoureusement formalisée de l'information principale. Des calculs sur les méta-données permettent d'inférer des propriétés sur les données qu'elles décrivent.

Une autre évolution du Web est induite par l'augmentation de la couverture géographique de l'Internet. Des populations de plus en plus variées accèdent au réseau. La multiplicité des langues devient primordiale. Tous les systèmes d'écriture doivent être utilisables, séparément ou ensemble, dans de véritables documents multilingues. En plus de l'enrichissement sémantique évoqué plus haut, il devient nécessaire d'adopter des représentations universelles des contenus textuels.

En même temps que les textes deviennent plus riches, d'autres média s'y ajoutent. On peut déjà voir des images fixes et animées et entendre de la musique sur le Web. Mais pour l'instant, il s'agit plutôt de juxtaposition de média, pas vraiment d'intégration. Or c'est l'interaction fine entre les média qui fait la réelle valeur du multimédia. Les problèmes d'intégration qui sont à régler pour le multimédia rejoignent très largement les problèmes de structuration des documents : il faut structurer dans l'espace et dans le temps des contenus de différentes formes.

La variété des formes d'information va avec celle des appareils d'accès. Il semble naturel de présenter des documents multimédia non seulement sur un PC, mais aussi sur un téléviseur. La téléphonie mobile de troisième génération doit se déployer bientôt. Elle intègre également le multimédia, qui devra s'afficher sur les nouveaux terminaux. Une première expérience d'intégration des téléphones mobiles dans Web a été faite avec le WAP. Elle a plutôt permis de comprendre les erreurs à ne pas faire, et les leçons ont été tirées pour la prochaine génération. Il y aura bientôt plus de téléphones ayant accès au Web que de PC. Et il ne faut pas oublier les autres appareils mobiles (ordinateurs portables, assistants personnels, ordinateurs de bord, caméras, etc.), ni les multiples appareils fixes (écrans muraux, réfrigérateurs, etc.). Il est important que les sources d'information soient adaptées, ou au moins adaptables, à une telle variété d'appareils aux caractéristiques aussi différentes. La page HTML habituelle ne convient plus, sans au moins quelques adaptations.

Une population d'utilisateurs plus nombreuse et plus variée, une information plus riche, des appareils aux capacités différentes, tout cela motive le développement de nouvelles applications, et en particulier celles qu'on appelle les services Web. Ce sont des applications réparties qui se constituent en utilisant des composants logiciels disponibles sur le Web. Chaque composant réalise une fonction particulière et la combinaison de ces fonctions constitue un service nouveau. Là encore, la représentation de l'information échangée entre les composants est primordiale. Elle doit être suffisamment rigoureuse et riche pour que chacun puisse comprendre ce qui vient des autres et effectuer ses propres traitements.

Nouvelles technologies Web

De nouvelles technologies sont nécessaires pour accomplir ces évolutions, mais il s'agit d'évolutions progressives, qui doivent enrichir le Web sans altérer ce qui fonctionne déjà. Les principes d'architecture [3] du Web doivent être préservés : décentralisation, ouverture, modularité, extensibilité, simplicité.

Un des composants de base pour l'évolution du Web est XML (Extensible Markup Language). C'est un langage pour la représentation des données et documents structurés. Il a la particularité de n'avoir aucune sémantique et peut donc s'appliquer à n'importe quelle application, pour représenter l'organisation de tout type de donnée ou de document. Il est ouvert et extensible. Il peut être spécialisé pour décrire au mieux chaque type de données. Toutes ces caractéristiques ont été mises à profit pour définir des formats de documents bien adaptés au Web.

Pour commencer, HTML a été redéfini en XML. XHTML, le résultat de cette opération, est un langage qui permet de représenter le même type de pages que HTML, mais avec la rigueur de XML en plus, ainsi que toutes les possibilités liées à XML. Un des premiers bénéfices de cette évolution est la possibilité d'inclure dans les pages XHTML de nouveaux types d'éléments, eux-mêmes structurés et représentés en XML. Deux exemples notables sont le langage MathML, pour les expressions mathématiques, et le langage SVG (Scalable Vector Graphics), pour les graphiques vectoriels. En utilisant ces trois langages, on peut représenter des documents riches, où les graphiques et les équations ne sont pas réduites à de simples matrices de pixels, mais ont leur vraie structure. En particulier, les fragments de texte qui apparaissent dans ces objets sont représentés en tant que tels, et peuvent donc être recherchés et indexés.

Un autre avantage de la structuration en XML est que la structure et le contenu des documents sont seuls représentés, pas leur style ou leur aspect graphique. Ceux-ci sont décrits séparément, à l'aide de feuilles de styles écrites dans des langages appropriés comme CSS (Cascading Style Sheets) ou XSL (Extensible Stylesheet Language). Cela permet en particulier d'adapter le document à son contexte d'utilisation (capacités de l'appareil de restitution, handicaps de l'utilisateur) en choisissant les feuilles de style qui conviennent le mieux, mais sans changer le document lui-même.

XML fait partie d'une famille de technologies qui ne se limite pas à un langage de représentation de structure. Il y a les schémas XML qui sont des modèles de structure. Les schémas définissent les éléments utilisables dans chaque langage XML et expriment les règles qui régissent l'assemblage de ces éléments pour construire des structures de documents valides. Grâce aux schémas, un programme peut vérifier qu'un document est bien structuré. Il peut alors le traiter plus sûrement, puisqu'il « sait » que les règles du schéma sont respectées.

De même qu'il existe des langages d'interrogation pour accéder aux bases de données, il existe maintenant des langages comme XQuery pour accéder aux données et documents structurés en XML. Avec de tels langages, tout document structuré en XML peut être exploité de multiples façons. D'autres langages encore permettent des traitements d'une nature différente, comme la transformation. C'est le cas de XSLT, un langage déclaratif qui permet d'exprimer des transformations à appliquer à des classes de documents XML. Cela permet de dériver automatiquement plusieurs documents différents, dans différents formats, à partir d'une seule source XML. XSLT est aussi largement utilisé pour adapter un document à son contexte d'utilisation, quand il s'agit d'aller au-delà d'un changement de style.

XML permet de représenter des documents très variés, pas seulement l'équivalent des pages Web habituelles. Il permet ainsi à chaque secteur d'activité de définir le format de document qui lui convient. Il permet également de structurer les données que s'échangent les applications sur le Web. Il permet de représenter des structures peu habituelles dans les documents conventionnels, comme la structure temporelle des documents multimédia (voir le langage SMIL). Il peut représenter des documents contenant du texte dans toutes les langues, grâce à l'utilisation d'Unicode.

Même si XML a un grand pouvoir de description des documents, il n'en décrit que la structure, pas le contenu ou le sens. XML apporte beaucoup pour réaliser la vision du Web sémantique, mais il doit être complété par un autre moyen, qui s'intéresse au sens des données disponibles. On entre là dans le domaine des méta-données et de RDF, un langage d'usage général pour la description des informations du Web.

Impact

Toutes ces évolutions et ces technologies nouvelles vont changer la façon dont nous utilisons le Web. Le premier effet est une forte incitation à décrire l'information d'une façon structurée et rigoureuse, indépendamment d'un outil particulier. L'époque des « gourous » du Web, qui savaient jongler avec le langage HTML pour qu'une page soit bien rendue par un browser particulier, est révolue. Les formats nécessaires sont maintenant disponibles. Pour permettre aux nouvelles applications et aux nouveaux appareils de tirer profit de l'information que nous publions, il faut respecter ces formats. Sinon, l'information produite sur mesure pour l'outil à la mode au moment de la publication deviendra inaccessible et inexploitable dès que cet outil aura disparu.

Heureusement, en même temps que les nouveaux formats apparaissent les outils qui les supportent deviennent disponibles, en particulier les outils de création et de mise à jour. Les bons outils XML sont capables de garantir que les documents qu'ils produisent sont conformes aux schémas choisis. Il devient aussi plus facile de vérifier la qualité de ces outils avec les différents services de validation et les suites de tests disponibles.

On dispose maintenant de formats ouverts, c'est à dire complètement documentés, mis en oeuvre dans des applications différentes qui proviennent de plusieurs sources. Cela garantit la pérennité de l'information et donne les meilleures chances de pouvoir l'exploiter pendant longtemps, même avec des applications qui ne sont pas disponibles aujourd'hui.

Ces formats ouverts sont eux-mêmes définis de façon ouverte et coopérative, pour la plupart par le W3C (World Wide Web Consortium). Ils bénéficient de l'expérience des experts du domaine et des contributions des principaux industriels impliqués. Ils garantissent la pérennité de nos données et leur intégration dans le Web de demain.

DOCUMENTS STRUCTURÉS SUR LE WEB STRUCTURED DOCUMENTS ON THE WEB

Les débuts du Web

Évolutions

Nouvelles technologies Web

Impact

DOCUMENTS STRUCTURÉS SUR LE WEB
STRUCTURED DOCUMENTS ON THE WEB