Cet atelier a pour objectif de mettre en commun l'expérience des développeurs de systèmes de données reposant sur le Web pour les sciences de la Terre et de promouvoir l'interfonctionnement de ces systèmes et des échanges logiciels. Il s'agit également d'offrir sur le Web de meilleurs outils de localisation des ressources en science de la Terre et, plus particulièrement, de permettre une recherche reposant sur la géographie ainsi que d'échanger des informations avec les systèmes de données modernes des sciences de la Terre. Cet atelier est sponsorisé par le groupe de travail WWW du CEOS (Committee on Earth Observation Satellites).
Dès les débuts du Web, les instituts de recherche et les fournisseurs de données reccueillies par satellites ont utilisé le Web comme moyen de présentation des données. Les données provenant des satellites sont particulièrement adaptées au Web, car les résultats peuvent quasiment toujours être représentés en images. Les données dérivées, telles que les températures de surface des océans, sont également représentées par des images en couleurs interprétées. Les données en temps réel, par exemple celles des satellites météorologiques, offrent un intérêt immédiat pour une utilisation d'ordre général et ces sites sont très visités.
Le soucis de recherche sur une évolution globale a mis en évidence le besoin de rassembler et de distribuer à l'échelle mondiale des données liées à l'environnement, à la modélisation et à la recherche. Plusieurs programmes internationaux sont en cours de développement afin de satisfaire ce besoin, tels que l'ENRM (Environment and Natural Resources Management) du G7, les programmes UNEP GRID, GCDIS et autres. Ces types d'informations et de données se caractérisent par leur emplacement géographique et leur temps d'acquisition. Elles sont, en cela, similaires aux données reccueilies à distance.
La première génération de serveurs Web consacrés aux sciences de la Terre se caractérisait principalement par des ressources publicitaires et des exemples d'images. Cependant, l'expérience a montré que les systèmes d'informations distribuées devaient fournir l'accès aux informations et aux données. Ainsi, des efforts plus importants sont désormais consacrés à la mise en interface avec le Web des catalogues, inventaires et bases de données. Il existe en général quatre niveaux d'information.
1) Inventaires des centres de données, des chercheurs, des journaux scientifiques et des documents. Nous appelons cela un répertoire virtuel de pages jaunes.
2) Archives de métadonnées. Les métadonnées fournissent des informations sur les données. C'est-à-dire qu'elles contiennent suffisamment d'informations spécifiques pour indiquer au chercheur le lieu, le moment, la qualité, les paramètres de mesure et autres attributs concernant un ensemble de données particulier. Cet ensemble peut être commandé de façon autonome. Les métadonnées résident souvent dans les systèmes de catalogues des fournisseurs de données.
3) Accès aux données brutes elles-mêmes. Après avoir localisé un ensemble de données, l'utilisateur peut souhaiter le télécharger. Plusieurs serveurs donnent accès aux données brutes de cette manière. Ces données sont actuellement gratuites. Les implications d'une politique de paiement et de disponibilité des données recoupent les problèmes des services commerciaux sur le Web. Ce type de service est principalement limité par la bande passante des réseaux. De plus, des développements récents permettent aux applications d'accéder à distance aux données par le biais de serveurs http.
4) Services de données en ligne. Ce type de services offre un accès à des applications logicielles qui agissent sur les données du site local et affichent généralement les résultats sous forme graphique par le biais de code html généré "à la volée". Des exemples plus sophistiqués de ces services accédent aux données à distance : l'utilisateur place des données sur son serveur, entre l'URL menant à l'application à distance via l'interface des formules html, puis l'application récupère les données de l'utilisateur, les traite et affiche les résultats sur la page html suivante.
On trouve un certain nombre d'exemples du type 1 et 2, quelques-uns du type 3 et très peu du type 4. Les développements rapides actuels en logiciels, bandes passantes et exigences de recherche vont à l'avenir bouleverser cet équilibre. Cet atelier constitue donc un bref forum pour débattre de ces futurs développements et orientations, de ce que permettent les bandes passantes réseau actuelles et de ce qui sera possible demain grâce au développement de la technologie et de ces bandes passantes.
Cet atelier est divisé en trois sessions principales qui reflètent approximativement les développements actuels en matière de services d'observation et de sciences de la Terre.
Cette session concerne les techniques destinées à faire connaître et à
localiser des ressources référencées géographiquement sur
Internet. Elle traite également de la manière d'établir une
coopération entre des sites et de leur interfonctionnement.
Contact : Clive Best (CEO/JRC) clive.best@jrc.it
Il existe actuellement un grand nombre d'archives de données sur les sciences et l'observation de la Terre qui sont gérées indépendamment et sous diverses formes :
Cependant, quelles que soient ces différences, la plupart des archives tiennent à jour un "catalogue" de leurs données dans un format utilisable par les applications (par exemple, via un SGBDR) et fournissent des méthodes pour :
Jusqu'à présent, le logiciel destiné à effectuer ces opérations a généralement limité ses utilisateurs à (1) exécuter le logiciel sur un hôte désigné, en général par le biais d'un compte captif, ou à (2) installer un client personnalisé sur leur propre plate-forme pour accéder à un serveur personnalisé du site archive.
Toutefois, l'essor du WWW a permis aux sites d'archivage de fournir des interfaces accessibles par le Web (ou "passerelles") pour leurs fonctions de recherche, de consultation et de commande. Ces passerelles peuvent permettre aux utilisateurs de rechercher et de récupérer des données à l'aide d'un outil courant, tel que le logiciel de navigation WWW, pouvant fonctionner sur leur machine locale.
Dans les systèmes distribués de récupération de données (par exemple, EOSDIS), des passerelles (qui opèrent en tant que "serveurs") peuvent, tour à tour, jouer le rôle de clients d'un ou plusieurs serveurs secondaires, et ce même sur plusieurs autres sites.
Malheureusement, l'approche "passerelles" présente des inconvénients :
Cette session présentera plusieurs passerelles WWW donnant accès aux archives existantes de systèmes d'observation et de sciences de la Terre. Les approches architecturales et conceptuelles (ainsi que leurs avantages et coûts respectifs) feront également l'objet d'un débat, tout comme la nouvelle technologie "applet" de Java.
Les technologies WWW ont considérablement développé l'accès en ligne aux données de détection et de référence géographique à distance. Il existe à travers le monde des milliers de pages Web créées par des agences gouvernementales, des universités et des compagnies privées. Cette session vise à discuter des accès en ligne à des données à distance, ainsi que des outils de visualisation affichant et manipulant ces données.
Le Web s'est considérablement développé et a fortement tiré parti d'une infrastructure reposant sur quelques standards basiques de formats de données (HTML, GIF, JPEG). Cette infrastructure offre une plate-forme à partir de laquelle peuvent se développer l'évolution, la compétition et l'expérimentation au moyen de standards étendus (comme VRML, HTML 3, etc.). Sans ces solides fondations, avec sa technologie de pointe et son évolution rapide, l'environnement du Web n'existerait pas.
Les systèmes actuels donnant accès aux données à distance utilisent de nombreux formats dont les formats standard et natifs tels que Hierarchical Data Format (HDF), Committee on Earth Observing Satellites (CEOS) Superstructure, network Common Data Format (netCDF), Common Data Format (CDF), Binary Universal Format for the Representation of meteorological data (BUFR) et le format Gridded and Binary (GRIB). Pour obtenir une description de ces formats de données, visitez les sites suivants : Data Standards and Formats et Scientific Data Format.
De même, la mise en place de quelques formats standard, pris en charge de manière efficace par les outils et bibliothèques logiciels, destinés à l'échange de données et de métadonnées à distance sur le Web est susceptible de créer un environnement stable à partir duquel la communauté d'observation de la Terre pourra évoluer de manière dynamique. Le Web permet de faciliter considérablement l'accès aux données scientifiques et leur échange.
Les données de détection à distance produites par les satellites d'observation de la Terre sont généralement volumineuses et varient en format et en contenu. Elles ont pratiquement toutes un lien en commun : une référence géographique exprimée au moyen d'une longitude et d'une latitude. En liant différents types de données à l'aide de ces références, il sera possible de visualiser plusieurs types de données pour une seule zone ou région. De nombreux systèmes d'information généralisés exploitent actuellement ce concept.
Cette session concerne les techniques d'accès aux ensembles de données des sciences de la Terre, leur visualisation et le développement d'applications distribuées sur le WWW. L'objectif premier de cette session est d'enquêter sur les outils actuellement disponibles pour accéder aux données à distance de détection et de références géographiques et de lier ces outils pour améliorer leur fonctionnement. La communauté reccueillant des données à distance à l'aide des outils actuels a besoin d'un modèle Web.
Cette session vise également à développer une architecture destinée à la mise en relation de divers outils reposant sur le Web. Une architecture de ce type a été proposée dans l'exposé intitulé "A Web-based science data server - DAAC-in-a-Box" et utilisait HDF comme base. DAAC-in-a-Box est un ensemble d'outils logiciels liés ensemble afin de cataloguer et d'afficher des données et des métadonnées au format HDF. Cette architecture est souple, modulaire, extensible et peut donc facilement inclure de nombreux autres formats de données et outils de visualisation.
Internet propose un grand nombre d'outils de visualisation. Les deux sites suivants répertorie bon nombre de ces outils pour différents formats de données : SS Lab, DAO. Au cour de cette session, nous avons l'intention de produire une liste exhaustive des outils de visualisation.
Ces outils peuvent être liés à des serveurs de données à l'aide de scripts. Si les données résident sur un serveur http, le logiciel approprié peut être automatiquement appelé en fonction du format des données. Dans ce processus, l'organisation logique des données s'avère très importante.
Le débat de cette session sera principalement axé sur la manière de traiter les ensembles de données volumineux. La compression des données, le sous-échantillonnage en temps réel et la consultation peuvent résoudre certains problèmes liés à de tels outils.
Il existe quelques visualiseurs spécifiques aux sciences de la Terre. Par exemple, les données de la NASA formatées en HDF fonctionnent avec Collage, EOS View, les outils Spyglass et IDL. D'autres données présentées dans divers formats, tels que CDF, CEOS superstructure, net CDF, BUFR et GRIB, sont toutes prises en charge par des visualiseurs. Un grand nombre de ces outils peut être associé à des extensions de type MIME. Ainsi, l'architecture DAAC-in-a-Box fournit une option permettant d'inclure les extensions de type MIME.
Les récents développements du langage, des scripts et des applets Java ont un impact considérable sur le développement des outils de visualisation. Les outils développés à l'aide de ces nouvelles technologies amélioreront la portabilité du code et conduiront au développement d'applications indépendantes des plates-formes. Mike Folk (NCSA) conduira le débat en présentant l'utilisation de Java dans le domaine des formats de données et ses conséquences. L'utilisation d'applets et de scripts Java constitue une possibilité pour le développement de certains outils applicatifs.
Contact : R. Suresh (NASA/HSTX) suresh@ulabsgi.gsfc.nasa.gov