Types de déclaration de langues

Sur la toile, il est toujours important d’associer un contenu donné à des informations sur la langue. Il est important d’une part que le contenu puisse être traité et présenté de manière correcte au lecteur, et d’autre part que la ou les langues du public visé par la ressource dans son ensemble soient connues. Il s’agit là de deux choses différentes. La technologie doit pouvoir offrir des méthodes distinctes d’exprimer chaque information et ces méthodes doivent être utilisées de manière appropriée par les auteurs de contenus.

Nous décrivons dans cet article la différence entre ces deux types d’informations linguistiques : « métadonnées » et « traitement du texte ».

La langue de traitement du document

Un navigateur ou autre application a en général besoin de tenir compte de la langue lors de l’affichage ou de la manipulation de contenus. Ceci inclut aussi bien la lecture d’un texte dans un navigateur vocal, l’exécution d’un correcteur orthographique, le style des fins de lignes, les césures, le choix des polices par défaut et beaucoup d’autres choses qui doivent être accomplies de manière linguistiquement appropriée. Pour ceci, l’application doit connaître la langue spécifique qui s’applique à une étendue donnée de texte.

Il s’agit donc par nécessité d’associer à la totalité ou à des étendues données du texte de la ressource en question une seule langue. Alors que le public visé peut lui utiliser plus d’une langue, une étendue donnée de texte ne peut être associée qu’à une seule langue à la fois.

En HTML, la langue de traitement d’un texte est spécifiée à l’aide de l’attribut lang. Cet attribut peut être utilisé pour spécifier la langue de la totalité de la page ainsi que la langue des fragments où celle-ci est modifiée.

<html lang="fr">

...

<p>Le titre du livre est "<cite lang="el">Κάνοντας τον Παγκόσμιο Ιστό πραγματικά Παγκόσμιο</cite>".</p>

Ce besoin de précision a des implications sur la manière de déclarer la langue de traitement du texte. C’est la raison pour laquelle l’attribut lang autorise seulement la spécification d’une seule langue.

Métadonnées : la langue du public visé

Les métadonnées qui décrivent la ou les langues du public visé couvrent le document/la ressource dans son ensemble. Ces métadonnées peuvent être utilisées pour effectuer des recherches, offrir une version linguistique correcte, gérer l’écoulement des tâches, la classification, etc.

La langue du public visé n’inclut pas forcément toutes les langues utilisées dans un document. De nombreux documents sur la toile incluent des fragments de contenus en plusieurs langues alors que la page elle-même est clairement destinée au public d’une langue donnée. Par exemple, un guide en allemand de la ville de Beijing peut inclure des phrases utiles en chinois mais a pour cible un public allemand et non pas un public chinois.

D’un autre côté, il est également possible pour une page d’offrir un contenu donné ou analogue dans plus d’une langue. Par exemple, une page d’un site canadien peut accueillir les lecteurs avec des contenus en français dans la colonne de gauche et le même contenu, mais en anglais dans la colonne de droite. Ici, le document a pour cibles égales des publics des deux langues, il y a donc deux langues cibles. Cette situation se retrouve dans les communautés multilingues et est moins courante sur la toile que dans les médias imprimés, car il est facile sur la toile de proposer des liens vers les pages séparées de publics différents. Une autre utilisation type est un blog ou une page d’informations destinée à une communauté multilingue où certains articles de la page sont dans une langue et d’autres articles dans une autre, par exemple, un forum utilisé par une communauté pendjabi peut contenir des articles en anglais, en hindi ou en pendjabi dans un seul et même fil.

Il existe également des pages où les données de navigation, y compris le titre de la page, sont dans une langue, mais le contenu réel de la page est dans une autre langue. Bien que ceci ne soit pas une bonne pratique, ceci ne modifie en rien le fait que la langue du public visé est en général celle du contenu, quelle que soit la langue au sommet du document.

Pour une page HTML, les métadonnées relatives au public visé peuvent être exprimées dans l’en-têtdésape HTTP Content-Language. Cet en-tête peut contenir plusieurs valeurs.

Content-Language: en, hi, pa

Les pages HTML contiennent parfois un élément meta qui peut déclarer des langues de manière similaire, par exemple <meta http-equiv="content-language" content="en, fr"/>, mais cette méthode est maintenant désapprouvée et ne devrait pas être utilisée (pour en savoir plus, voir En-têtes HTTP, éléments meta et informations sur la langue).

Déduire la langue de traitement du texte à partir des métadonnées

Dans certains cas, il peut être possible de déduire la langue de traitement du texte à partir des métadonnées de la ressource, mais ce n’est pas toujours le cas.

Si la valeur des métadonnées est une liste de plus d’une langue, il devient nécessaire d’avoir un moyen d’identifier la langue qui doit être utilisée pour traiter le document.

Par ailleurs, alors que le traitement de la langue le demande (c.-à-d. d’une manière qui autorise l’application correcte de la lecture de texte, du style, des polices, etc. à des parties différentes du document), il n’est pas possible d’associer l’information relative au public visé à une partie donnée de la page ou du document lorsque celui-ci contient des changements de langue.

Lors du développement de nouvelles technologies ou de formats de données, les développeurs doivent donc offrir des méthodes distinctes pour exprimer les langues du public visé et les langues de traitement du texte.

Les structures disponibles doivent également être utilisées de manière appropriée par les développeurs de contenu.

Pour en savoir plus sur la manière de spécifier la langue en HTML, voir Déclarer la langue en HTML.