Dans le HTML 4 basé sur SGML, il est possible d'omettre la balise de fin de certains éléments ; en considérant que l'élément suivant créé une balise de fin implicite. Cette omission n'est plus autorisée dans le XHTML basé sur XML. Tous les éléments autres que ceux déclarés dans la DTD comme EMPTY doivent posséder une balise de fin.

CORRECT : éléments terminés

here is a paragraph.

here is another paragraph.

4.4 Les valeurs d'attributs doivent être toujours mise entre guillemets

Toutes les valeurs d'attributs doivent être mise entre guillemets, mais celles qui semblent être numériques.

CORRECT : valeurs d'attributes entre guillemets

INCORRECT : valeurs d'attributs sans les guillemets

4.5 Minimisation de l'attribut

XML ne supporte pas la minimisation de l'attribut. la paire Valeur-Attribut doit être écrite au complet. Les noms d'attributs tels que compact et checked ne peuvent pas pris comme éléments sans spécifier leurs valeurs.

CORRECT : attributs non minimisés

INCORRECT : attributs minimisés

4.6 Eléments vides

les éléments vides doivent toujours avoir une balise de fin ou la balise de début doit se terminer avec />. Par exemple, ou

. Voir les règles de compatibiltés HTML pour obtenir de l'information sur les moyens d'assurer une compatibilité antérieure avec les agent utilisateurs HTML 4.

CORRECT : balises vides terminées

INCORRECT : balises vides non terminées

4.7 Traitement des espacements dans les valeurs d'attribut

Dans les valeurs d'attributs, les agent utilisateurs oteront les espacements de début et de fin des valeurs d'attributs et dresseront une séquence d'un ou plusieurs caractères d'espacements (tels que les retours de lignes) à un unique espacement inter mots (un caractère d'espacement ASCII pour les écritures occidentales). Voir Section 3.3.3 of [XML].

4.8 Les éléments Script et Style

En XHTML, les éléments script et style elements sont déclarés comme ayant un contenu de type #PCDATA. Ainsi, < et & seront traités comme le début d'un balisage, et les entités comme < et & seront reconnus comme des références d'entités par le processeur XML, soit < et & respectivement. Emballer le contenu des éléments script ou style à l'intérieur d'une section marquée CDATA évitera la transformation de ces entités.

les sections CDATA sont reconnus par le processeur XMLet apparaissent commes des noeuds dans le Modèle Object de Document (Document Object Model), voir Section 1.3 de la Recommandation DOM Niveau 1 [DOM].

Une alternative est d'utiliser des scripts et des styles externes.

4.9 Exclusions SGML

SGML donne au rédacteur d'une DTD la possibilité d'exclure la présence de certains éléments à l'intérieur d'un élément. Une telle interdiction (appelée "exclusions") n'est pas possible en XML.

Par exemple, la DTD HTML 4 Stricte interdit l'emboîtement d'un élément 'a' dans un autre élément 'a' à quelques profondeurs que ce soit. Il n'est pas possible de définir ce type d'interdiction en XML. Bien que cette interdiction ne puisse être défini dans la DTD, certains éléments ne devraient pas être emboîtés. Un sommaire de ce type d'éléments et des éléments qui ne devraient pas être emboîtés en leur sein est fournie dans l'Appendice B.

4.10 Les éléments avec les attributs 'id' et 'name'

HTML 4 a défini l'attribut name pour les éléments a, applet, form, frame, iframe, img, and map. HTML 4 a également introduit l'attribut id. Ces deux attributs ont été conçus pour être utilisés comme des identificateurs partiels.

En XML, Les identificateurs partiels sont de type ID, et il ne peut y avoir qu'un unique attribut ID par élément. En XHTML 1.0 l'attribut id est aussi défini de type ID. Pour s'assurer que les documents XHTML 1.0 sont des documents XML correctement structurés, les documents XHTML 1.0 DOIVENT utiliser l'attribut id quand l'identificateur partiel est défini, même sur les éléments qui historiquement ont également un attribut name. Voir les règles de compatibilité HTML pour obtenir de l'information pour assurer une compatibilité antérieures lorsque les ancres pointent sur des documents XHTML en tant que type de média text/html.

Notez qu'en XHTML 1.0, l'attribut name de ces éléments est formellement abandonné, et il sera éliminé dans les versions suivantes de XHTML.

5. Problèmes de compatibilité

Bien qu'il ne soit pas obligatoire que les documents XHTML 1.0 soient compatibles avec les agent utilisateurs actuels, cette option est facilement réalisable. Les régles pour créer des documents compatibles peuvent être trouvées dans l'Appendice C.

5.1 Type de Media Internet

Comme la publication de cette recommandation, le nommage MIME général recommandé pour les applications n'a pas encore été résolus.

Cependant, les documents XHTML qui suivent les régles définies dans l'Appendice C, "HTML Compatibility Guidelines" peuvent être nommés avec le Type Media Internet "text/html", lorsqu'ils sont compatibles avec la plupart des navigateurs HTML. Ce document ne fait aucune recommandation à propos du choix du nommage MIME pour les autres documents XHTML.

6. Directions futures

XHTML 1.0 fournit les bases d'une famille de types de documents qui étendront et définiront des sous-ensembles XHTML, de façon à maintenir une large variété de nouveaux matériels et d'applications, en définissant des modules et en spécifiant le mécanisme pour combiner ces modules. Ce mécanisme permettra l'extension et la construction de sous-ensembles de XHTML 1.0 de façon unique à travers la définition de nouveaux modules.

6.1 Modularisation de HTML

Comme l'utilisation de XHTML se fait des agents utilisateurs traditionnels vers d'autres plateformes, il est clair que tous les éléments XHTML ne seront pas nécessaires sur toutes les plateformes. Par exemple, un ordinateur de poche ou un téléphone cellulaire peuvent seulement maintenir un sous-ensemble d'éléments de XHTML.

Le processus de modularisation éclate XHTML en une séries d'ensembles d'éléments plus petits. Ces éléments peuvent être recombinés afin de remplir les besoins de différentes communautés.

Ces modules seront définis ultérieurement dans un document W3C.

6.2 Sous-ensembles et extensibilité

La modularisation apporte certains avantages :

Cela donne un mécanisme formel pour créer des sous-ensembles XHTML.
Cela donne un mécanisme formel pour étendre XHTML.
Cela simplifie la transformation entre les types de documents.
Cela permet la réutilisation de modules dans de nouveaux types de document.

6.3 Profils de document

Un profil de document spécifie la syntaxe et les sémantiques d'un ensemble de documents. La conformité à un profil de document donne une base pour garantir l'interopérabilité. Le profil de document spécifie les aménagements obligatoires pour traiter les documents de ce type, c.à-d. quels formats d'images peuvent être utilisés, niveaux de scripting, maintenance des feuilles de style, ainsi de suite.

Les créateurs de produits cela permet à des groupes différents de définir leur propre profil standard.

Pour les auteurs, cela permet d'éviter d'écrire différentes versions d'une même document pour différents clients.

Pour des groupes particuliers comme les chimistes, les docteurs en médecine, ou les mathématiciens cela permet de construire un profil particulier en utilisant les éléments HTML standard, plus un groupe d'éléments spécifiques aux besoins de la spécialité.

Appendice A. DTDs

Cet appendice est normatif.

Ces DTDs et ces ensembles d'entité forme une partie normative de cette spécification. L'ensemble complet des fichiers DTD ainsi que la déclaration XML et le SGML Open Catalog sont inclus dans le fichier zip pour cette spécification.

A.1 Définitions de Type du Document

Ces DTDs s'approchent des DTDs HTML 4. Il est préferrable lorsque les DTDs sont modularisées, d'employer une méthode de construction de la DTD qui se rapproche de HTML 4.

A.2 Ensembles d'entité

Les ensembles d'entité XHTML sont les mêmes que pour HTML 4, mais ont été modifiés pour des déclarations d'entités XML 1.0 valides. Notez que l'entité pour le symbole de la monnaie européenne Euro (€ ou € ou €) est défini comme faisant parti des caractères spéciaux.

Appendice B. Interdictions d'élément

Cette appendice est normatif.

Les éléments suivants ont des interdits sur les éléments qu'ils peuvent contenir (voir Section 4.9). Cette interdiction s'applique à toutes profondeurs d'emboîtements, c.à-d. pour tous les éléments fils.

a: ne peut pas contenir d'autres éléments a.
pre: ne peut pas contenir les éléments img, object, big, small, sub, ou sup.
button: ne peut pas contenir les élémentsinput, select, textarea, label, button, form, fieldset, iframe ou isindex.
label: ne peut pas contenir d'autres éléments label.
form: ne peut pas contenir d'autres élémentsform.

Appendice C. Règles de Compatilité HTML

Cet appendice est informatif.

Cet appendice résume les règles pour les auteurs qui souhaitent que leur document XHTML s'affiche sur les agents utilisateurs existants.

C.1 Instructions de traitement

Vérifiez que les instructions de traitement s'éxécutent sur les agent utilisateurs. Cependant, notez également que si la déclaration XML n'est pas incluse dans un document, le document peut utiliser uniquement le jeu de caractère par défaut UTF-8 ou UTF-16.

C.2 Eléments vides

Inclure un espacement avant le / et >de fin des éléments vides, par exemple , et . Utilisez également une syntaxe minale pour les éléments vides, par exemple , comme syntaxe alternative de qui est autorisé par XML, car cela donne des résultats inattendus dans certains agents utilisateurs.

C.3 Minimisation d'élément et contenu d'élément vide

Soit une occurrence vide d'un élément dont le modèle de contenu n'est pas EMPTY (par exemple, un titre ou un paragraphe vide), n'utilisez pas la forme minimisée (utilisez

et non pas

C.4 Les feuilles de styles imbriquées et les scripts

Utilisez des feuilles de style externe si votre feuille de style utilise < ou & ou ]]> ou --. Utilisez des scripts externes si vos scripts utilisent < ou & ou ]]> ou --. Notez que les parseurs XML ont le droit d'éliminer le contenu des commentaires. Par conséquent, la pratique historique de "cacher" ses scripts et ses feuilles de style au sein d'un commentaire pour rendre les documents compatibles avec les anciens navigateurs n'est pas conseillée car elle ne fonctionnera comme attendue dans les mises en oeuvre basées sur XML.

C.5 Retours de ligne à l'intérieur des valeurs d'attributs

Evitez les retours de ligne et les caractères d'espacement muliples au sein des valeurs d'attributs. Ils seront traités illogiquement par les agents utilisateurs.

C.6 Isindex

Ne mettez pas plus d'un élément isindex dans le head d'un document. L'élément isindex est abandonné en faveur de l'élément input.

C.7 Les attributs `lang` et `xml:lang`

Utilisez les deux attributs lang et xml:lang lorsque vous spécifiez le langage d'un élément. La valeur de l'attribut xml:lang est prioritaire.

C.8 Identificateurs partiels

En XML, les URIs [RFC2396] qui termine avec des identificateurs partiels de la forme "#foo" ne se réfère pas aux éléments avec un attribut name="foo" ; mais au contraire, ils se réfèrent aux éléments avec un attribut défini de type ID, c-à.d., l'attribut id de HTML 4. Beaucoup de clients HTML existants ne maintiennent pas l'utilisation des attributs de type ID de cette manière, donc des valeurs identiques doivent être fournies pour les deux attributs pour assurer une compatibilité ascendante et descendante maximum (c.à-d., ...).

Egalement, depuis que l'ensemble des valeurs légales définies pour les attributs de type ID est bien plus restreint que pour ceux de type CDATA, le type de l'attribut name a été changé en NMTOKEN. Cet attribut est contraint de manière à ce qu'il ne puisse avoir que les mêmes valeurs que celles de type ID, ou comme la production Name en XML 1.0 Section 2.5, production 5. Malheureusement, cette contrainte ne peut pas être exprimée dans les DTDs XHTML 1.0. A cause de ces changements, la plus grande attention doit être prise lors de la conversion de vos documents HTML existants. Les valeurs de ces attributs doivent être uniques à l'intérieur d'un document, valides et toutes références à ces identificateurs partiels (qu'ils soient internes ou externes) doit être mise à jour même si les valeurs doivent être changées durant la conversion

Finalement, notez que le XHTML 1.0 a abandonné l'attribut name des éléments a, applet, form, frame, iframe, img, and map, et qu'il sera éliminé dans les versions suivantes.

C.9 Encodage de caractère

Pour spécifier l'encodage de caractère dans le document, utilisez la spécification de l'attribut d'encodage dans la déclaration xml (par exemple ) et une déclaration meta http-equiv (par exemple ). La valeur de l'attribut d'encodage de instruction de traitement xml est prioritaire.

C.10 Attributs booléens

Quelques agent utilisateurs HTML sont incapables d'interprêter les attributs booléens quand ils apparaissent dans leur forme complète (non-minimisée), tels que requis par XML 1.0. Notez que ce problème n'affecte pas les agents utilisateurs compatibles avec HTML 4. Cela concerne les attributs suivants : compact, nowrap, ismap, declare, noshade, checked, disabled, readonly, multiple, selected, noresize, defer.

C.11 Modèle Objet du Document et XHTML

La recommandation de Modèle Objet du Document niveau 1 [DOM] définit les interfaces du modèle objet du document pour XML et HTML 4. Le modèle objet du document du HTML 4 spécifie que les noms des élements et des attributs HTML sont retournés en casse majuscule. Le modèle objet du document XML spécifie que les noms des élements et des attributs sont retournés dans la casse spécifiée. En XHTML 1.0, les noms des éléments et des attributs sont spécifiés dans la casse minuscule. Cette différence apparente peut être fixée de 2 manières :

Les applications qui accèdent à des documents XHTML distribués avec le type de media Internet text/html via le DOM peuvent utiliser le DOM HTML, et peuvent s'appuyer sur des noms d'éléments et d'attributs retournés en majuscule par ces interfaces.
Les applications qui accèdent à des documents XHTML distribués avec le type de media Internet text/html ou application/xml peuvent également utiliser le DOM XML. Les noms des élements et des attributs seront retournés dans la casse minuscule. Quelques éléments XHTML peuvent apparaitre ou ne pas apparaître, également, dans l'arbre d'objet parce-qu'ils sont optionnels dans le modèle de contenu (par exemple l'élément tbody à l'intérieur d'un tableau table). Cela arrive parce-qu'en HTML 4 quelques éléments avaient la permission d'être minimisés tels que leur balise de début et de fin pouvaient être toutes les deux omises (une fonctionnalité SGML). Ce n'est pas possible en XML. Plutôt que de demander aux auteurs de document d'insérer des éléments hors contexte, XHTML a rendu les éléments optionnels. Les applications ont besoin de s'adapter en respectant cela.

C.12 Utilisation de l'esperluette dans les valeurs d'attributs

Quand une valeur d'attribut contient une esperluette, il doit être exprimé comme une référence d'entité du caractère (par exemple "&"). Par exemple, quand l'attribut href de l'élément a pointe vers un script CGI qui accepte des paramètres, il doit être exprimé comme ceci http://my.site.dom/cgi-bin/myscript.pl?class=guest&name=user plutôt que http://my.site.dom/cgi-bin/myscript.pl?class=guest&name;=user.

C.13 Feuilles de Style Imbriquées (CSS) et XHTML

La recommandation des feuilles de style imbriquée niveau 2 [CSS2] définit les propriétés qui sont appliquées à l'arbre d'analyse grammaticale du document HTML ou XML. Les différences dans l'analyse produiront différents résultats sonores ou visuels, dépendant des sélecteurs utilisés. Les indicateurs suivants réduiront cet effet pour des documents qui sont distribués sans modification des deux types de média :

les feuilles de style CSS pour le XHTML devrait utiliser des noms d'éléments et d'attributs de casse minuscule.
Dans les tableaux, l'élément tbody sera déduit par le parseur d'un agent utilisateur HTML, mais pas par le parseur de l'agent utilisateur XML. Par conséquent, vous devriez toujours ajouter explicitement un élément tbody si il se réfère à un sélecteur CSS.
Au sein de l'espace nominatif XHTML, les agent utilisateurs reconnaîtront l'attribut "id" comme un attribut de type ID. Par conséquent, les feuilles de style devraient être capable de continuer à utiliser la syntaxe raccourcie "#" du sélecteur même si l'agent utilisateur ne lit pas la DTD.
Au sein de l'espace nominatif XHTML, les agent utilisateurs reconnaîtront l'attribut "class". Par conséquent, les feuilles de style devraient être capable de continuer à utiliser la syntaxe raccourcie "." du sélecteur.
Les CSS définissent différentes règles de conformité pour les documents HTML et XML ; faites attention que les règles HTML s'appliquent aux documents XHTML distribués en tant que HTML et que les règles XML s'appliquent aux documents XHTML distribués en tant que XML.

Appendice D. Remerciements

Cet appendice est informatif.

Cette spécification a été écrite avec la participation des membres du groupe de travail HTML du W3C :

Steven Pemberton, CWI (HTML Working Group Chair)
Murray Altheim, Sun Microsystems
Daniel Austin, AskJeeves (CNET: The Computer Network through July 1999)
Frank Boumphrey, HTML Writers Guild
John Burger, Mitre
Andrew W. Donoho, IBM
Sam Dooley, IBM
Klaus Hofrichter, GMD
Philipp Hoschka, W3C
Masayasu Ishikawa, W3C
Warner ten Kate, Philips Electronics
Peter King, Phone.com
Paula Klante, JetForm
Shin'ichi Matsui, Panasonic (W3C visiting engineer through September 1999)
Shane McCarron, Applied Testing and Technology (The Open Group through August 1999)
Ann Navarro, HTML Writers Guild
Zach Nies, Quark
Dave Raggett, W3C/HP (W3C lead for HTML)
Patrick Schmitz, Microsoft
Sebastian Schnitzenbaumer, Stack Overflow
Peter Stark, Phone.com
Chris Wilson, Microsoft
Ted Wugofski, Gateway 2000
Dan Zigmond, WebTV Networks

Appendice E. Références

Cet appendice est informatif.

[CSS2]: ´ Cascading Style Sheets, level 2 (CSS2) Specification ª, B. Bos, H. W. Lie, C. Lilley, I. Jacobs, 12 May 1998.
Dernière version disponible à : http://www.w3.org/TR/REC-CSS2
[DOM]: ´ Document Object Model (DOM) Level 1 Specification ª, Lauren Wood et al., 1 October 1998.
Dernière version disponible à : http://www.w3.org/TR/REC-DOM-Level-1
[HTML]: ´ HTML 4.01 Specification ª, D. Raggett, A. Le Hors, I. Jacobs, 24 December 1999.
Dernière version disponible à : http://www.w3.org/TR/html401
Version française (non complète) disponible à : http://www.la-grange.net/w3c/html401/
[POSIX.1]: ´ ISO/IEC 9945-1:1990 Information Technology - Portable Operating System Interface (POSIX) - Part 1: System Application Program Interface (API) [C Language] ª, Institute of Electrical and Electronics Engineers, Inc, 1990.
[RFC2046]: ´ RFC2046: Multipurpose Internet Mail Extensions (MIME) Part Two: Media Types ª, N. Freed and N. Borenstein, November 1996.
Disponible à http://www.ietf.org/rfc/rfc2046.txt. Note that this RFC obsoletes RFC1521, RFC1522, and RFC1590.
[RFC2119]: ´ RFC2119: Key words for use in RFCs to Indicate Requirement Levels ª, S. Bradner, March 1997.
Disponible à : http://www.ietf.org/rfc/rfc2119.txt
[RFC2376]: ´ RFC2376: XML Media Types ª, E. Whitehead, M. Murata, July 1998.
Disponible à : http://www.ietf.org/rfc/rfc2376.txt
[RFC2396]: ´ RFC2396: Uniform Resource Identifiers (URI): Generic Syntax ª, T. Berners-Lee, R. Fielding, L. Masinter, August 1998.
Ce document met à jour la RFC1738 et RFC1808.
Disponible à : http://www.ietf.org/rfc/rfc2396.txt
[XML]: ´ Extensible Markup Language (XML) 1.0 Specification ª, T. Bray, J. Paoli, C. M. Sperberg-McQueen, 10 February 1998.
Dernière version disponible à : http://www.w3.org/TR/REC-xml
Version française disponible à : http://babel.alis.com/web_ml/xml/REC-xml.fr.html
[XMLNAMES]: ´ Namespaces in XML ª, T. Bray, D. Hollander, A. Layman, 14 January 1999.
XML namespaces provide a simple method for qualifying names used in XML documents by associating them with namespaces identified by URI.
Dernière version disponible à : http://www.w3.org/TR/REC-xml-names

XHTMLMD 1.0 : Le langage de balisage hypertexte extensible

Une reformulation de HTML 4 en XML 1.0

Recommandation W3C 26 Janvier 2000

Résumé

Statut de ce document

C.1 Instructions de traitement

C.2 Eléments vides

C.3 Minimisation d'élément et contenu d'élément vide

C.4 Les feuilles de styles imbriquées et les scripts

C.5 Retours de ligne à l'intérieur des valeurs d'attributs

C.6 Isindex

C.7 Les attributs lang et xml:lang

C.8 Identificateurs partiels

C.9 Encodage de caractère

C.10 Attributs booléens

C.11 Modèle Objet du Document et XHTML

C.12 Utilisation de l'esperluette dans les valeurs d'attributs

C.13 Feuilles de Style Imbriquées (CSS) et XHTML

XHTML^MD 1.0 : Le langage de balisage hypertexte extensible

C.7 Les attributs `lang` et `xml:lang`