Ce schéma est une restriction de la recommandation TEI P5 adaptée à la structuration de livres imprimés. Cette simplification est un socle qui n'interdit pas les extensions mais au contraire précise le générique pour mieux repérer le spécifique. Ce profil TEI peut être comparé aux recommandations TEI Tite et Best Practices for TEI in Libraries, conçues pour faire référence dans les projets de numérisation de masse. Ce profil profite de l'expérience acquise et la perfectionne en insistant sur quelques autres aspects : explications en français, exemples tirés de la tradition éditoriale francophone, numérisation avec un logiciel d’OCR par du personnel non entraîné, utilisation du traitement de textes. Ce profil a été conçu en référence continuelle à HTML 5, afin d'au moins garantir la conservation de la sémantique html en TEI. Il permet d'encoder tout ce que peut produire un traitement de textes, notamment issu de la transformation Odette. Il vise à produire au moins une édition électronique de qualité (ePub avec table des matières, site en ligne), tout en permettant des enrichissements sémantiques ultérieurs.
Idéalement, tous les caractères du texte imprimé, de toutes les pages, doivent être inscrits comme des nœuds de texte. Cette attitude conservatoire évite de présumer des intérêts futurs de la recherche. La seule réserve concerne les navigations ajoutées par l’éditeur (table des matières, index) que l’on essaiera autant que possible de générer automatiquement par la structure XML.
Entités — Flux de caractères UTF-8. Toujours préférer un caractère unicode UTF-8 lorsque possible. Pas d'entités, car soit elles sont en chiffres, et elles correspondent à un caractère unicode, soit elles sont en lettres, et elles ne sont pas supportées par xml sans déclaration DTD ,  , é… Exemple : pour une espace insécable inscrire le caractère ' ' (U+00A0,  ), visible ici comme une espace mais distinguable dans certains éditeurs, de même pour les espaces fines ' ' ( U+2009,  ). Si des caractères rencontrés ne correspondent pas de façon exacte à un code unicode standard, alors utiliser <g n="{code local pour le caractère}">{approximation unicode}</g>
Guillemets — Autant que possible, on évitera les "guillemets droits", afin de favoriser les guillemets orientés, qui s'ouvrent et se ferment pour délimiter un segment, en distinguant les « guillemets français » et les “guillemets anglais”. Les guillemets français encadrent généralement du texte cité ou rapporté, d'un autre auteur que le texte environnant, et sont susceptibles (sous contrôle humain) d'être encadrés pas la balise <quote>. Les guillemets anglais encadrent généralement des segments plus courts, qui pourraient aussi paraître en italique : terme technique <term>, langue étrangère <foreign>, mot en mention <mentionned>…
Apostrophes — Autant que possible, éviter les 'apostrophes droites', pour privilégier l’apostrophe courbe et orientée.
Caractères mal supportés par certaines polices ou clients, que l'on peut cependant conserver tel quel dans la source XML, sans entité ni transcodage.
L’entête TEI <teiHeader> : non destiné à être affiché, il contient les métadonnées.
Le texte préliminaire <front> : préface, introduction… Si l’édition source comprend plusieurs types de numérotation, alors on trouvera ici le romain tandis que le body contiendra le décimal.
Le texte principal <body> : chapitre du livre, source éditée, articles de colloque, etc.
Le texte postliminaire <back> : annexes, bibliographie, index, etc.
Le paratexte éditorial – préliminaire (<front>) et postliminaire (<back>) – ainsi que les métadonnées (<teiHeader>) constituent la valeur ajoutée par l’éditeur. Ce paratexte éditorial peut aussi figurer parfois dans le <body> : dans le cas d’une édition de source par exemple, le texte édité est contenu dans le <body> ainsi que les notes (<note>, <app>) ajoutées par l’éditeur).
Le document comportera toujours un code de langue iso dans l’attribut @xml:lang en racine, on privilégiera le code deux lettres lorsque possible (mieux supporté dans la chaîne éditoriale, par ex. epub).
{anyURI} Lien à une déclaration locale de stylage (URI ancre, ex : #surtitre, vers une déclaration <rendition xml:id="surtitre"> dans <teiHeader>). L'attribut @rend est contraint dans ce schéma à une liste close de valeurs dont le traitement est garanti, @rendition permet d'ajouter d’autres classes
Chaque section (introduction, préface, etc.) est contenue dans un <div>. Si l’édition contient plusieurs types de numérotations des pages (romain, arabe), alors le <front> doit contenir une numérotation homogène (usuellement en chiffres romains).
{anyURI} Lien à une déclaration locale de stylage (URI ancre, ex : #surtitre, vers une déclaration <rendition xml:id="surtitre"> dans <teiHeader>). L'attribut @rend est contraint dans ce schéma à une liste close de valeurs dont le traitement est garanti, @rendition permet d'ajouter d’autres classes
Le texte de la page de titre doit être transcrit. La disposition est imitée avec des éléments de type bloc. Leur positionnement exact n'est pas requis. L'interprétation sémantique (auteur, titre, date, imprimeur…) n’est pas requise, les métadonnées doivent plutôt être inscrites dans le <teiHeader>. Si la page de titre est riche d’informations utiles, il est vain de vouloir l’imiter dans un XML qui ne conserve que l’information et n’engage pas la présentation que peuvent en faire les applications, on conseillera plutôt d’en conserver l’image, à lier par la référence de la page <pb facs="??">.
{anyURI} Lien à une déclaration locale de stylage (URI ancre, ex : #surtitre, vers une déclaration <rendition xml:id="surtitre"> dans <teiHeader>). L'attribut @rend est contraint dans ce schéma à une liste close de valeurs dont le traitement est garanti, @rendition permet d'ajouter d’autres classes
{anyURI} Lien à une déclaration locale de stylage (URI ancre, ex : #surtitre, vers une déclaration <rendition xml:id="surtitre"> dans <teiHeader>). L'attribut @rend est contraint dans ce schéma à une liste close de valeurs dont le traitement est garanti, @rendition permet d'ajouter d’autres classes
{anyURI} Lien à une déclaration locale de stylage (URI ancre, ex : #surtitre, vers une déclaration <rendition xml:id="surtitre"> dans <teiHeader>). L'attribut @rend est contraint dans ce schéma à une liste close de valeurs dont le traitement est garanti, @rendition permet d'ajouter d’autres classes
Si le projet éditorial ou scientifique requiert de conserver une table des matières imprimée, elle sera encodée comme une liste <list> (structure hiérarchique récursive), conformément aux conseils de la TEI. Un n° de page sera indiqué comme un lien renvoyant à l’identifiant du saut de page dans le texte <pb n="305" xml:id="pb305">.
appendix — Appendice, paratexte, généralement dans <back>
argument — Argument, paratexte, généralement en entête, parfois entre deux actes
article — Article, niveau de référence du découpage du texte. Peut être contenu dans une structuration supérieure (partie, livre…), ou contenir d'autres divisions (sections…). Ce terme ne doit pas être utilisé pour un niveau inférieur ou supérieur à la division de référence d'un texte.
book — Division de haut niveau dans un gros texte
bibliography — Bibliographie, paratexte, généralement dans <back>
chapter — Chapitre, niveau de référence équivalent à “article”, souvent la seule dans un roman.
colophon — Colophon, paratexte, généralement dans <back>
contents — Table des matières, paratexte dans <front> ou <back>
dedication — Dédicace, paratexte généralement dans <front>
epigraph — Épigraphe, paratexte généralement dans <front>
glossary — Glossaire, paratexte, généralement dans <back>
index — Index, paratexte, généralement dans <back>
interlude — Dans une pièce de théâtre, intermède, par example dansé ou musical, le texte y a un statut différent des actes pleins.
introduction — Introduction, paratexte, généralement dans <front>
letter — Lettre.
notes — Notes de fin de volume, paratexte, généralement dans <back>
poem — Un poème
postface — Postface, paratexte, généralement dans <back>
preface — Préface, paratexte, généralement dans <front>
privilege — Privilège d’imprimer, paratexte
prologue — Prologue, par exemple dans une pièce de théâtre, préférer une division typée à l’élément prologue de la TEI qui n’est autorisé que dans l’avant-texte <front>.
scene — Théâtre, scène.
section — Section non sémantisée
set — Théâtre, pages liminaires.
toc — Table des matières, synonyme de “contents”, paratexte dans <front> ou <back>
tome — Tome, dans certaines grosses tables des matières
{anyURI} Lien à une déclaration locale de stylage (URI ancre, ex : #surtitre, vers une déclaration <rendition xml:id="surtitre"> dans <teiHeader>). L'attribut @rend est contraint dans ce schéma à une liste close de valeurs dont le traitement est garanti, @rendition permet d'ajouter d’autres classes
Le texte est un arbre de sections (<div>) hiérarchiques. La hiérarchie est récursive. Il y a cependant un niveau privilégié, le chapitre ou l’article, qui correspond à l’unité documentaire référencée par la table des matières, ou au juste découpage pour l’écran. Cette unité peut être contenue dans d’autres hiérarchies (livres, tomes, volumes…), ou contenir elle-même de la hiérarchie (parties, sections, sous-sections…). L’unité documentaire sera marqué par un attribut @type avec la valeur “article” (qui correspond à la terminologie html5:article [spec]). Cette marque est indispensable pour générer automatiquement une table des matières et découper un livre en différentes pages ou fichiers.
Une section doit principalement contenir soit des blocs, soit des sections (<div>).
<!-- Une interprétation éditoriale de la Bible où un livre est considéré comme l’unité documentaire référencée par la table des matières -->
{anyURI} Lien à une déclaration locale de stylage (URI ancre, ex : #surtitre, vers une déclaration <rendition xml:id="surtitre"> dans <teiHeader>). L'attribut @rend est contraint dans ce schéma à une liste close de valeurs dont le traitement est garanti, @rendition permet d'ajouter d’autres classes
{anyURI} Lien à une déclaration locale de stylage (URI ancre, ex : #surtitre, vers une déclaration <rendition xml:id="surtitre"> dans <teiHeader>). L'attribut @rend est contraint dans ce schéma à une liste close de valeurs dont le traitement est garanti, @rendition permet d'ajouter d’autres classes
{anyURI} Lien à une déclaration locale de stylage (URI ancre, ex : #surtitre, vers une déclaration <rendition xml:id="surtitre"> dans <teiHeader>). L'attribut @rend est contraint dans ce schéma à une liste close de valeurs dont le traitement est garanti, @rendition permet d'ajouter d’autres classes
{anyURI} Lien à une déclaration locale de stylage (URI ancre, ex : #surtitre, vers une déclaration <rendition xml:id="surtitre"> dans <teiHeader>). L'attribut @rend est contraint dans ce schéma à une liste close de valeurs dont le traitement est garanti, @rendition permet d'ajouter d’autres classes
{anyURI} Lien à une déclaration locale de stylage (URI ancre, ex : #surtitre, vers une déclaration <rendition xml:id="surtitre"> dans <teiHeader>). L'attribut @rend est contraint dans ce schéma à une liste close de valeurs dont le traitement est garanti, @rendition permet d'ajouter d’autres classes
{anyURI} Lien à une déclaration locale de stylage (URI ancre, ex : #surtitre, vers une déclaration <rendition xml:id="surtitre"> dans <teiHeader>). L'attribut @rend est contraint dans ce schéma à une liste close de valeurs dont le traitement est garanti, @rendition permet d'ajouter d’autres classes
{anyURI} Lien à une déclaration locale de stylage (URI ancre, ex : #surtitre, vers une déclaration <rendition xml:id="surtitre"> dans <teiHeader>). L'attribut @rend est contraint dans ce schéma à une liste close de valeurs dont le traitement est garanti, @rendition permet d'ajouter d’autres classes
<l>Quand tu diras à Tabaqui<noten="9" place="bottom">Le Chacal.</note> : Frère, à l’Hyène : <lb/>Voici mon gibier,</l>
<l>Tu feras ta trêve avec Jacala<noten="10" place="bottom">Crocodile de rivière, habituellement charognard.</note>, le Ventre qui court <lb/>sur quatre pieds.</l>
{anyURI} Lien à une déclaration locale de stylage (URI ancre, ex : #surtitre, vers une déclaration <rendition xml:id="surtitre"> dans <teiHeader>). L'attribut @rend est contraint dans ce schéma à une liste close de valeurs dont le traitement est garanti, @rendition permet d'ajouter d’autres classes
Pour la génération automatique d’interfaces de navigation telle qu’une table des matières, il est nécessaire de disposer des titres expurgés de leur numérotation (afin d’éviter la redondance entre la numérotation inscrite en dur et la numérotation générée). À cette fin, il convient d’encoder cette numérotation avec la balise <num>. Ex. : <head><num>III. — </num>La transmission des témoignages</head>
L'attribut @xml:id est volontairement non autorisé à ce niveau pour encourager l'identification de la section enveloppante.
{anyURI} Lien à une déclaration locale de stylage (URI ancre, ex : #surtitre, vers une déclaration <rendition xml:id="surtitre"> dans <teiHeader>). L'attribut @rend est contraint dans ce schéma à une liste close de valeurs dont le traitement est garanti, @rendition permet d'ajouter d’autres classes
{anyURI} Lien à une déclaration locale de stylage (URI ancre, ex : #surtitre, vers une déclaration <rendition xml:id="surtitre"> dans <teiHeader>). L'attribut @rend est contraint dans ce schéma à une liste close de valeurs dont le traitement est garanti, @rendition permet d'ajouter d’autres classes
{anyURI} Lien à une déclaration locale de stylage (URI ancre, ex : #surtitre, vers une déclaration <rendition xml:id="surtitre"> dans <teiHeader>). L'attribut @rend est contraint dans ce schéma à une liste close de valeurs dont le traitement est garanti, @rendition permet d'ajouter d’autres classes
{anyURI} Lien à une déclaration locale de stylage (URI ancre, ex : #surtitre, vers une déclaration <rendition xml:id="surtitre"> dans <teiHeader>). L'attribut @rend est contraint dans ce schéma à une liste close de valeurs dont le traitement est garanti, @rendition permet d'ajouter d’autres classes
{anyURI} Lien à une déclaration locale de stylage (URI ancre, ex : #surtitre, vers une déclaration <rendition xml:id="surtitre"> dans <teiHeader>). L'attribut @rend est contraint dans ce schéma à une liste close de valeurs dont le traitement est garanti, @rendition permet d'ajouter d’autres classes
Usage très restrictif de <ab> dans Teibook où cet élement est utilisé en dernier recours pour représenter un ornement ou un séparateur typographique (couillard ou cul de lampe).
Pour les vers rompus du théâtre (– Hé ? – Quoi ! – Ah…), renseigner l’attribut @part qui permettra à une application de rétablir les alignements, indiquer explicitement la succession pour informer un automate : Initial (1) – Medial (0 ou n) – Final (1) Les indentations spécifiques sont à inscrire sous forme d’espaces insécables (caractère unicode équivalent à l’entité XML  ). Pour les vers numérotés, le numéro est inscrit dans l’attribut @n.
<label> Étiquette, pour un intitulé court, de niveau paragraphe ou de niveau caractère. Utilisé par exemple pour les intertitres, pour des listes de définitions, ou dans le théâtre.
{anyURI} Lien à une déclaration locale de stylage (URI ancre, ex : #surtitre, vers une déclaration <rendition xml:id="surtitre"> dans <teiHeader>). L'attribut @rend est contraint dans ce schéma à une liste close de valeurs dont le traitement est garanti, @rendition permet d'ajouter d’autres classes
{anyURI} Lien à une déclaration locale de stylage (URI ancre, ex : #surtitre, vers une déclaration <rendition xml:id="surtitre"> dans <teiHeader>). L'attribut @rend est contraint dans ce schéma à une liste close de valeurs dont le traitement est garanti, @rendition permet d'ajouter d’autres classes
Type, qualifiant l’élément parent, indépendamment de son apparence. Dans la mesure du possible, une liste d’autorité contextuelle sera proposée au niveau de l’élément.
{anyURI} Lien à une déclaration locale de stylage (URI ancre, ex : #surtitre, vers une déclaration <rendition xml:id="surtitre"> dans <teiHeader>). L'attribut @rend est contraint dans ce schéma à une liste close de valeurs dont le traitement est garanti, @rendition permet d'ajouter d’autres classes
{anyURI} Lien à une déclaration locale de stylage (URI ancre, ex : #surtitre, vers une déclaration <rendition xml:id="surtitre"> dans <teiHeader>). L'attribut @rend est contraint dans ce schéma à une liste close de valeurs dont le traitement est garanti, @rendition permet d'ajouter d’autres classes
Bloc de texte inséré dans un texte qui interrompt le fil sémantique principal, généralement séparé du texte environnant par un dispositif typographique spécifique (italique, blanc typographique, passage guillemeté). Contrairement à <quote>, le contenu de <q> ne peut pas être attribué à une origine extérieure au texte (origine fictionnelle ou non identifiable). Exemples : récit enchâssé, lettre insérée, article de presse, acte notarié, poème…
<quote> Citation, notamment les paragraphes en retrait ou/et en italique, <html5:blockquote>
{anyURI} Lien à une déclaration locale de stylage (URI ancre, ex : #surtitre, vers une déclaration <rendition xml:id="surtitre"> dans <teiHeader>). L'attribut @rend est contraint dans ce schéma à une liste close de valeurs dont le traitement est garanti, @rendition permet d'ajouter d’autres classes
Type, qualifiant l’élément parent, indépendamment de son apparence. Dans la mesure du possible, une liste d’autorité contextuelle sera proposée au niveau de l’élément.
{anyURI} Lien à une déclaration locale de stylage (URI ancre, ex : #surtitre, vers une déclaration <rendition xml:id="surtitre"> dans <teiHeader>). L'attribut @rend est contraint dans ce schéma à une liste close de valeurs dont le traitement est garanti, @rendition permet d'ajouter d’autres classes
Type, qualifiant l’élément parent, indépendamment de son apparence. Dans la mesure du possible, une liste d’autorité contextuelle sera proposée au niveau de l’élément.
<figure> Boîte hors du flux, parfois encadrée, pouvant contenir une image, une table, une formule, ou autre objet susceptible d’être référencé dans une table dédiée. Permet notamment d’envelopper une image avec sa légende. <html5:figure>
{anyURI} Lien à une déclaration locale de stylage (URI ancre, ex : #surtitre, vers une déclaration <rendition xml:id="surtitre"> dans <teiHeader>). L'attribut @rend est contraint dans ce schéma à une liste close de valeurs dont le traitement est garanti, @rendition permet d'ajouter d’autres classes
Type, qualifiant l’élément parent, indépendamment de son apparence. Dans la mesure du possible, une liste d’autorité contextuelle sera proposée au niveau de l’élément.
( disc | circle | square | 1 | decimal | decimal-leading-zero | upper-roman | I. | lower-latin | lower-alpha | upper-latin | upper-alpha | row | - | – | — ) Type de liste, indiqué par un caractère, ou une valeur CSS standard
Les listes récursives permettent de représenter de nombreux composants textuels, il sont notamment utilisés, selon les conseils de la documentation TEI, pour les index ou les tables des matières.
Liste de définitions, [html], adapté à l’encodage de tables à deux colonnes de type légende ou dictionnaire. L’attribut @rend permet à un programme d’interpréter différemment l’information.
( disc | circle | square | 1 | decimal | decimal-leading-zero | upper-roman | I. | lower-latin | lower-alpha | upper-latin | upper-alpha | row | - | – | — ) Type de liste, indiqué par un caractère, ou une valeur CSS standard
<table> Table, <html5:table>. Avant essaiera de limiter l'usage des tables aux structures de contenu qui ne peuvent pas être ramenées à une liste <list> (penser notamment aux listes de définitions qui correspondent à des tableaux à deux colonnes)
{anyURI} Lien à une déclaration locale de stylage (URI ancre, ex : #surtitre, vers une déclaration <rendition xml:id="surtitre"> dans <teiHeader>). L'attribut @rend est contraint dans ce schéma à une liste close de valeurs dont le traitement est garanti, @rendition permet d'ajouter d’autres classes
Indication de rendu, selon un vocabulaire contrôlé. Interprété comme une liste de classes CSS comme dans l'attribut @html5:class. Conserve une information de la source, ou suggère une présentation. À distinguer de la précision sémantique de l’élément, indiquée avec l’attribut @type
{anyURI} Lien à une déclaration locale de stylage (URI ancre, ex : #surtitre, vers une déclaration <rendition xml:id="surtitre"> dans <teiHeader>). L'attribut @rend est contraint dans ce schéma à une liste close de valeurs dont le traitement est garanti, @rendition permet d'ajouter d’autres classes
{anyURI} Lien à une déclaration locale de stylage (URI ancre, ex : #surtitre, vers une déclaration <rendition xml:id="surtitre"> dans <teiHeader>). L'attribut @rend est contraint dans ce schéma à une liste close de valeurs dont le traitement est garanti, @rendition permet d'ajouter d’autres classes
La liste des possibilités de mise en forme est volontairement close, afin de favoriser un balisage plus sémantique, ou alors de reporter les styles de caractères plus spécifiques vers l'élément <seg>.
L'attribut @n peut être utilisé pour conserver un code couleur, par exemple après conversion depuis un traitement de texte (surlignage, coloration), en attendant que la fonction sémantique voulue par l'auteur soit attribuée par une transformation ultérieure.
Il est parfois nécessaire de préciser qu'à l'intérieur d'un segment mis en forme (ex : citation en italique), une expression apparaît en romain (ex : mot en mention dans une citation : « J’appelle typographie la mise à plat d’une pensée » ; titre d’ouvrage dans un titre en italique : le Quichotte au XXe s.). On recommande pour ces cas de redoubler la mise en forme (ex : italique dans l'italique), l'apparence peut ainsi être restaurée par stylage. Un balisage typographique doit pouvoir généralement résoudre tous ces cas.
<!-- Balisage TEI respectant la continuité typographique -->
<hirend="i">« J’appelle <hirend="i">typographie</hi> la mise à plat d’une pensée »</hi>
<!-- Balisage TEI plus sémantique -->
<q>J'appelle <termrend="i">typographie</term> la mise à plat d’une pensée</q>
<g> Caractère particulier qui peuvent ne pas être correctement rendus dans les polices unicode habituelles. L'encadrement du caractère risqué ou approximatif permet d'adapter le rendu selon le média de destination. Indiquer obligatoirement un code local dans l’attribut @n (dans l'esprit du nom d'une entité XML).
{anyURI} Lien à une déclaration locale de stylage (URI ancre, ex : #surtitre, vers une déclaration <rendition xml:id="surtitre"> dans <teiHeader>). L'attribut @rend est contraint dans ce schéma à une liste close de valeurs dont le traitement est garanti, @rendition permet d'ajouter d’autres classes
<gap> Texte non transcrit. Indiquer obligatoirement une raison et un ordre de grandeur. Les unités de distance linéaire sont interprétées verticalement lorsque que l’élément est utilisé au niveau paragraphe, sinon elles sont interprétées horizontalement. Pour les manques horizontaux sur plus d'une ligne, préférer un ordre de grandeur en caractères.
<seg> Segment de texte à distinguer, à utiliser en derniers recours lorsqu’aucun autre élément n’est approprié, permet notamment de porter une classe ou un identifiant, <html5:span>
{anyURI} Lien à une déclaration locale de stylage (URI ancre, ex : #surtitre, vers une déclaration <rendition xml:id="surtitre"> dans <teiHeader>). L'attribut @rend est contraint dans ce schéma à une liste close de valeurs dont le traitement est garanti, @rendition permet d'ajouter d’autres classes
<space> Espace significatif. Dans le mesure du possible, éviter cet élément lorsque l’espace peut être représenté par une suite d’espaces insécables ' ' (caractère unicode équivalent à l’entité XML  ).
{anyURI} Lien à une déclaration locale de stylage (URI ancre, ex : #surtitre, vers une déclaration <rendition xml:id="surtitre"> dans <teiHeader>). L'attribut @rend est contraint dans ce schéma à une liste close de valeurs dont le traitement est garanti, @rendition permet d'ajouter d’autres classes
<foreign> Mot, expression, ou proposition dans une langue différente du contexte. Permet de spécifier une police particulière pour certains alphabets (grec, hébreu…).
Indication de rendu, selon un vocabulaire contrôlé. Interprété comme une liste de classes CSS comme dans l'attribut @html5:class. Conserve une information de la source, ou suggère une présentation. À distinguer de la précision sémantique de l’élément, indiquée avec l’attribut @type
{anyURI} Lien à une déclaration locale de stylage (URI ancre, ex : #surtitre, vers une déclaration <rendition xml:id="surtitre"> dans <teiHeader>). L'attribut @rend est contraint dans ce schéma à une liste close de valeurs dont le traitement est garanti, @rendition permet d'ajouter d’autres classes
Type, qualifiant l’élément parent, indépendamment de son apparence. Dans la mesure du possible, une liste d’autorité contextuelle sera proposée au niveau de l’élément.
{integer} Pour certains corpus, comme les éditions de comptabilités manuscrites, les valeurs numériques peuvent être exploitées (ex : vérification automatique de sommes). L’attribut @value permet d’inscrire de telles valeurs en notation décimale.
Le balisage des nombres est spécialement utile pour les chiffres romains, afin qu’ils puissent paraître en petites capitales selon les conventions d’édition, par exemple les siècles. xvie s.
{anyURI} Lien à une déclaration locale de stylage (URI ancre, ex : #surtitre, vers une déclaration <rendition xml:id="surtitre"> dans <teiHeader>). L'attribut @rend est contraint dans ce schéma à une liste close de valeurs dont le traitement est garanti, @rendition permet d'ajouter d’autres classes
{anyURI} Lien à une déclaration locale de stylage (URI ancre, ex : #surtitre, vers une déclaration <rendition xml:id="surtitre"> dans <teiHeader>). L'attribut @rend est contraint dans ce schéma à une liste close de valeurs dont le traitement est garanti, @rendition permet d'ajouter d’autres classes
Type, qualifiant l’élément parent, indépendamment de son apparence. Dans la mesure du possible, une liste d’autorité contextuelle sera proposée au niveau de l’élément.
{anyURI} Lien à une déclaration locale de stylage (URI ancre, ex : #surtitre, vers une déclaration <rendition xml:id="surtitre"> dans <teiHeader>). L'attribut @rend est contraint dans ce schéma à une liste close de valeurs dont le traitement est garanti, @rendition permet d'ajouter d’autres classes
Utile pour établir l’index des auteurs référencés dans le texte. L’élement <author> n’étant pas autorisé en dehors de <bibl>, les auteurs cités au fil du texte sont balisés avec <persName type="author">.
<docAuthor> Auteur du document, ou de la section (selon le contexte). Dans une page de titre, répétera une information déjà définie dans l’entête de métadonnées, par contre, est obligatoire pour les préfaciers, ou les chapitres dans un ouvrage collectif.
{anyURI} Lien à une déclaration locale de stylage (URI ancre, ex : #surtitre, vers une déclaration <rendition xml:id="surtitre"> dans <teiHeader>). L'attribut @rend est contraint dans ce schéma à une liste close de valeurs dont le traitement est garanti, @rendition permet d'ajouter d’autres classes
L’élément <docAuthor> relève d’une logique de métadonnée bibliographique : il permet par exemple d’établir la liste des contributeurs d’un recueil d’articles. Il n’est en aucun cas utilisé l’indexation des auteurs cités dans un texte (voir <author> et <persName type="author">).
De type bloc dans un <titlePage> et de type inline dans un <byline>.
<name> Entités nommmées non résolues (personne, lieu, institution, initiales…)
{anyURI} Lien à une déclaration locale de stylage (URI ancre, ex : #surtitre, vers une déclaration <rendition xml:id="surtitre"> dans <teiHeader>). L'attribut @rend est contraint dans ce schéma à une liste close de valeurs dont le traitement est garanti, @rendition permet d'ajouter d’autres classes
Ce repérage très générique des entités peut être produit automatiquement. Il est utile notamment à l’extraction des mots qui ne sont pas du dictionnaire, pour les traitements lexicographiques.
Ce balisage est temporaire et, idéalement, il doit être précisé : <name> ne porte pas les attributs d’indexation (index-atts()) car la résolution des entités doit permettre de préciser la sémantique (<persName>, <placeName>, etc.).
<persName> Nom de personne, d’auteur, de personnage
{anyURI} Lien à une déclaration locale de stylage (URI ancre, ex : #surtitre, vers une déclaration <rendition xml:id="surtitre"> dans <teiHeader>). L'attribut @rend est contraint dans ce schéma à une liste close de valeurs dont le traitement est garanti, @rendition permet d'ajouter d’autres classes
Les noms de personne peuvent être balisés pour différents objectifs :
Mise en forme typographique : si l’objectif est la mise en petites capitales des noms de famille, utiliser <surname>, afin que <persName> encadre la totalité d’un nom de personne, nom, prénom, et autres composantes compris.
Traitements linguistiques : le but sera d’inclure tous les noms propres. Il doit être possible de remplacer <persName> par "il" ou "elle" sans rompre la signification de la phrase. Pour un tel objectif, il convient de baliser aussi les noms abrégés ("K.", "Joseph K.").
Indexation : il est nécessaire d'ajouter l’attribut utile (index-atts()) à l’identification de la personne, notamment pour les pronoms, et permettre les regroupements.
L’attribut @type permet, grâce à la valeur "author", d’indexer les auteurs mentionnés au fil du texte. De manière complémentaire, l’élement <author>, autorisé uniquement dans <bibl>, permet d’indexer les auteurs référencés, c’est-à-dire ceux dont les citations sont explicitement référencées par un auteur ou un éditeur scientifique. Pour établir l’index des auteurs cités dans un texte, il convient donc de regrouper les clés (@key, @corresp ou @ref, cf index-atts()) renseignées pour les éléments <persName @type="author"]> et <author>. Auteur mentionné : Je veux parler du drame d’amour qui mit aux prises, voici soixante ans passé, deux des beaux génies de notre âge : <persNameref="http://www.idref.fr/027043339" type="author">Alfred de Musset</persName> et <persNameref="http://www.idref.fr/027121577" type="author">George Sand</persName>. Auteur référencé :
<note>Le merveilleux
<bibl><title>Cyrano</title> de <authorref="http://www.idref.fr/027109860">M. Edmond Rostand</author></bibl>
est venu confirmer cette hypothèse. (NdA)</note>
<surname> Nom de famille, souvent en petites capitales
{anyURI} Lien à une déclaration locale de stylage (URI ancre, ex : #surtitre, vers une déclaration <rendition xml:id="surtitre"> dans <teiHeader>). L'attribut @rend est contraint dans ce schéma à une liste close de valeurs dont le traitement est garanti, @rendition permet d'ajouter d’autres classes
{anyURI} Lien à une déclaration locale de stylage (URI ancre, ex : #surtitre, vers une déclaration <rendition xml:id="surtitre"> dans <teiHeader>). L'attribut @rend est contraint dans ce schéma à une liste close de valeurs dont le traitement est garanti, @rendition permet d'ajouter d’autres classes
{anyURI} Lien à une déclaration locale de stylage (URI ancre, ex : #surtitre, vers une déclaration <rendition xml:id="surtitre"> dans <teiHeader>). L'attribut @rend est contraint dans ce schéma à une liste close de valeurs dont le traitement est garanti, @rendition permet d'ajouter d’autres classes
{anyURI} Lien à une déclaration locale de stylage (URI ancre, ex : #surtitre, vers une déclaration <rendition xml:id="surtitre"> dans <teiHeader>). L'attribut @rend est contraint dans ce schéma à une liste close de valeurs dont le traitement est garanti, @rendition permet d'ajouter d’autres classes
{anyURI} Lien à une déclaration locale de stylage (URI ancre, ex : #surtitre, vers une déclaration <rendition xml:id="surtitre"> dans <teiHeader>). L'attribut @rend est contraint dans ce schéma à une liste close de valeurs dont le traitement est garanti, @rendition permet d'ajouter d’autres classes
L’indexation d’un texte peut se faire de deux manières :
Par le regroupement automatique des clés inscrites pour l’identification de chacun des segments indexés.
En liant les segments indexés aux entrées correspondantes définies dans une ressource prédéfinie (lexique, référentiel d’autorités), pour les désambiguïser.
Le jeu d’attributs défini pour l’indexation prévoit ces deux cas de figure.
index-atts() Jeu d’attributs utiles à l’indexation d’un élément
Une entité indexée peut être identifiée par (du plus vague au plus précis) :
@key – à minima une clé, utile au regroupement des entrées pour générer automatiquement un index ;
@corresp – un pointeur vers l’ID défini dans une liste d’autorité, inscrite dans le fichier même (<back>) ou dans un fichier déporté ;
@ref – idéalement une URI identifiant l’entité indexée.
On conserve la possibilité de renseigner conjointement les attributs @ref et @corresp pour lier l’entité indexée à la fois à un référentiel partagé (type idRef) et à un référentiel plus spécifique (un fichier XML/TEI), dédié au projet scientifique.
La maîtrise de l’attribution de ce jeu d’attributs aux justes éléments indexables est essentiel, de manière à éviter tout risque d’indexation redondante (par ex. persName > name|forname|surname, etc.).
<term> Terme (mot ou expression), <html5:dfn> (terme défini, “defining instance of a term”)
Indication de rendu, selon un vocabulaire contrôlé. Interprété comme une liste de classes CSS comme dans l'attribut @html5:class. Conserve une information de la source, ou suggère une présentation. À distinguer de la précision sémantique de l’élément, indiquée avec l’attribut @type
Il est très utile de pouvoir récupérer l’indexation saisie par un chercheur dans un fichier de traitement de texte. Une chaîne de caractères indexée dans un index lexical se caractérise par une "entrée" normalisée (qui peut différer de la chaîne de caractères sélectionnée) et deux clés optionnelles ("clé1" et "clé2") qui permettent de regrouper hiérarchiquement les entrées. Un tel index lexical est généré grâce au regroupement automatique des entrées insérées dans le fichier. L’interprétation sémantique faite ici de l’élément <term> est un peu limite au regard des Guidelines mais se justifie par sa simplicité (pas d’élément parent <index>) et la disponibilité du jeu d’attribut att.typed utile à l’expression des clés 1 et 2.
Cet usage de <term> est conçu pour la conversion automatique d’un index lexical ODT. Il serait à rapporter au 3e niveau d’encodage défini par les Best Practices for TEI in Libraries, à savoir un fichier XML/TEI issu d’une conversion OCR. Un tel encodage doit ensuite être précisé de manière à désambiguïser les entités indexées (<persName>, <placeName>, etc.).
<term> sert aussi au repérage sémantique de notions au fil du texte, parfois mises en valeur par l’auteur lui-même. Cette mise en valeur typographique est inscrite en valeur de @rend.
Points
point() Balises hors du flux textuel principal (saut de page ou de ligne, notes...)
<anchor> Une ancre, lorsqu’un point (et non un segment) identifiant est requis. Exemple : destination d’un lien. Pour identifier un segment (et non un point), renseigner l’attribut @xml:id de l'élément conteneur (section <div> ; bloc <p>, <list>… ; segment <term>…)
Conservation des sauts de colonne de l’édition imprimée. Un tel numéro est nécessaire pour le référencement des citations des textes imprimés en colonnes (un dictionnaire par exemple). Par convention, on accole le numéro de page à la lettre de colonne pour constituer une référence de colonne unique par ouvrage. Par exemple 245c pour la troisième colonne de la page 245.
@ed Sigle permettant d'identifier l’édition d’origine d’une numérotation (de page, folio, colonne, ligne…)
Valeur
(
margin — Numéro dans la marge
marginBig — Numéro dans la marge, plus grand (relativement à un autre)
marginBold — Numéro dans la marge, en gras (relativement à un autre qui serait maigre)
Idéalement, un tel sigle est défini par l’éditeur (date d’une édition imprimée, lettre dans le stemma d’un manuscrit…). Il est indispensable de choisir une clé cohérente dans tout le texte lorsque plusieurs numérotations concurrentes cohabitent.
Lors d’une numérisation, on peut choisir d’adopter provisoirement un code qui décrit l’apparence physique du numéro (mise en valeur typographique), et laisser l’interprétation à un éditeur électronique postérieur.
<fw> Mentions hors teneur (titre courant, numéro de page, tampon…)
<lb> peut être utilisé pour forcer un saut de ligne, par exemple dans un titre.
Dans le cas d’un texte avec lignes numérotées qui ne sont pas des vers inclus dans un élément <l>, les numéros sont utiles au référencement des citations des notes d’apparat critique. Il est donc nécessaire de conserver tous les sauts de lignes dans le flux du texte, et d’inscrire le numéro — quand il est imprimé — dans l’attribut @n. Attention : certaines éditions alternent l’emplacement du numéro de ligne selon les pages paires ou impaires (marges intérieures ou extérieures). Conformément à la spécification TEI, le numéro inscrit doit toujours se rapporter à ce qui suit. Les césures sont traitées comme pour le reste du texte. Une édition électronique de référence doit proposer une exploitation de ces sauts de ligne pour garantir une citabilité de qualité égale à la version imprimée. Si plusieurs numérotations concurrentes des lignes sont conservées, elles sont distinguées par l’attribut @ed.
<milestone> Borne anonyme, vide, permet d’étiqueter des points qui n’entrent pas dans la hiérarchie éditoriale, et qui ne sont pas des sauts de page <pb>, de colonne <cb> ou de ligne <lb>
Indication de rendu, selon un vocabulaire contrôlé. Interprété comme une liste de classes CSS comme dans l'attribut @html5:class. Conserve une information de la source, ou suggère une présentation. À distinguer de la précision sémantique de l’élément, indiquée avec l’attribut @type
{anyURI} Lien à une déclaration locale de stylage (URI ancre, ex : #surtitre, vers une déclaration <rendition xml:id="surtitre"> dans <teiHeader>). L'attribut @rend est contraint dans ce schéma à une liste close de valeurs dont le traitement est garanti, @rendition permet d'ajouter d’autres classes
Type, qualifiant l’élément parent, indépendamment de son apparence. Dans la mesure du possible, une liste d’autorité contextuelle sera proposée au niveau de l’élément.
Une note ne contient que du texte riche, ou que des blocs (le mélange texte avec blocs n'est pas autorisé).
Le numéro ou la lettre d’appel dans le texte original est contenu dans l’attribut @n. Si la note ne comporte pas d'attribut @n, elle apparaît dans le flux, mais le bloc est considéré comme relevant d'un autre statut que le texte environnant. Lorsque plusieurs types de notes cohabitent (hors apparat critique <app>), chaque type doit pouvoir être distingué, afin notamment de pouvoir filtrer les notes pour certains exports (ex : texte hors droit à destination de la recherche, avec les notes de l’auteur hors droit, sans les notes de l’éditeur encore sous droits d’auteur). Le responsable d’une note sera alors précisé dans l’attribut @resp. Il est aussi possible de distinguer les notes par leur présentation typographique @rend.
Titre courant de la page imprimée. Si le titre courant comporte de la variation typographique, par exemple de l’italique ou des lettres en exposant, les chevrons des balises seront échappés avec les entités xml conventionnelles < : <, > : > afin de conserver un XML valide.
Le saut de page permet de conserver un lien avec une ou plusieurs éditions imprimées de référence.
Le numéro de page imprimé est inscrit dans l’attribut @n. Ce numéro se rapporte à la page qui suit, la balise <pb> étant placée en début de page. Il est conseillé d’enregistrer tous les sauts de pages, même les pages blanches non numérotées.
Un lien à une image de la page numérisée peut être inscrit dans l’attribut @facs. Quelle que soit la convention de nommage adoptée par le numériseur, ce nom de fichier doit être unique ; il est inutile de préciser les chemins relatifs qui varient selon les contextes applicatifs. L’attribut xml:id est utilisé comme ancre de destination pour les renvois à une page.
En cas de note interrompue par un saut de page, il est déconseiller d’indiquer le saut de page à cet endroit, un saut de page doit être unique, et dans le flux de texte principal.
Pour une édition de source, lorsque la foliotation de l’original est conservée, utiliser le même élément mais en précisant le sigle du témoin dans l’attribut @ed dont provient le n° de folio (dans ce cas, titre courant et fichier image ne sont pas requis).
Lorsqu’un saut de page coupe un mot dans l’édition imprimée, on conseillera de résoudre la césure, et de placer le saut de page après le mot non coupé + une espace (une page ne doit jamais commencer par une espace).
@rend Indication de rendu, selon un vocabulaire contrôlé. Interprété comme une liste de classes CSS comme dans l'attribut @html5:class. Conserve une information de la source, ou suggère une présentation. À distinguer de la précision sémantique de l’élément, indiquée avec l’attribut @type
@type Type, qualifiant l’élément parent, indépendamment de son apparence. Dans la mesure du possible, une liste d’autorité contextuelle sera proposée au niveau de l’élément.
[CSS]. Le nombre de valeurs est susceptible de s’étendre. En cas d’encodage de texte existant, si la numérotation est difficile à générer automatiquement, il peut être plus commode de la reporter en valeur d’attribut de l’item @n.
rendering.block() Information de rendu pour un bloc, combine des rendus de niveau caractère et de niveau bloc avec possibilité de classe personnalisé comme une liste de tokens séparés d'espaces.
Contenu
( @rend="( rend.font() | ( center | hanging | justify | left | margin | noindent | right ) | argument | indent | lg | noindent | pre ) + " ? , @rendition="{anyURI}" ? )
hanging — indentation négative de la première ligne
justify — justifié
left — aligné à gauche
margin — bloc décroché à gauche
noindent — pas d’indentation de première ligne
right — aligné à droite
)
argument — Valeur sémantique d’un élément argument, mais qui autorise à placer un élément <stage> avant (édition de théâtre)
indent — Indentation de première ligne (lorsque pas d’indentation par défaut)
lg — Utile provisoirement, mais lg/l est préférable.
noindent — Pas d’indentation de première ligne (lorsque indentation par défaut)
pre — Bloc préformaté, conserver les espaces et sauts de ligne, police à chasse fixe. Pour des exemples de codes, préférer @lt;eg>. @rend='pre' peut servir à rendre des formules mathématiques.
@rendition Lien à une déclaration locale de stylage (URI ancre, ex : #surtitre, vers une déclaration <rendition xml:id="surtitre"> dans <teiHeader>). L'attribut @rend est contraint dans ce schéma à une liste close de valeurs dont le traitement est garanti, @rendition permet d'ajouter d’autres classes
Ce schéma précise la structure du teiHeader Teibook.
Il détaille où et comment sont inscrites les métadonnées d’un fichier source afin de faciliter les opérations de conversion.
Un teiHeader minimal et obligatoire pour générer les principales métadonnées de l’édition au format DC.
La table TEI to DC fait la synthèse des correspondances (mapping).
<title> Titres. Le premier titre est considéré comme le titre principal. Les suivants sont considérés commes des compléments du titre. En cas de traduction, le titre original est à indiquer avec un attribut @xml:lang qui en indique la langue.
“The date and place of composition are often of particular importance for studies of linguistic variation; since such information cannot be inferred with confidence from the bibliographic description of the copy text, the creation element may be used to provide a consistent location for this information.” (TEI P5, Guidelines, principes directeurs)
<language> Langue principale du texte. Renseigner l’attribut @ident avec un code ISO 639-2 (avec extensions simili ISO si nécessaire), et donner un intitulé textuel de la langue dans le contenu de l'élément
La langue principale du texte doit être inscrite sur sa racire /TEI, en valeur de l’attribut @xml:lang (permet notamment d’informer la correction orthographique dans un éditeur XML).
<languageident="la_EU_mod" usage="75">Latin moderne (XVIIe)</language>
<languageident="fr" usage="25">Français (préface et notes)</language>
<notesStmt> Informations complémentaires sur le texte électronique. Une note de type “abstract” permettent d’inscrire : résumé, liens à des images, liens à d'autres notices de référence pour le même texte
Personne ayant une responsabilité dans l'élaboration du texte électronique.
Ne pas mettre ici l'auteur ou l'éditeur de l'œuvre originale (<titleStmt>), mais uniquement les personnes responsables de la numérisation.
<name> Nom de l’intervenant sur le fichier XML/TEI
L’attribut @ref renseigne le mail de la personne et l’identifie.
Inscrire les initiales en valeur de @xml:id (comme cible de liens, par exemple dans la liste des modifications <change>).
Ce sous-ensemble correspond aux principaux champs de la notice bibliographique du livre source, dans le cas d’une rétro-numérisation
L’objectif est de générer cette courte notice grâce à un import MarcXML ou ONIX depuis un OPAC.
La table ONIX|Unimarc to TEI fait la synthèse des correspondances (mapping).
<bibl> Référence bibliographique peu structurée de l’œuvre numérisée. En texte mêlé ponctuée, avec typographie légère (italique). Référence utilisée par exemple pour générer les citations à la page
Texte imprimé : la nouvelle édition de la norme Z44-050 d'avril 2005 généralise la mention de volume qui s'applique même pour un volume unique. ex. : 215 ##$a1 vol. (XII-32 p.)$d25 cm
Pour chaque propriété Dublin Core (en ordre alphabétique) diffusable en OAI, sont indiqués : la définition DC, un chemin XPath dans un document XML/TEI
An entity responsible for making contributions to the resource. Auteur secondaire (préface, postface, etc.). Même règles d’écriture que dc:creator
/TEI/teiHeader/fileDesc/titleStmt/author[@ana='contributor']/@key
/TEI/teiHeader/fileDesc/titleStmt/editor/@key
An entity primarily responsible for making the resource. Auteur du texte : Nom, Prénom (date-date) NF Z 44-061 – obligatoire, répétable
/TEI/teiHeader/fileDesc/titleStmt/author/@key
A point or period of time associated with an event in the lifecycle of the resource. Date de création du document et non de sa déclinaison éditoriale (première édition imprimée, date du fichier TEI, etc.).
/TEI/teiHeader/profileDesc/creation/date/@when
/TEI/teiHeader/profileDesc/creation/date/@notBefore
/TEI/teiHeader/profileDesc/creation/date/@notAfter
An unambiguous reference to the resource within a given context. URI de référence du fichier (du document en texte intégral) – unique, obligatoire.
/TEI/teiHeader/fileDesc/publicationStmt/idno
A related resource in which the described resource is physically or logically included. URI de référence vers la collection – unique, obligatoire si connu
/TEI/teiHeader/fileDesc/seriesStmt/idno
An entity responsible for making the resource available. Éditeur du texte électronique (et non de la source numérisée).
/TEI/teiHeader/fileDesc/publicationStmt/publisher
A language of the resource. Langue principale du document, code de 3 lettres (ISO 639-b2) – unique, obligatoire
/TEI/@xml:lang
/TEI/teiHeader/profileDesc/langUsage/language/@ident
Information about rights held in and over the resource. URI de référence vers une licence – obligatoire, unique
/TEI/teiHeader/fileDesc/publicationStmt/availability/licence/@target
A related resource from which the described resource is derived. Citation bibliographique complète pour le document (description de la (des) source(s) numérisée(s))
/TEI/teiHeader/fileDesc/sourceDesc/bibl[1]
A name given to the resource. concat(/TEI/teiHeader/fileDesc/titleStmt/title[not(@type)], '. ' , /TEI/teiHeader/fileDesc/titleStmt/title[@type='sub'])
Il est encore nécessaire de travailler l'indexation sujet, et d'établire des listes d'autorité pour pouvoir renseigner les propriétés
dc:subject, dc:coverage (xsi:type="dcterms:spatial").
Correspondance Unimarc|ONIX vers TEI
Cette table précise les principales métadonnées à importer dans le teiHeader depuis une notice bibliographique. Il s’agit donc des métadonnées descriptives de la source numérisée (livre).
Pour ces principaux champs bibliographiques, sont indiqués : la zone Unimarc, le chemin XPath ONIX et le chemin XPath dans l’en-tête TEI teibookHeader.
…
-->