Formats ouverts : pérennité et intéropérabilité


Formats à éviter Formats recommandés Logiciels libres
bureautique MS Office : doc, xls XML[1] + PDF[2]  OpenOffice.org
images bitmap bmp, gif PNG The GIMP
images vectorielles ai SVG Inkscape
compression audio mp3, wma OGG-Vorbis VLC, Audacity
compression vidéo avi, wmv, DivX MPEG[3], XviD[3] VLC, VirtualDub

[1] formats de sauvegarde : OpenDocument, DocBook, xHTML + CSS
[2] format de diffusion
[3] format fermés mais standards (conformes à une norme ISO)

Qu'est-ce qu'un format ouvert ?

On entend par "format ouvert" un format de données qui n'est pas dépendant d'un éditeur ou d'un logiciel ; les spécifications d'un tel format sont publiques, et librement implémentables par différents éditeurs de logiciels. Un format ouvert peut être :

Quelques nuances séparent ces différentes catégories de format :

L'attitude des éditeurs de logiciels varie d'un extrème à l'autre.

Microsoft, pour prendre l'exemple le plus connu, n'a aucun intérêt à utiliser des formats ouverts sur les logiciels qu'il distribue ; il se repose sur des formats propriétaires très fermés (doc, xls, wmv, ...) pour s'éviter toute concurrence et se créer une clientèle captive. Pire, dans le cas d'Internet Explorer, il modifie les formats standard tels que le HTML et le CSS, de sorte que le web "à la Microsoft" (IE représente environ 90% des navigateurs utilisés sur le web) devienne un standard de fait, même si de nombreuses possibilités des standards officiels du W3C ne sont pas implémentées.

Il ne s'agit pas ici de diaboliser Microsoft (de nombreux sites font ça très bien), mais de montrer le piège que constitue les formats propriétaires fermés ; les utilisateurs Mac de l'excellent FrameMaker viennent d'en faire les frais, Adobe venant d'arrêter purement et simplement le développement de FrameMaker sur MacOS... les exemples ne manquent pas.

Certains éditeurs (dont Adobe justement) jouent très bien le jeu de l'interopérabilité en ouvrant les spécifications de leurs formats propriétaires ; le succès du PDF est là pour prouver que cela peut être très rentable d'un point de vue strictement économique.

Les logiciels libres s'appuient systématiquement sur des standards ouverts, et tentent d'être compatibles avec les formats propriétaires ; cela risque de ne plus être possible dans la mesure où les formats sont brevetables... le danger des formats propriétaires est plus grand que jamais.

Ressources :

Formats Bureautique

Texte (brut)

On entend par "Texte brut", un format texte qui n'est ni SGML, ni XML (voir chapitres suivants) :

Nota :

Ressources :

Texte (HTML)

Le HTML étant le standard du web, il est aussi le "plus petit dénominateur commun" des formats bureautique :

La principale contrainte pour la diffusion de documents HTML, est que le texte est dissocié du style (CSS) et des images (PNG, SVG...) ; il faut donc zipper l'ensemble de ces fichiers avant de pouvoir les diffuser, ou choisir un format d'archive web.

Une autre difficulté est le non-respect des standards HTML et surtout CSS par IE6, ce qui peut causer des différences d'affichage d'un navigateur à l'autre.

Nota :

Ressources :

Texte (XML)

Le XML est le standard universel du contenu texte :

De nombreux formats sont basés sur le XML ; dans le cas d'une utilisation bureautique / traitement de texte, les plus adaptés sont :

Le XHTML est clairement le format le plus ouvert, le plus pérenne et le plus répandu qui soit actuellement (lisible sous toutes les plate-formes avec tous les navigateurs web, éditable avec tous les éditeurs web) ; c'est aussi le plus limité : il convient très bien au texte enrichi, mais n'offre pas les fonctionnalités d'un format bureautique tel qu'OpenDocument pour des documents de type tableur ou présentation.

OpenDocument est le seul format bureautique qui soit standard et éditable sur toutes les plate-formes (MS Office ne sera jamais disponible sur Unix ou Linux). Tous les utilisateurs de MS Office gagneraient à installer OOo, ne serait-ce que pour pouvoir archiver leurs documents dans un format pérenne, qui ne dépende pas du seul Microsoft.

Lu sur DLFP : la Communauté Européenne a publié un rapport qui tente de résumer les différents formats de documents texte existant (LaTeX, DocBook, PDF, MS Office, OpenDocument...) ; il en ressort que seuls les formats OpenDocument et Office-XML remplissent leurs critères d'intéropérabilité. Il est probable que ces deux formats vont co-exister à l'avenir, selon le schéma habituel : d'un coté le format propriétaire Microsoft, de l'autre le format du reste du monde.

Nota :

Ressources :

Tables de données

Les tables de données sont utilisées par les bases de données et les tableurs :

Ces formats sont ouverts et pérennes ; le CSV est très adapté aux besoins scientifiques, et est directement utilisable dans les tableurs et suites bureautique.

Toutes les bases de données permettent de sauvegarder les tables en CSV, en XML ou en SQL. Certaines bases de données utilisent nativement le XML comme format de base, ce qui est particulièrement pertinent pour de "petites" bases.

Nota :

Formules mathématiques

Nota : les suites bureautiques modernes utilisent souvent leur propre éditeur de formules ; dans certains cas (OOo notamment), il est possible d'exporter le résultat en MathML.

Ressources :

Formats d'Images et d'Impression

Images bitmap

De nombreux formats d'images bitmap (= non vectorielles : l'image est un tableau de pixels) sont disponibles ; parmi tous ces formats, certains sont à privilégier :

Le JPEG est la référence pour la photo, pour tout le reste PNG est préférable :
Nota :

Ressources :

Images vectorielles

Une image vectorielle est un ensemble de lignes, directement utilisable par une table traçante par exemple, et peut donc être agrandie ou réduite sans perte de qualité.

Le SVG, encore peu utilisé, va vraisemblablement s'imposer. Si le PS et le PDF restent les standards de fait de l'impression, la concurrence est en revanche directe entre SVG et SWF ; Adobe étant en train de racheter Macromedia, certains voient là une menace pour l'avenir du SWF, d'autres craignent qu'Adobe ne maintienne pas son niveau d'engagement pour le SVG...

Nota :

Ressources :

Impression

Un format d'impression contient à la fois le texte (en taille fixe) et les images (bitmap ou vectorielles) ; il n'est pas fait pour être éditable, mais pour garantir qu'un document s'imprime de la même façon sur n'importe quel PC. Les formats d'impression standards sont tous propriétaires Adobe :

PostScript et PDF ne sont pas des formats de sauvegarde (bien qu'il existe des utilitaires pour transformer un document PDF en page HTML). En revanche, ces formats sont parfaitement adaptés à la diffusion de documents.

Ressources :

Formats Multimédia

Audio

L'Ogg-Vorbis se répand très vite, essentiellement grâce à la qualité d'écoute qu'il propose. 

Le MP3 est très utilisé, bien qu'il n'apporte aucun avantage sur l'Ogg-Vorbis (qualité, pérennité). Il serait toutefois maladroit de convertir un fichier .mp3 en .ogg : chaque codec introduisant sa propre perte de qualité, le résultat final serait forcément pire que le .mp3 d'origine.

Le FLAC étant encore peu répandu, il est peut-être préférable de zipper un fichier PCM (.wav ou .aiff) pour archiver ses données audio de façon simple et pérenne.

Ressources :

Vidéo

Le cas du contenu multimédia est plus complexe, dans la mesure où il y a plusieurs éléments différents à considérer :

Pour une "vidéo" (= conteneur + flux vidéo et audio), on peut donc avoir différentes combinaisons de codecs audio (pcm/wav, mp2, mp3...) ou vidéo (mpeg, divx, xvid, raw...). 

La référence reste la norme MPEG (standard ISO), même si elle est brevetée et qu'elle impose donc des royalties ; le marché est estimé à plusieurs dizaines de milliards d'euros.

Les conteneurs propriétaires sont à éviter, car associés à un lecteur spécifique :

Mieux vaut donc archiver ses vidéos en MPEG (VCD ou DVD) ; le format est certes breveté, mais reste lisible avec tous les lecteurs, sur tous les OS. L'alternative 100% libre viendra avec Ogg-Theora.

Pour du contenu très compressé, privilégier une solution MP4/XviD/AAC ou Matroska/XviD/Ogg-Vorbis plutôt que AVI/DivX/Mp3, qui est principalement utilisé pour échanger illégalement des vidéos sur les réseaux P2P (les pirates se soucient rarement d'utiliser des formats ouverts).

Nota : il est possible de lire la quasi-totalité des formats audio et vidéo (propriétaires ou non) avec VLC, qui est libre et multi-plateformes.

Ressources :

Formats d'archives

Compression de données

Les formats et algorithmes de compression de données sont légion ; on se contentera ici de recommander les plus utilisés :

Nota :

Ressources :

Archives Web

Un document HTML contient le plus souvent plusieurs fichiers :

Si cela n'est pas un problème pour l'édition, cela devient gênant pour la diffusion ; plusieurs solutions sont envisageables :

Nota :

Ressources :

Archives e-Mail

Concernant le courrier électronique, si le format du message lui-même est standardisé (RFC 2822), ce n'est malheureusement pas le cas des "boites mail" ; le rôle de ces boites mail est de stocker les messages avec des informations comme l'expéditeur, le destinataire, la date...

Il existe de nombreux logiciels spécialisés dans l'archivage et la conversion de formats e-mail. Par ailleurs les clients mail modernes disposent de fonctionnalités pour faciliter l'import d'une boite mail existante.

Puisqu'aucun de ces formats n'est réellement standard, il peut être judicieux d'archiver les e-mails importants sous forme HTML (cf. Archives Web) ; de même, il est prudent de stocker les pièces jointes hors de la boite mail.

Ressources :

Gravure de CD/DVD

Chaque logiciel de gravure (ou presque) utilise son propre format de fichier ; il existe pourtant des standards dans ce domaine :

Ces formats ne sont pas compressés ; leur intérêt est d'archiver un CD ou DVD sous une forme "prête à graver". Il est possible de monter une image ISO comme un disque, et donc d'accéder aux données contenues sans avoir à graver l'image (Daemon Tools pour Windows, mount sous Linux/Unix).

Une image hybride est une image ISO 9660 contenant des extensions Joliet, RockRidge et HFS : une telle image est donc lisible par tous les OS actuels.

Ressources :

Valid XHTML 1.0! Valid CSS! Document fait avec Nvu