Livre blanc
MAARCH - Maerys Archive
www.maarch.org
L'infrastructure dâArchivage Open Source
LâEntreprise ou la CollectivitĂ© souhaitant mettre en place une solution de Gestion
Documentaire pour Ă la fois archiver et mettre Ă disposition ses documents de
production est confrontée à une double problématique : organiser son archive afin de
permettre une conservation fiable et intĂšgre jusqu'en fin du cycle de vie du document,
mais aussi faire en sorte que les images puissent ĂȘtre exploitĂ©es et manipulĂ©es par le
plus grand nombre, et cela dans les meilleurs délais. Maerys Archive (MAARCH) remplit
ces critĂšres dâaccessibilitĂ© et de puissance, en proposant une architecture normĂ©e et
performante basée sur des composants Open Source en licence GPL, et un modÚle
Ă©conomique qui nâest pas basĂ© sur le nombre dâutilisateurs.
Archivage et conservation des ressources
ConformitĂ© aux normes : AFNOR Z42-013 â ISO 15489 â Dublin Core
La normalisation, qu'elle soit destinée à garantir le processus de production de l'archive, ou
qu'elle fasse en sorte de créer des socles communs, et un élément important du potentiel de
pérennité des documents conservés.
La nouvelle norme AFNOR NFZ42-013 constitue justement un modĂšle pour l'Ă©tablissement
d'un schĂ©ma de production fiable et traçable, oĂč chaque Ă©vĂ©nement est enregistrĂ©, et oĂč les
documents sont inscrits de façon irrémédiable sur leur support. Cette norme de 34 pages
formalise l'enregistrement, le stockage et la restitution des documents numérisés ou bien issus
des diffĂ©rents applicatifs mĂ©tier de lâentreprise, et revĂȘtant un caractĂšre lĂ©gal.
Instaurée en juillet 1999, elle tolÚre uniquement l'archivage sur des supports de type WORM
(Write Once Read Many), que seuls les supports optiques sont Ă mĂȘme d'offrir.
©
Maerys 2005 â Reproduction, communication, usage interdits sans lâaccord prĂ©alable de Maerys
La norme ISO 15489 est consacrée aux pratiques de l'archivage en général. Elle établit un
langage international pour enregistrer et archiver tous les documents que l'entreprise doit
conserver, sous n'importe quelle forme, support ou combinaison de supports.
Toutefois, ses
recommandations s'appliquent Ă©galement aux supports Ă©lectroniques. Elle permet aux
entreprises de mettre en place des procédures qui garantissent que les informations ont les
caractéristiques essentielles d'exactitude, d'intégrité et de fiabilité. Elle identifie les éléments
clés nécessaires à la conservation de l'information et leur mise à disposition d'une maniÚre
fiable. Elle garantit que l'on peut sélectivement et en toute sécurité en disposer au moment
approprié.
La norme de Métadonnées
1
du Dublin Core propose quant à elle un ensemble d'éléments,
simples mais efficaces, pour décrire une grande variété de ressources en réseau. Elle comprend
15 éléments dont la sémantique a été établie par un consensus international de professionnels
provenant de diverses disciplines telles que la bibliothéconomie, l'informatique, le balisage de
textes, la communauté muséologique et d'autres domaines connexes. L'objectif du Dublin Core,
au travers de la définition d'un ensemble de champs de Métadonnées standard, est de faciliter
l'utilisation de ces informations dans des environnement applicatifs, par nature, hétérogÚnes
comme l'est, par exemple, Internet aujourd'hui.
MAARCH est conçu pour répondre aux exigences techniques de ces trois normes:
AFNOR NFZ42-013
o
Format de fichier PDF 1.4
linéarisé
(conforme Ă la norme ISO PDF/A) ou TIFF G4
o
Pas de compression, pas de cryptage
o
Production de supports optiques non réinscriptibles (WORM) avec documents, index
XML, et journaux de production
o
ModÚles de documentation pour le suivi des procédures
ISO-15489
o
Enregistrement des actions
o
Identification des utilisateurs
Dublin Core
o
Incorporation des 15 éléments de Métadonnées
o
En cours : connecteur OAI (Open Archive Initiative : définition de mécanismes
d'Ă©change et de collecte d'archives)
Prise en compte des archives papier
Il ne suffit pas de conserver les documents Ă©lectroniques. Il existe des cas oĂč la conservation du
papier est économiquement plus rentable, ou légalement incontournable.
En effet, mĂȘme si la lĂ©gislation française accorde dĂ©sormais au document electronique la mĂȘme
valeur que son équivalent papier, souvent les tribunaux de commerce exigent la présentation
d'originaux papier. Peu d'entreprises prennent le risque de devoir contester la décision d'un juge,
1
Les metadonnées sont des descripteurs de données (ici des documents), renseignés automatiquement ou
au travers dâune opĂ©ration dâindexation manuelle.
©
Maerys 2005 â Reproduction, communication, usage interdits sans lâaccord prĂ©alable de Maerys
ou de lui expliciter les derniÚres nouveautés en matiÚre de législation sur le commerce
Ă©lectronique. De plus, si l'enjeu est important, la partie adverse est tout Ă fait capable de nommer
un contre-expert Ă mĂȘme de dĂ©cortiquer votre procĂ©dure d'archivage et d'en souligner les points
faibles ou non-conformes.
MAARCH propose l'architecture adéquate pour la gestion du stockage des archives définitives.
La mise en boite des documents, le rangement des boites dans un conteneur, la demande de
versement en magasin sont des évÚnements gérés et tracés. En retour, MAARCH propose
l'importation des adresses de stockage physique issues du prestataire d'archivage, afin de
conserver une copie de secours en cas de défaillance de ce dernier.
Production et exploitation
Les documents peuvent ĂȘtre importĂ©s dans l'archive via des canaux multiples.
Numérisation (avec Kofax Ascent Capture)
Les documents entrants numérisés sont injectés dans l'architecture MAARCH grùce à un
module de release Ascent Capture dédié. Le module gÚre la répartition dans les espaces de
stockage de MAARCH, et renseigne les index automatiques indispensables au suivi de
production (date et heure de numérisation, opérateur, nombre de page, empreinte MD5, etc.).
Les librairies en Ćuvre dans Ascent Capture peuvent ĂȘtre adaptĂ©es Ă dâautres outils de
numérisation.
Capture Ă partir de la suite Office de Microsoft
Pour les entreprises mettant à profit la suite bureautique de Microsoft pour créer des documents
standardisés, mais personnalisés, à destination de la clientÚle ou des partenaires, MAARCH
intÚgre des macros commandes permettant de générer et archiver une "photo électronique" PDF
d'un fichier Word ou Excel.
Câest une excellente façon de gĂ©rer les documents Ă©lectroniques de gestion sortants, car ceux-ci
peuvent avoir une valeur probante, et le stockage dans un format de présentation constitue ainsi
un cliché électronique du document au moment de sa sortie et de sa remise au tiers.
Importation de répertoires ou DVD
Pour les documents déjà numérisés, accompagnés d'index au format texte ou XML, MAARCH
propose un module d'importation standard, avec contrÎle avant import et génération de rapport.
Ce module dispose aussi de fonctions spĂ©cifiques Ă lâimport de DVD, avec en particulier lecture
et contrĂŽle des cartouches dâentĂȘte pour les DVD issus dâun atelier de numĂ©risation.
Intégration des mails et fax
Une part grandissante des documents de gestion arrive maintenant sous format Ă©lectronique, que
ce soit sous la forme de télécopies ou de mail. Les messages sont interceptés à leur arrivée sur le
serveur de messagerie, et les piĂšces jointes sont converties au format PDF, pour ĂȘtre ensuite
intĂ©grĂ©es dans MAARCH. Les index sont calculĂ©s grĂące Ă lâadresse de destination et au titre du
courrier electronique. Les fax en sortie dâun serveur de tĂ©lĂ©copie sont redirigĂ©s vers le serveur
de mail et traités par notre module.
©
Maerys 2005 â Reproduction, communication, usage interdits sans lâaccord prĂ©alable de Maerys
Constitution de CD/DVD autonomes
MAARCH ne se contente pas dâĂȘtre totalement ouvert en proposant lâexport des donnĂ©es et
documents en format normé sur des supports optiques. Cette fonctionnalité déjà peu fréquente
est complĂ©tĂ©e par lâajout de composants permettant de rendre le support extrait parfaitement
autonome.
Lâextrait de lâarchive devient alors consultable par des tiers (trĂ©sorier payeur, commissaire au
compte, partenaire, âŠ), ou par du personnel non connectĂ© au rĂ©seau (agents dâintervention,
conseillers clientĂšle, prospecteurs).
Philosophie
MAARCH nâa pas Ă©tĂ© conçu comme un produit mais comme une boite Ă outil permettant
dâajouter des fonctionnalitĂ©s de Gestion Documentaire puissantes Ă des applications existantes
ou en cours dâimplĂ©mentation.
Les avantages dâune telle approche, comparativement Ă des produits packagĂ©s, sont
considĂ©rables, et viennent sâajouter aux avantages intrinsĂšques de lâoutil.
FacilitĂ© dâintĂ©gration
MAARCH répond en standard à plus de 80% des attentes fonctionnelles. Sa structure simple et
robuste peut ĂȘtre adaptĂ©e Ă toute sorte dâenvironnements et de besoins. Un jeu dâAPI permet Ă
toute application de type Intranet ou Client/Serveur de se connecter et de demander lâexĂ©cution
dâun service.
Nous avons choisi de dĂ©velopper MAARCH en PHP5 plutĂŽt quâen Java. Le langage de
dĂ©veloppement objet PHP5 a Ă©tĂ© prĂ©fĂ©rĂ© car il est facilement maĂźtrisable, et connu dâune large
communautĂ© dâinformaticiens. Dâautre part, la cible du produit est constituĂ©e dâarchives non
rĂ©parties, pouvant aller jusquâĂ 1.000 utilisateurs. Dans ces conditions, une architecture simple
monoserveur se montre bien plus efficace et performante quâune architecture rĂ©partie de type
WebSphere.
Pour encore plus dâouverture, MAARCH dispose dâun jeu de primitives SOAP afin dâintĂ©grer le
fonds documentaire Ă des applications ou portails existants via des Services Web.
Bien entendu, il existe aussi une interface autonome pour la consultation des documents, en
mode Intranet, et facilement personnalisable.
ModĂšle Ă©conomique
Le modĂšle Ă©conomique est basĂ© uniquement sur les services dâintĂ©gration que Maerys propose
pour la mise en exploitation de MAARCH : Installation des serveurs, paramétrage de
lâapplication, intĂ©gration dans votre systĂšme dâinformation, mise en route et intĂ©gration des
scanners, formation, assistance au démarrage, accompagnement du changement.
Il nây a pas de licence Ă payer pour le serveur ou les postes clients.
En conséquence, MAARCH est déployable à volonté, y compris sur un Extranet, ou sur
Internet. Les composants utilisĂ©s pour lâinterface ou la base font partie du monde Open Source,
et ne nécessitent pas non plus de licences utilisateurs.
©
Maerys 2005 â Reproduction, communication, usage interdits sans lâaccord prĂ©alable de Maerys
Performance
La structure entiÚre de MAARCH est axée sur les performances, indispensables au niveau de
volume cible envisagĂ©. La structure documentaire ainsi que lâinterface ont Ă©tĂ© conçues pour
limiter au maximum le nombre de requĂȘtes Ă©mises lors dâune interrogation ou dâune
consultation documentaire. Pour des questions de puissance et de souplesse, la base est de type
relationnel, et peut tourner sur des moteurs Oracle, SQLServer, MySQL, PostgresSQL, etc.
Cependant, le schĂ©ma a Ă©tĂ© travaillĂ© pour ĂȘtre le plus « aplati » possible, et ainsi se rapprocher,
voire Ă©galer les performances des moteurs C-ISAM ou B-tree non relationnels.
MAARCH nâutilise pas de serveur dâapplication, mais repose uniquement sur la puissance brute
des processeurs, qui est devenue considérable. Les architectures dites « dimensionnables »,
rĂ©partissables sur plusieurs machines, sont si complexes quâelles pĂ©nalisent lourdement les
performances lorsquâelles sont exĂ©cutĂ©es par un seul CPU, ce qui est le cas dans 90% des
installations.
Il est recommandĂ© dâutiliser un serveur WEB et un serveur de base de donnĂ©es distincts. Dans
cette configuration, MAARCH peut servir les demandes de consultations dâarchives de
centaines dâutilisateurs, avec des temps de rĂ©ponse immĂ©diats.
Capacité
MAARCH peut gĂ©rer une multitude dâespaces de stockage, dits « serveurs de documents », pour
lesquels sont indiquĂ©s la capacitĂ© maximale, la capacitĂ© Ă Ă©crire, et le type dâaccĂšs. Les
documents y sont conservés dans leur format natif, et référencés soit par leur adresse physique,
soit par leur adresse logique, dans le cas oĂč le serveur de document est une boite noire gĂ©rant
elle-mĂȘme les emplacements de stockage (EMC Centera par exemple). Il nây a aucune
limitation quant à la capacité maximale de stockage gérée.
Domaines dâapplication et fonctionnalitĂ©s
Archivage documentaire
Câest le principal domaine dâapplication de MAARCH, car il concerne des documents en fin de
cycle de vie, nécessitant une conservation normée et long terme. MAARCH propose la
consultation en ligne de ces documents, avec des temps de restitution extrĂȘmement courts.
La conservation conforme à la norme Afnor Z42-013 est assurée par la gravure de supports de
stockage WORM (les DVD représentant actuellement le meilleur rapport
coût/capacité/fiabilité), à conserver dans une armoire, et utiles uniquement en cas de besoin
dâun original electronique pour une instruction judiciaire. Le module de gravure produit des
DVD conformes incluant tous les journaux de production.
La conservation en ligne est rendue possible par lâaccroissement des capacitĂ©s des disques
magnĂ©tiques, et par lâĂ©volution des mĂ©thodes de compression : un fonds dâarchive de 10
millions de pages A4, occupant un espace de stockage de 2.000 mÚtres linéaires, occupe une
fois numérisé un espace disque de seulement 600 Go.
Les fonctionnalités propres à ce domaine sont :
âą
Importation de masse Ă partir dâune source magnĂ©tique ou optique
©
Maerys 2005 â Reproduction, communication, usage interdits sans lâaccord prĂ©alable de Maerys
âą
Routine de gestion des emplacements de stockage incorporée dans chacun des modules
dâimportation : Ă©quilibrage des systĂšmes de fichier, surveillance de capacitĂ©, clĂŽture,
gravure, répartition par critÚre chronologique (ex : par année).
âą
Une fiche dâidentitĂ© par document. Index Dublin Core + Afnor Z42-013. 30 index
primaires paramétrables
âą
Gestion du stockage physique : boites dâarchives, conteneurs, demandes dâenlĂšvement,
bordereau de livraison, identification de lâadresse en linĂ©aire
âą
Fonctions de consultation : par index primaire (titre, type de document, auteur, contrat,
client), par boite dâarchive, par plage de date de crĂ©ation. Tous les index sont
combinables.
âą
Fonctions de mise à jour des index, de suppression logique, de création de boites, de
mise en boite dâun document
Gestion de dossier
La capacité à gérer un dossier faisait partie des objectifs prioritaires dans le cahier des charges
de conception de MAARCH. Cette fonction se situe entre la GED classique, disposant de
fonctionnalitĂ©s riches mais lourdes, et peu adaptĂ©e aux gros volumes, et lâarchivage basique,
dont lâarchitecture technique limite les capacitĂ©s de mise Ă jour.
MAARCH reprend une richesse de fonctionnalité digne des systÚmes de GED classiques tout en
mettant lâaccent sur les performances et les capacitĂ©s de stockage.
MAARCH repose sur un schĂ©ma de base de donnĂ©es relationnel oĂč relations et contraintes
dâintĂ©gritĂ© sont gĂ©rĂ©es par lâapplication. Le schĂ©ma est volontairement limitĂ© en terme de
nombre de tables et dâinteractions entre ces derniĂšres, afin de garantir des niveaux de
performance proches de ceux des systĂšmes Ă base de fichier. Par contre, lâutilisation de SGBDR
autorise toutefois les mises à jour et les recherches complexes, lorsque cela est rendu nécessaire.
MAARCH est enrichi des index, modules et primitives indispensables Ă une gestion de dossiers
basique, mais extrĂȘmement performante et efficace, en accord avec la philosophie du produit :
âą
Macros Word et Excel pour la conversion et lâimport de documents Office
âą
Module dâinterception, conversion et import des mail et fax. GĂ©nĂ©ration automatique
des index et intégration des routines de gestion des espaces de stockage
âą
Index spécifiques au traitement des dossiers
: Ă©tat, canal dâarrivĂ©e, indicateur
entrant/sortant, destinataires, dates de réception et traitement, compteurs de redirection
âą
Fonctions dâaffichage de « corbeilles » virtuelles basĂ©es sur des vues sur la base de
données : corbeille gestionnaire, service, courrier non identifié, courrier en retard, etc.
âą
Moteur de rÚgle intégré pour la répartition des documents entrants sur les gestionnaires :
par association dossier/gestionnaire, par Ă©quilibrage, etc.
âą
Constitution dynamique dâarborescence de dossier en fonction des index : client >
contrat, direction > dĂ©partement > service, etc. La structure de dossier est issue dâune
définition XML. Le contenu des arborescences de dossier est généré en heure creuse,
©
Maerys 2005 â Reproduction, communication, usage interdits sans lâaccord prĂ©alable de Maerys
sous la forme dâun arbre XML. Ceci permet un parcours du fonds documentaire par
navigation.
âą
ContrĂŽle dâaccĂšs au niveau document. Chaque document dispose dâun niveau dâaccĂšs
(ex : secret médical, dossier interne), et seules les personnes habilités peuvent le
consulter. Le filtrage à appliquer est défini dans les propriétés des utilisateurs, tous
dĂ©finis dans un fichier de configuration XML, lui-mĂȘme extractible Ă partir dâun
annuaire LDAP.
Borne dâarchivage
MAARCH est dotĂ© dâun module dâinterface permettant de se comporter en borne libre
dâarchivage. Tous les utilisateurs ont accĂšs Ă une suite dâĂ©crans dâindexation leur permettant de
cataloguer et ranger les documents pour archivage simple ou pour numérisation.
En fin dâindexation, lâutilisateur imprime des sĂ©parateurs code barre Ă apposer sur les
documents à numériser, qui seront ensuite décodés à la numérisation.
Tout le processus de demande dâarchivage est disponible libre de droit sur lâIntranet de
lâEntreprise. Ce modĂšle dâapplication inclut un module de contrĂŽle des supports issus de la
numérisation afin de valider la qualité de la prestation.
Lâinterface dâarchivage MAARCH est aussi appelable Ă partir des Ă©crans de gestion mĂ©tier :
dans ce cas, les index sont extraits de lâapplication, via un passage de paramĂštre, ou par
capture
dâĂ©cran et reconnaissance de caractĂšre
, et le séparateur code à barres est édité
instantanément.
©
Maerys 2005 â Reproduction, communication, usage interdits sans lâaccord prĂ©alable de Maerys