Grille de calcul : l'internet du calcul intensif
L’augmentation énorme
des besoins informatiques pour l’analyse des très
grands flux de données que
produiront les futures expériences installées auprès
du collisionneur LHC du Cern, couplée à la progression
ultrarapide des performances des réseaux informatiques,
a conduit la communauté scientifique, début 2000, à considérer
la grille de calcul comme la technologie la plus appropriée
pour l’avenir.
Une grille de calcul est un dispositif logiciel
qui offre aux utilisateurs des puissances quasi illimitées
de calcul ou de stockage de données, grâce à un
accès transparent et facile (une simple connexion à un
réseau à très haut débit de type Internet) à un
vaste ensemble de ressources informatiques distribuées sur
une grande échelle.
Deux éléments sont indispensables pour qu’une
grille soit réalisable : des réseaux à très
haut débit sur de longues distances et une capacité à gérer
la qualité de service. L'évolution des technologies
de communication le rend aujourd'hui possible. Cette nouvelle donne
est susceptible de modifier en profondeur la problématique
des moyens de calcul dans trois grands domaines : le calcul
intensif, la visualisation et les grandes bases de données.
Si les ressources en matériel existaient déjà en
grande partie (centres de calcul, ordinateurs des laboratoires
et réseaux), il restait à construire toute l'infrastructure
logicielle sur laquelle reposera la grille et qui comprend, entre
autres : l'identification et la sécurité, les
logiciels d'arbitrage de ressources, de suivi des applications
et de garantie de qualité, et l'interface utilisateur.
Deux programmes européens de grille de calcul se sont succédés,
Datagrid puis Egee, auxquels l’IN2P3 a collaboré.
Le but de Datagrid était de démontrer la faisabilité d’une
grille de calcul distribuée à l’échelon
international, en construisant un banc test informatique capable
de fournir des ressources informatiques et de partager des données à travers
l’Europe. La version finale du logiciel Datagrid est déjà utilisée
dans trois domaines scientifiques majeurs : la physique des
hautes énergies, les applications biomédicales et
l’observation de la Terre. Pour la physique des particules,
qui constitue une plate-forme d’expérimentation idéale
pour ces nouveaux moyens informatiques, il forme la base de l’infrastructure
LHC computing grid (LCG) laquelle va s’appuyer sur la technologie
des grilles de calcul pour stocker et analyser les pétaoctets
(1 pétaoctets = 1015 octets) de données
réelles et simulées, produites par les expériences
du LHC.
Le banc test Datagrid a permis de rassembler jusqu’à 1000 ordinateurs
et plus de 15 téraoctets (1 teraoctets = 1012 octets)
de stockages répartis sur 25 sites en Europe, en Russie
et jusqu’à Taiwan. Ces ressources ont été mises
au service permanent de 500 scientifiques regroupés
en 12 organisations virtuelles. Le logiciel Datagrid a également été approuvé par
l’"Open source initiave corporation",
ce qui en fait un produit "open source" reconnu
internationalement.
Le logiciel et l’infrastructure hérités de
Datagrid ont alors formé le point de départ du projet
Egee qui a démarré en 2004 avec pour l’objectif
de mettre en place, à travers l’Europe, une infrastructure
de grille disponible 24 heures sur 24. Il se concentre sur trois
axes : 1) construire une grille cohérente, robuste
et sécurisée ; 2) améliorer continûment
la qualité du logiciel pour fournir un service fiable aux
utilisateurs ; 3) attirer de nouveaux utilisateurs scientifiques
ou industriels en leur faisant découvrir le nouveau potentiel
offert par cette grille et s’assurer qu’ils reçoivent
une formation et un support de qualité. Cette grille s’appuiera
sur le réseau à grand débit Géant de
l’Union européenne et exploitera au mieux l’expertise
accumulée par les nombreux projets nationaux ou internationaux
de grille en cours.
Egee couvrira une gamme large d’applications scientifiques
et industrielles, parmi lesquelles deux secteurs pilote ont été choisis
pour guider l’implémentation de l’infrastructure
et en certifier les performances et les fonctionnalités.
L’un de ces secteurs est la physique des particules avec
la grille construite pour le LHC (LCG) pour laquelle une étape
importante, la deuxième d’une série de quatre
destinées à tester l’infrastructure de cette
grille, a été franchie en 2005 : 600 mégaoctets
de données par seconde ont été transférés
en moyenne durant dix jours entre le Cern et sept centres de calcul
situés en Europe et aux États-Unis, parmi lesquels
celui de l’IN2P3 à Lyon. L’autre secteur concerne
les applications biomédicales où plusieurs communautés
sont confrontées à des défis de même
envergure pour faire face au déluge de données bioinformatiques
et de santé : ainsi, les capacités de cette
grille de calcul ont déjà permis de tester en seulement
un mois près d'un million de médicaments potentiels
pour le traitement de la malaria (2005) et 300 000 autres
pour le traitement du virus H5N1 de la grippe aviaire (2006).
La contribution principale de l'IN2P3 à ces
projets, en partenariat avec l'Irfu (CEA), a porté sur l'étude
de la pertinence du modèle pour les besoins propres de la
physique des hautes énergies et sur la fourniture de plates-formes
de tests à grande échelle pour l'ensemble des projets.
Le Centre de calcul de l’IN2P3 à Lyon est ainsi un
des nœuds importants de la grille. Une synergie régionale
a été créée dans la région Rhône-Alpes
avec la présence notamment du centre de calcul de l'IN2P3 à Lyon,
du laboratoire de l'Unité des réseaux du CNRS (Urec)
et de l’Institut des sciences nucléaires à Grenoble
et la proximité du Cern à Genève. Un partenariat
a été instauré également avec l’Institut
de recherche en informatique et en automatique (Inria).
En dehors de son utilité dans le domaine scientifique,
la grille de calcul aura sans aucun doute des retombées
industrielles et commerciales : industriels impliqués
dans le développement des logiciels, entreprises ayant des
besoins de calcul importants, fourniture à la demande de
ressources informatiques à des sociétés…