Estos datos, que suman un total de 1.000.000 de Gigabytes, serán almacenados en las instalaciones del Barcelona Supercomputing Center (BSC-CNS) y analizados posteriormente con el supercomputador MareNostrum.
Hasta la actualidad, el EGA ha sido un servicio del Instituto Europeo de Bioinformática (EBI-EMBL). Su finalidad radica en archivar de manera permanente y segura, y compartir de forma controlada, todo tipo de datos genómicos y fenómicos de personas identificables, resultantes de proyectos de investigación biomédica, especialmente de proyectos relacionados con enfermedades complejas.
En esencia, EGA contiene datos confidenciales relativos a información sobre variantes genómicas portadas por individuos que presentan fenotipos de enfermedades y por individuos sanos. La información recogida procede exclusivamente de las personas cuyo consentimiento autoriza a la publicación de los datos para su uso en el marco de investigaciones científicas o para científicos registrados.
Los datos almacenados en EGA hacen referencia a más de 100.000 personas, que en la mayoría de casos padecen enfermedades complejas. Se trata de enfermedades de gran impacto en la salud pública, incluyendo muchos tipos de cáncer (como de mama o de colon), enfermedades autoinmunes (como la esclerosis múltiple o la diabetes), enfermedades cardiovasculares o psiquiátricas, y un largo etcétera de más de 50 patologías distintas.
EGA archiva de manera permanente diversos niveles de datos obtenidos con distintas tecnologías, incluidos datos de secuenciación sin procesar (los cuales podrían, por ejemplo, ser reanalizados en el futuro mediante otros métodos o algoritmos), además de las variantes genómicas finales proporcionadas por los solicitantes. EGA está diseñado para ser un repositorio de todo tipo de experimentos de secuenciación, epigenética y genotipado, incluyendo estudios de control de casos, población y familiares.
Todos estos datos han sido generados por grupos de investigación y consorcios internacionales e instituciones, no sólo europeos, sino de todo el planeta. Solamente durante los primeros 4 meses de 2014 los datos almacenados en EGA se han transferido en más de 20.000 ocasiones a casi 5.000 usuarios de grupos de investigación de los cinco continentes. De esta forma, EGA garantiza que toda la comunidad científica pueda disponer de estos valiosos datos para realizar trabajos de investigación que de otro modo serían imposibles.
Actualmente, el volumen total de los datos, una vez comprimidos, es de aproximadamente 1PB (1.000.000 de GB). En los últimos doce meses, el Catálogo EGA ha experimentado un crecimiento del 50% en el número de estudios y del 70% en el número de archivos. Se prevé que en los próximos 12 meses el volumen total de archivos se multiplique por 3.