Il y a plusieurs méthodes pour réaliser le séquençage d’un génome complet. De manière très schématique, on coupe l’ADN en petits morceaux et chaque morceau sera soumis à un processus de copies. Dans le premier tube on s’arrange pour que la copie s’arrête de façon aléatoire, mais toujours au niveau d’un "A". On fait la même chose pour les trois autres lettres. Ensuite, on sépare tous ces fragments copiés suivant leur taille, et on peut ainsi observé qu’un G suit un T et précède un A. Des millions de lectures sont faites, et les données sont stockées et traitées dans un ordinateur. La premier traitement consiste à rabouter les différentes lectures en fonction de leur séquence de recouvrement (séquences chevauchantes). Tout ceci va très vite, et la redondance des informations permet de vérifier qu’il y a moins d’un certain taux d’erreurs.
De nouvelles technologies voient le jour, et d’autres sont en projets (cf le commentaire de Flow à 14h12), mais le grand principe d’obtenir de petites séquences redondantes est, en gros, conservé.
Bien sûr, il y a des erreurs, mais la nature elle-même en fait lorsqu’elle copie l’ADN avant la division de la cellule. Comme la nature, on essaie d’en limiter le nombre, et l’on a dû pour cela mettre au point des outils informatiques qui permettent de repérer les erreurs.
Si l’on veut une séquence propre, il faut effectuer un travail de finition très long, beaucoup plus long que celui qui permet d’obtenir une séquence génomique correcte à 90 %
EN termes très généraux, oui, nous avons tous à peu près la même longueur d’ADN. Mais, certaines régions de notre génome peut être présent en nombre de copies variables suivant les individus. C’est une des formes que prend le polymorphisme qui nous distingue comme des individus génétiques différents.
On peut imaginer bien des choses, mais je ne suis pas certain d’aller aussi loin que vous car on est encore un peu loin de l’interface biologico-informatique entre la séquence de l’ADN et nous.