Toekomst van dataopslag schuilt in microbolletjes met DNA

 » Werk & ondernemen » Nijmegen innoveert

Binnen vijf tot tien jaar kunnen we gegevens opslaan in DNA, verwacht hoogleraar Tom de Greef. Gegevens worden daarbij niet in nullen en enen opgeslagen op een harde schijf, maar in de basenparen AT en CG waaruit DNA is opgebouwd.

In zo'n nieuw DNA-datacentrum worden dan nieuwe bestanden gecodeerd via DNA-synthese. In een ander deel liggen grote velden aan bolletjes: met in elk bolletje een bestand verpakt. Een robotarm haalt een bolletje eruit, leest de inhoud, en plaatst het weer terug. Het onderzoek van de Greef en collega's verschijnt vandaag in Nature Nanotechnology.

In het lab worden de basen in een bepaalde volgorde aan elkaar geplakt tot synthetisch aangemaakte DNA-strengen. De bestanden en foto’s die nu in datacentra zijn opgeslagen, worden dan in DNA opgeslagen. Vooralsnog is de techniek alleen geschikt voor archiefopslag. Het uitlezen van opgeslagen gegevens is namelijk erg duur, waardoor je de bestanden zo min mogelijk wilt raadplegen.

Grote en energieslurpende datacentra overbodig

Dataopslag in DNA biedt vele voordelen. Een bestand kan bijvoorbeeld veel compacter worden opgeslagen en ook de levensduur van de gegevens is vele malen langer. Maar het belangrijkste is misschien wel dat deze nieuwe techniek grote en energieslurpende datacentra overbodig maakt. En dat is hard nodig. 'Want over drie jaar genereren we mondiaal zoveel data, dat we de helft ervan niet meer kunnen opslaan', waarschuwt De Greef.

Samen met promovendus Bas Bögels van de TU Eindhoven, een groep universitaire partners en Microsoft ontwikkelde de Greef een nieuwe techniek om dataopslag met synthetisch DNA schaalbaar te maken. De resultaten zijn vandaag gepubliceerd in het journal Nature Nanotechnology. De Greef is hoogleraar Synthetische biologie bij de Radboud Universiteit en werkt tevens bij de faculteit Biomedical Engineering en het Instituut voor Complexe Moleculaire Systemen (ICMS) aan de TU Eindhoven.

Schaalbaar

Het idee om DNA-strengen te gebruiken voor dataopslag kwam op in de jaren 80, maar was toen nog veel te duur en te moeilijk. Drie decennia later werd het technisch mogelijk, toen DNA-synthese voet aan de grond zette. George Church, een geneticus aan de Harvard Medical School, werkte het idee in 2011 verder uit. Inmiddels is de synthese en het uitlezen van de gegevens exponentieel goedkoper geworden, waardoor de technologie eindelijk geschikt wordt om op de markt te brengen.

De Greef keek met zijn groep de afgelopen jaren vooral naar het uitlezen van de opgeslagen gegevens. Vooralsnog is dat het grootste probleem van deze nieuwe techniek. De PCR-methode die daar nu voor wordt gebruikt, random access genaamd, is erg foutgevoelig. Je kunt daarom maar één bestand tegelijkertijd uitlezen en daarnaast gaat de datakwaliteit elke keer dat je een bestand uitleest nog teveel achteruit. Niet echt schaalbaar dus.

Dat zit zo: PCR (Polymerase Chain Reaction) maakt miljoenen kopieën van het stuk DNA dat je nodig hebt, door het toevoegen van een primer met de gewenste DNA-code. Coronatests in het lab zijn hier bijvoorbeeld op gebaseerd: zelfs een minuscule hoeveelheid coronavirusmateriaal uit je neus is detecteerbaar door het zo vaak te kopiëren. Maar als je meerdere bestanden tegelijkertijd wilt uitlezen, heb je meerdere primer-paren nodig die gelijktijdig hun werk doen. Dat zorgt voor vele fouten in het kopieerproces.

Elk bolletje bevat 1 bestand

Daar komen de bolletjes om de hoek kijken. De groep van De Greef ontwikkelde een microbolletje van eiwitten en een polymeer, waar ze vervolgens per bolletje één streng van basenparen – dus één bestand – aan vast kunnen hechten. De Greef: “Die bolletjes hebben thermische eigenschappen, die we in ons voordeel kunnen gebruiken.” Boven de 50 graden Celsius sluiten de bolletjes zichzelf af, waardoor je het PCR-proces in elk bolletje afzonderlijk kunt laten plaatsvinden. Weinig ruimte voor fouten dus. De Greef noemt het ‘thermoconfined PCR’. Tot nu toe lukt het in het lab om hiermee 25 bestanden tegelijkertijd uit te lezen zonder noemenswaardige fouten.

Verlaag je de temperatuur daarna weer, dan komen de kopieën los uit het bolletje en blijft het vast gehechte origineel zitten. Zo gaat de kwaliteit van je originele bestand niet achteruit. De Greef: “We zitten nu op een verlies van 0,3 procent na drie keer uitlezen, vergeleken met 35 procent bij de huidige methode.”

Doorzoekbaar met fluorescentie

En dat is niet het enige. De Greef maakte de bibliotheek aan gegevens ook nog makkelijker doorzoekbaar. Elk bestand krijgt namelijk een fluorescent label, elk bolletje een eigen kleur. Een apparaat kan de kleuren vervolgens herkennen en onderscheiden van elkaar. Dan zijn we weer terug bij de imaginaire robotarm aan het begin van dit verhaal, die in de toekomst het gezochte bestand netjes oppikt uit de poel aan bolletjes.

Het probleem van het uitlezen van de gegevens is daarmee opgelost. De Greef: “Het is nu nog wachten tot de kosten van DNA-synthese verder naar beneden gaan. Dan is de techniek klaar om toegepast te worden.” Hij hoopt dan ook dat Nederland binnenkort zijn eerste DNA datacentrum kan openen, een wereldprimeur.

Dit artikel verscheen eerder op Radboud Universiteit.

Dit vind je misschien ook interessant...