Datagoymsla verður støðugt týðningarmiklari partur av samfelagnum. Data má kunna goymast trygt, og samstundis vera atkomuligt og óforgeingilig.

Er datagoymsla á disklum alltíð besta loysnin?

Flestu okkara geva okkum lítið og einki far um datagoymsla, og halda helst talan er um einkult og ódýrt mál. Men er tað rætt? Nei, og fleiri orsakir eru til tess.  

(i) Det krever store mengder energi til dataservere og til kjøling av datasentre.

(ii)  De av oss som som har sett utviklingen av datamaskiner, og særlig peronlige datamaskiner, vil kunne huske tilbake til den tid da data ble lagret på floppydisker av variende størrelse og utseende. Noen husker kanskje til og med så langt tilbake som til magnetbånd og hullkort. I dag finnes det knapt vanlige datamaskiner som kan lese lese slike forhistoriske lagringsmedia. Dog er fremdeles magnetbånd viktige largringsmedia i enkelte sammenhenger.

 (iii) Men også filformatene forandrer seg. Det kan være vanskelig å få åpnet en fil som ble laget for bare 5 eller 10 år siden. Vi må oppdatere filenes formatering etter hvert som programvaren blir oppdatert, ellers risikerer vi å tape informasjonen i filene.  I tillegg til dette, er selve lagringen kanske kostbar. Det krever energi å holde datasentrene aktive, og harddiskene må skiftes ut med få års mellomrom.

(iv) Datatettheten i lagringsmediet er også en faktor av interesse. I dag kan vi lagre 1 Tb med data på en disk som er noen få kubikkcentimeter stor. Til tross for den enorme tekniske utviklingen som har skjedd i de siste tiårene, er mennesket en ren amatør innen datalagring og dataavlesning. Naturen gjør dette mye bedre enn oss. 

Kan DNA brukes til datalagring?

Våre arveegenskaper er digitalisert i vårt DNA; riktignok ikke i 0 og 1 som i en datamaskin, men i A, T, C og G (som er forkortelsene på de kjemiske byggesteinene i DNA; disse er kalt nukleotider). La oss først gjøre en enkel beregning ut fra den biologiske tettheten av informasjon . Kroppen vår er bygd opp av celler. I hver av cellene er det en cellekjene. En gjennomsnittlig cellekjerne er ca 5 x 5 x 2 mikrometer, det vil si ca 50 kubikkmikrometer (1 mikrometer = 1/1000 millimeter = 1/1000000 meter). Det er i cellekjernen at vi finner DNA. En cellekjerne innholder ca 6,4 milliarder sett av nukleotider. Det betyr at hver at hver posisjon i DNA kan inneholde enten A eller T eller G eller C.

Men på samme måte som en binær kode trenger å settes sammen av flere 0 og 1 for å kunne fortelle hvilken bokstav eller hvilket tall datamaskinen skal jobbe med, kan vi også sette sammen flere påfølgende nukleotider til å fortelle hvilken bokstav eller tall som skal brukes. Hvis vi bruker to posisjoner, vil vi ha 4 x 4 = 16 muligheter, og ved tre psoisjoner vil vi ha 4 x 4 x 4 = 64 muligheter. Dette er tilstrekkelig til å kunne oversette til alle bokstaver i det latinske alfabetet, og samtidig ha plass til alle tallene 0 til 10, samt alle vanlige tegn i en tekst (.,;:-/, osb). Det betyr at vi har plass til lagring av over 2 millarder bokstaver, tall og tegn i en cellekjerne. En vanlig bok inneholder ca 60 tegn på en linje, og ca 40 linjer på en side. Det gir 2400 tegn på en side. Det betyr at cellekjernen kan inneholde informasjon som tilsvarer nesten 1 million sider. Hvis en bok har 250 sider, og er ca 2 cm tykk, vil det si at en cellekjerne inneholder informasjon som tar ca 80 hyllemeter.

Hvorfor? Enkelt sagt: DNA har vist seg som en fabelaktig god bærer av informasjon i biologisk sammenheng, og det er all grunn til å tro at DNA også kan brukes i andre sammenhenger (1). DNA har en rekke attraktive egenskaper:

(i) DNA er mye mer fysisk stabilt enn de kjente digitale lagringsmedia, og kan lagres i flere tusen år. Det eldste DNA som er sekvensert fram til nå, kommer fra et bein fra en ca 700 000 år gammel hest (2). Dette beinet ble funnet i permafrosten i Yukon, Canada, i 2003 (2). Det betyr at hvis DNA lagres kaldt og tørt, er lagringstiden på flere hundre tusen år.

(ii) DNA er mye mer kompakt enn andre lagringsmedia. Høyeste informasjonstetthet på magnettape er rapportert til 23 Gb/cm2 (= 2.9 GB/cm2)* og 185 TB på en tapekassett (3). Optisk lesbare disker kan komme opp til 100 GB/mm3 (=100 TB/cm3) (4). Teoretisk kan informasjonstettheten  av DNA komme opp i 455 EB/g (5)**. Tettheten av DNA ligger på ca 1,4 g/cm3 (6). Med andre ord, per i dag er den teoretiske grensen for lagring i DNA ca 6 millioner ganger høyere enn den høyeste oppnådde informasjonstettheten på en optisk disk. Dette forutsetter imidlertid maksimal utnyttelse av DNA, noe som i praksis vil være vanskelig. Dette gjelder jo også lagring av data på disker; det tas backup for å forhindre at data forsvinner i tilfelle diskkrasj.

(iii) DNA vil alltid være av interesse for menneskeheten, da det er bærer av våre (og alle andre organismers) arveegenskaper. Det er nesten utenkelig at vi vil slutte å sekvensere DNA, og metodene vil sannsynligvis bli ytterliger utviklet . Dette arbeides det intenst med å gjøre sekvensering billigere, hurtigere og av bedre kvalitet. Sannsynligvis vil nye metoder vil komme i kommersiell bruk innen kort tid. Det arbeides også mye med bioinformatikken som trenges for å sette sammen og analysere sekvenseringsdata, og også her vil metodene bli bedre med tiden.

Eksempler på DNA som datalager

Er så dette mer enn en teoretisk mulighet? Ja, det kan også brukes i praksis. De tidligste forsøkene med DNA som digital informasjonsbærer brukte bare små mengder data (7, 8). Teknikkene for å håndtere DNA har imidlertid utviklet seg mye de siste årene, og det er nå mulig å bruke større mengder data av forskjellige slag. Amerikanske forskere synteserte DNA som lagret informasjonen fra en bok med mer enn 50000 ord (HTML format), 11 JPG bilder og et JavaScript-program (5). Dette ble lagret i ca 55000 små DNA-biter, som hver bestod av 159 nukleotider (de kjemiske byggesteinene i DNA). Dette ble så avlest igjen, og informasjonen satt sammen nesten feilfritt. Engelske forskere (9) tok alle 154 sonneter av Shakespeare (som ASCII tekst), en vitenskapelig artikkel (PDF), et bilde (JPG), utdrag fra Martin Luther King’s kjente tale “A have a dream” (MP3-format) og en programkode. Dette utgjorde 739 kB på en tradisjonell harddisk. I alt ble dette omkodet til ca 153000 korte DNA-biter, hver på 117 nukleotider.  Det syntetiserte DNA’et ble sendt fra USA til Tyskland, hvor det ble dekodet. Som DNA var informasjonstettheten ca 2,2 PB/g (9). Ut fra tallene som forskerne angir i artikkelen, ser det ut til at de kunne ha økt informasjonstettheten til 100-200 PB/g DNA uten noe større problemer.     

Per i dag er den største problemet at DNA-synteseteknikkene er mindre utviklet og mere kostbare enn sekvenseringsteknikkene. Det er vanskelig å lage lange DNA-tråder, og jo lengre trådene blir, jo lettere er det at det skjer en feil under syntesen. Vi må likevel anta at det vil skje en teknisk utvikling på området.  Kanskje vil DNA-lagring av sentrale data i samfunnet bli  aktuelt om relativt få år.

Med tanke på DNA’et overlegne egenskaper som informasjonsbærer, er det nesten paradoksalt at det i dag brukes mange ressurser til å genomsekvensere mennesker, og så lagre dataene på harddisker.

Referanser:

1. C Bancroft et al (2001) Long-term storage of information in DNA. Science 293, 1763-1765.

2. L Orlando et al (2013) Recalibrating Equus evolution using the genome sequence of an early Middle Pleistocene horse. Nature 499, 74-78.

3. http://www.sony.net/SonyInfo/News/Press/201404/14-044E/

4. http://www.extremetech.com/computing/159245-new -optical-laser-can-increase-dvd-storage-up-to-one petabyte (2013)

5. GM Church, Y Gao, S Kosuri (2012) Next-generation digital information storage in DNA. Science 337, 1628.

6. MA Smialek et al (2013) Measuring the density of DNA films using ultraviolet-visible interferometry. Phys Rev E 87, 060701.

7. CT Clelland, V Risca, C Bancroft (1999) Hiding messages in DNA microdots. Nature 399, 533-534.

8. M Ailenberg, OD Rotstein (2009) An improved Huffman coding method for archiving text, images, and music characters in DNA. Biotechniques 47, 747-754.

9. N Goldman, P Bertone, S Chen, C Dessimoz, EM LeProust, B Sipos, E Birney (2013) Toward practical high-capacity low-maintenance storage of digital information in synthsiszed DNA. Nature 494, 77-80.

Andre kilder:

J Bornholt et al (2016) A DNA-based archival storage system. ASPLOS ’16. (https://homes.cs.washington.edu/~luisceze/publications/dnastorage-asplos16.pdf)

The Naked Scientists Podcast Oct 17, 2015 (http://www.thenakedscientists.com/HTML/interviews/interview/1001543/)

*Det er her brukt en vanlig antagelse på at  1 B (byte) tilsvarer 8 b (bits), hvor hver enkelt bit kan være 0 eller 1.

** EB = exabytes, det vil si 1018 bytes. 1 EB = 103 PB (petabytes) = 106 TB (terabytes) = 109 GB (gigabytes).