R: R: R: [aha] MANIFESTO DEL DOPOFUTURISMO

Sun Jan 25 18:21:15 CET 2009

Luigi Pagliarini ha scritto:
> parlavo dell'universo e delle sue dinamiche.
> poi, mi perdonerai se, per farlo, uso una lingua, quindi ciò che chiamiamo
> un sistema di regole: logiche!
> ad esempio, a la genetica, tu, ci credi?!? 
> o per te son tutte chiacchiere e desideri scoprirti creazionista?
> ebbene! 
> nella genetica l'avanguardia è evidentemente implicita. 
> capisci cos'intendo?

No non ci CREDO proprio alla gentica, ma alla fine mi dispiace che si 
riduca ad un discorso in cosa credo io e cosa non credo. Per questo 
inserisco un testo proprio sul sequenziamento genomico e sul perchè io 
non ci CREDO, solo perchè ti devo interessato e siccome l'ho studiato 
parecchio magari ti interessa leggerlo. L'ho scritto parecchio tempo fa 
adesso lo integrerei con delle teorie di Greimas e Jakobson, ma chi lo 
sa. Poi io vivo benissimo senza credere in qualcosa,senza sapere 
esattamente cosa sono lo spazio e il tempo, non ho bisogno di trovare 
una origine e una fonte.

Il sistema di regole logiche mi fa sorridere, certo io adotto dei 
sistemi come validi e mi do delle spiegazioni, ma non metto in 
discussione che ci siano degli errori e dei limiti.

Sincermente è vero ognuno si da le spiegazione che vuole ma a me pare un 
pò riduttivo un sistema di regole perfettamente logiche che hanno dei 
significati univoci. Ora capisco perchè ti è semplice incasellare cosa è 
arte cosa non lo è. Però poi ci sono dei problemi nel capire perchè una 
cosa è politica perchè non lo è, o gli insiemi combinati e ibridi. Certo 
diveta noioso quando la discussione si riduce a guardare nei vocabolari 
cosa significa una parola perchè quello è lo strumento di regolazione 
massimo forse in questo sistema.

Scusate la lunghezza del messaggio, attacco un testo che non interessa a 
nessuno credo, ma solo per un discorso particolare...è il mio punto di 
vista sulla genomica e non si ha la pretesa di essere una verità.

La Bioinformatica

Sin dalla sua origine la biologia è stata una scienza osservativa. Negli 
ultimi anni non si può dire che questo orientamento sia venuto meno ma 
sicuramente si è assistito ad enormi cambiamenti relativi al tipo di 
dati che tale scienza si è trovata ad elaborare.
A partire dagli anni novanta la genomica si è avvalsa di sistemi 
informatici per sequenziare e immagazzinare le catene nucleotidiche e 
amminoacidiche. Questo ha permesso lo sviluppo di un nuovo campo 
denominato bioinformatica, considerata una scienza applicativa. Migliaia 
di genomi di esseri viventi differenti sono stati interamente o 
parzialmente sequenziati. I dati ottenuti sono stati immagazzinati in 
enormi banche dati accessibili via web da chiunque ed in ogni momento.
La biologia si confrontata con dei dati non solo quantitativamente 
maggiori e precisi, ma anche discreti. Questo, tuttavia, non ha 
trasformato la biologia in una scienza deduttiva, poiché la complessità 
della vita non è spiegabile nel dettaglio partendo da semplici principi 
di base.  Attualmente le banche dati  di sequenze nucleotidiche 
contengono 16 x 106  basi. La dimensione del genoma umano, composto da 
3.2 x 109 basi, è utilizzata come metro per l’ideazione di una nuova 
unità di misura, l’huge (Human Genome) pari a 2,5 volte il genoma umano. 
L’estrapolazione di una singola sequenza da questi database è in sé poco 
produttiva. L’obiettivo fondamentale della bioinformatica è quello di 
individuare sequenze di basi significative, cioè che codificano 
proteine, attraverso la comparazione con i dati di cui disponiamo.
Le basi azotate, adenina, timina, citosina, guanina sono simili fra loro 
dal punto di vista chimico e quindi complessivamente la struttura del 
DNA appare uniforme. Le fasi che portano alla scoperta di nuovi geni 
sono diverse, si passa da una prima attività di mappatura per poi 
individuare una sequenza ritenuta rilevante. Normalmente i geni sono una 
regione di DNA con un codone di inizio prestabilito (ATG) e uno di fine. 
La loro lunghezza può variare da  600 a 1200 basi. La corrispondenza tra 
la sequenza di basi azotate del DNA e la sequenza degli aminoacidi che 
formano una proteina non è però così immediata. Mentre per i 
microrganismi vi è una sostanziale corrispondenza tra la dimensione di 
un gene e quelle della proeina da esso codificata, la stessa cosa non 
può dirsi per gli organismi complessi. I geni si trovano normalmente 
divisi in parti differenti. Le sezioni dette esoni sono quelle utili per 
la codifica proteica e sono intervallate da sequenze interposte dette 
introni che non hanno alcuna rilevanza nella sintesi proteica. Gli 
introni sono in molti casi estremamente lunghi, a volte più degli stessi 
esoni. Il sistema cellulare si occupa di tagliare e unire le diverse 
informazioni date dagli esoni.
Tutto questo non consente una facile individuazione delle proteine 
corrispondenti ai diversi geni. Nella maggior parte dei casi le proteine 
sono ricavate dalle sequenze di basi attraverso una retrotraduzione e 
non da un diretto sequenziamento. La proteina dedotta è un oggetto 
ipotetico fino a che i ricercatori non ne verificano l’esistenza, 
attraverso una ricerca empirica o attraverso la consultazione delle 
banche dati per individuare una molecola simile già esistente in natura. 
È evidente che la riduzione dei dati genetici alla sola sequenza lineare 
di basi comporta diversi problemi.
La reale natura dei semplici legami ad idrogeno che uniscono gli acidi 
nucleici è molto più complessa sia per l’elevata quantità di rapporti 
tra le diverse basi sia per l’impossibilità di ignorare gli aspetti 
evolutivi e interattivi del genoma. Risulta a questo proposito 
interessate la metafora utilizzata da R. J. Robbins  per descrivere il 
processo di ricerca della bioinformatica:
“[…] Consideriamo 3,2 gigabyte di genoma umano come equivalenti a 3,2 
gigabyte di file della memoria di alcuni sistemi di computer di 
progettazione sconosciuta. L’ottenimento di una sequenza equivale 
all’ottenimento di un’immagine del contenuto della memoria. La 
comprensione della sequenza equivale a invertire il processo di 
ingegnerizzazione in modo da risalire da questo sistema sconosciuto di 
computer (sia il disco fisso sia i 3,2 gigabyte di software) fino 
all’insieme completo del progetto e delle specifiche di mantenimento. Il 
processo di ingegnerizzazione inversa della sequenza è complicato dal 
fatto che l’immagine risultante della memoria non sarà una copia da file 
a file, ma piuttosto uno scaricamento continuo dei bytes nell’ordine in 
cui essi erano stati inseriti nella macchina. Inoltre si sa che i file 
sono frammentati. In aggiunta a ciò, alcune macchine contengono file 
cancellati e altra spazzatura. Una volta che la spazzatura è stata 
riconosciuta e scartata e che i file frammentati sono stati 
riassemblati, l’ingegnerizzazione inversa dei codici può essere 
intrapresa, pur avendo solamente una parziale, e a volte scorretta, 
comprensione della unità centrale di processamento (CPU, Central 
Processing Unit) sulla quale girano i codici.
Infatti, dedurre la struttura e la funzione della CPU è parte del 
progetto, poiché alcuni dei 3,2 gigabyte sono specifiche binarie per il 
processo di fabbricazione svolto dal computer che costruisce la CPU. In 
aggiunta a ciò, si deve anche considerare che l’enorme database contiene 
anche un codice generato dal risultato di letteralmente milioni di 
revisioni di mantenimento effettuate dal peggiore insieme possibile di 
hackers smanettoni opportunisti, che si deliziano in abili giochetti 
come scrivere un codice automodificante e basarsi su trucchi di sistema 
non documentati” .
In questo brano Robbins utilizza spesso il termine ingegnerizzazione 
paragonando l’analisi biologica alla ricostruzione di un processo 
meccanico di formazione e sviluppo degli esseri viventi e del corpo 
umano. Tuttavia riesce bene a rendere l’impossibilità di confrontare un 
sistema informatico con quello biologico, sottolineando come gli esseri 
viventi non siano macchine che funzionano secondo regole determinabili 
singolarmente e come il genoma contenga, anche, le indecifrabili 
istruzioni per la costruzione dell’intero organismo.
Il sistema scientifico si relaziona a questo tipo di complessità 
cercando delle forme di semplificazione. La prima fra tutte è la 
riduzione del DNA a sequenza lineare. Se pur di enormi dimensioni la 
sequenza in sé non fornisce informazioni utili. Quindi diventa 
determinante il confronto di porzioni di un determinato genoma con le 
sequenze gnomiche contenute nelle banche dati. Per individuare le 
corrispondenze si sono sviluppati diversi sistemi di allineamento. 
“L’allineamento di una sequenza consiste nell’identificazione di 
corrispondenze base per base” . Questo costituisce lo strumento 
fondamentale della bioinformatica.
Le sequenze di basi sono trattate come sequenze di lettere dette 
stringhe. Il confronto tra le diverse stringhe non è immediato ma 
prevede un processo di elaborazione sulla base dei risultati ottenibili. 
Spesso la complessità degli organismi e i processi evolutivi fanno si 
che stringhe simili differiscano solo per poche basi in posizioni 
differenti. Possono essere allora introdotti dei gap tra le basi per 
consentire una migliore ricerca.
Per esempio date due stringhe abcde e acdef
Uno dei loro possibili allineamenti potrebbe essere:
abcde-
a-cdef

L’obbiettivo della ricerca è quello di stabilire i criteri per elaborare 
un algoritmo in grado di selezionare gli allineamenti che forniscano 
risultati attendibili. Per le sequenze gctgaacg e ctataatc posso essere 
previsti vari tipi di allineamenti:
Un allineamento privo di contenuto informativo
-------gctgaacg
ctataatc-------
Un allineamento senza gap
gctgaacg
ctataatc

Diversi allineamenti con gap
gctga-a--cg
--ct-ataatc

gctg-aa-cg
-ctataatc-

Per decidere quale sia la migliore tra tutte le possibilità è necessario 
individuare un metodo in grado di analizzare sistematicamente tutti i 
possibili allineamenti e che ci permetta di stabilire un punteggio sulla 
base del quale poter scegliere la soluzione ottimale. Il sistema 
maggiormente diffuso è il dotplot, uno strumento che permette una veloce 
raffigurazione visiva delle similarità tra due sequenze. È un tabella o 
matrice in cui le righe corrispondono alle basi di una sequenza e le 
colonne alle basi di una seconda sequenza. Un altro modo di pensare al 
dotplot è quello di editare un algoritmo che segnala i passaggi 
necessari per trasformare la stringa di partenza nella stringa di 
confronto. Alla fine dell’elaborazione l’effetto sarà quello di 
trasformare una stringa in un’altra. Sulla base di questi presupposti, 
data una sequenza non nota è difficile che un ricerca nei database 
mondiali porti ad un risultato utile a meno che questa non sia molto 
simile a una o più sequenze già presenti.
PSI-BLAST è uno degli ultimi sistemi elaborato per confrontare una 
singola stringa con tutte le sequenze note. Analizza le sequenze 
contenute nel database una per volta rispetto alla sequenza campione, 
individua così un pattern di allineamento probabile e quindi sonda 
nuovamente il database.
Un’analisi di questo tipo richiede tempi molto lunghi e tuttavia risulta 
poco proficua se non accompagnata da delle ipotesi iniziali di possibili 
corrispondenze. Per esempio se si vuole cercare nel genoma umano delle 
proteine omologhe a una proteina di topo, la similarità sarà molto alta. 
Ma se si vogliono cercare nel batterio C. elegans delle proteine 
omologhe a una proteina umana i possibili risultati saranno molto bassi 
o richiederanno procedimenti più lenti e complessi.
Nel sistema di ricerca e confronto tra sequenze è necessario distinguere 
tra il concetto di  sSimilarità e quello di omologia. La similarità è 
l’analisi delle somiglianze o delle differenze tra campioni 
indipendentemente dall’organismo da cui provengono. Si utilizza invece 
il termine omologia per indicare sequenze che appartengono ad organismi 
con un antenato comune, in questo caso le omologie consisteranno in 
caratteristiche ancestrali comuni. La similarità delle sequenze è 
osservabile per tutti i tipi di campioni e si riferisce ad un 
determinato momento che non comporta alcuna ipotesi storica. Al 
contrario affermare l’omologia tra due sequenze comporta l’ipotesi di un 
evento storico quasi sempre non osservabile. Nella ricerca medica la 
similarità è il principio di base attraverso cui è possibile individuare 
eventuali mutazioni e difetti nel genoma.
Negli anni, il lavoro di calibrazione delle similarità e delle 
divergenze nelle sequenze ha portato a risultati sufficientemente 
attendibili e tali da poter essere in parte utilizzato nella ricerca di 
relazioni filogenetiche tra specie. In questo campo sono numerosi i 
problemi che si posso riscontrare. I valori di similarità ottenuti posso 
essere al di sotto della significatività statistica. Inoltre le velocità 
evolutive delle specie sono significativamente differenti. I problemi 
maggiori si incontrano quando si cerca di trovare una giustificazione 
storica per similarità tra sequenze che codificano proteine.
Una delle scoperte più importanti derivate dal Progetto Genoma Umano e 
dal sequenziamento di interi genomi di altre specie è stata la scoperta 
della presenza delle medesime sequenze ripetitive non codificanti in 
specie diverse. I SINE e i LINE (Short and Long Interspersed Nuclear 
Elements) costituiscono un’ampia frazione del genoma degli eucarioti, 
almeno il 30% del DNA umano e oltre il 50% del genoma di alcune piante 
superiori. I SINE sono lunghi circa 70-500 coppie di basi e possono 
trovarsi in un numero di copie fino a 106. I LINE sono lunghi fino a 
7000 coppie di basi e possono comparire in 105 copie . I SINE posso 
essere assenti o presenti perciò la loro analisi non comporta misure 
complicate di allineamento. Essi appaiono in modo casuale in regioni non 
codificanti del DNA e per questo la presenza di SINE nella stessa 
posizione in due specie diverse implica che esse abbiano un progenitore 
in comune. Non è noto alcun caso in cui ci sia stata la perdita di SINE 
in una specie.
Queste caratteristiche rendono i SINE e i LINE gli strumenti più adatti 
all’individuazione di linee filogenetiche tra le specie.  Se due specie 
hanno in comune un SINE nello stesso punto del proprio genoma, l’assenza 
di questo in una terza specie indica che le prime due debbano essere più 
strettamente imparentate l’una con l’altra di quanto ognuna di esse non 
lo sia con la terza.  Tuttavia anche questo tipo di ricerca incontra 
difficoltà evidenti date da numerosi casi di trasferimento genico 
orizzontale, il passaggio di materiale genetico tra diverse specie 
dovuto a cause naturali come l’assunzione diretta o l’acquisizione per 
via virale.
Questo comporta una discrepanza tra gli alberi evolutivi e crea delle 
relazioni tra sequenze di specie diverse. Nonostante le prove a favore 
della sua importanza, il trasferimento genico orizzontale è stato per 
lungo tempo considerato un fenomeno raro e di scarsa rilevanza. La 
trasmissione dei geni da genitore a figlio è al centro del modello 
darwiniano dell’evoluzione biologica. L’albero evolutivo come principio 
organizzatore è un concetto profondamente radicato.
Lewontin afferma: “[…] Darwin cambiò l’oggetto di studio nel campo 
dell’evoluzione portando al centro dell’attenzione non più tanto il tipo 
di una specie quanto la mutazione effettiva fra i singoli organismi 
all’interno della specie. La forza motrice del cambiamento nei caratteri 
medi delle specie stava negli scostamenti della media dispiegati dagli 
stessi organismi. Così le differenze tipiche fra le specie nello spazio 
e nel tempo sorgono per accumulo di differenze che erano già presenti 
come mutazione all’interno di una specie in un certo posto in un certo 
tempo” .
  Il fatto che i figli possano ereditare materiale genetico da altre 
fonti al di fuori dei genitori mette parzialmente in crisi questa 
concezione. Un confronto tra i genomi di lievito, moscerino verme e uomo 
ha rilevato 1308 gruppi di proteine che appaiono in tutti e quattro gli 
organismi. Le ricerche che si effettuano quotidianamente sui database 
pubblici si basano su semplici confronti logici AND, OR o NOT che sono 
la trasposizione digitale degli operatori essenziali della teoria degli 
insiemi. L’impossibilità di definire degli insiemi in cui suddividere 
nettamente le specie ha portato gli scienziati ad agire più cautamente. 
L’orientamento generale, oggi, è quello di utilizzare le differenze tra 
coppie di campioni in modo da ricostruire la complessità della vita 
attraverso la somma delle singole relazioni.

[1]  Robert J. Robbins è vice presidente della Information Technology 
Fred Hutchinson Cancer Research Center. È stato tra il 1993-1995, 
direttore del dipartimento Bioinformation Infrastructure in the Office 
of Health and Environmental Research del DOE. È considerato uno dei 
maggiori esperi di bioinformatica.
[2]  R.J. Robbins, Challenge in the Human Genome Project, IEEE 
Engineering in Medicine and Biology, 1992, n. 11, pp. 25-34, da A. Lesk, 
  Introduzione alla Bioinformatica, Milano , McGraw Hill, 2002, p. 59.
[3]    A. Lesk, Introduzione alla Bioinformatica, Milano, McGraw Hill, 
2002, p. 143.
[4]  A. Lesk, Introduzione alla Bioinformatica, Milano, McGraw Hill, 
2002, p. 26.
[5]   Cfr. Richard Lewontin, Il sogno del genoma umano e altre illusioni 
della scienza, Roma-Bari, Laterza, 2004, p.67.

-- 
     [IIIII]   lo|bo
      )"""(
     /     \
    /`-...-'\
    |asprin |
  _ |`-...-'j    _
  \)`-.___.(I) _(/)                  email: lo_bo [at] ecn [dot ] org
   (I)  (/)(I)(\)
--------------------------------------------------------------------