Gli scienziati hanno sviluppato un sistema di intelligenza artificiale in grado di simulare centinaia di milioni di anni di evoluzione delle proteine, creando una nuova proteina fluorescente diversa da quelle presenti in natura.
Il team di ricerca, guidato da Alexander Rives di EvolutionaryScale, ha creato un modello di linguaggio di grandi dimensioni (LLM) chiamato ESM3 per elaborare e generare informazioni su sequenze, strutture e funzioni delle proteine.
Addestrandosi sui dati di miliardi di proteine naturali, ESM3 ha imparato a prevedere come le proteine potrebbero evolversi e cambiare nel tempo.
“ESM3 è un simulatore emergente che è stato appreso risolvendo un compito di predizione su dati generati dall’evoluzione”, spiegano i ricercatori nello studio.
“È stato teorizzato che le reti neurali scoprono la struttura sottostante dei dati che vengono addestrati a prevedere. In questo modo, la risoluzione del compito di predizione dei gettoni richiederebbe al modello di apprendere la struttura profonda che determina i passi che l’evoluzione può compiere, ovvero la biologia fondamentale delle proteine”
Per testare il modello, il team ha chiesto a ESM3 di progettare una proteina fluorescente verde (GFP) completamente nuova, un tipo di proteina responsabile della bioluminescenza in alcuni animali marini e ampiamente utilizzata nella ricerca biotecnologica.
La proteina generata dall’AI, denominata esmGFP, condivide solo il 58% della sua sequenza con le più simili proteine fluorescenti conosciute.
È sorprendente che esmGFP mostri una luminosità paragonabile a quella delle GFP presenti in natura e mantenga la caratteristica struttura a forma di barile essenziale per la fluorescenza.
I ricercatori stimano che la produzione di una proteina così distante dalle GFP conosciute avrebbe richiesto oltre 500 milioni di anni di evoluzione naturale.
Per saperne di più sullo studio
Il processo di generazione di esmGFP ha richiesto diversi passaggi chiave:
- Dati: I ricercatori hanno addestrato ESM3 su circa 2,78 miliardi di proteine naturali raccolte da database di sequenze e strutture. Tra questi vi sono dati provenienti da UniRef, MGnify, JGI e altre fonti.
- Architettura: ESM3 utilizza un’architettura basata su trasformatori con alcune modifiche, tra cui un meccanismo di “attenzione geometrica” per elaborare le strutture proteiche 3D.
- Prompting: I ricercatori hanno fornito a ESM3 informazioni strutturali minime da un modello di GFP (proteina fluorescente).
- Generazione: ESM3 ha utilizzato questo prompt per generare nuove sequenze e strutture proteiche attraverso un processo iterativo.
- Filtraggio: Migliaia di progetti candidati sono stati valutati computazionalmente e filtrati per trovare i candidati più forti.
- Test sperimentali: I progetti più promettenti sono stati sintetizzati e testati in laboratorio per verificare l’attività di fluorescenza.
- Perfezionamento: Dopo aver identificato una variante di GFP debole ma distante, i ricercatori hanno utilizzato ESM3 per ottimizzare ulteriormente il progetto, producendo alla fine una proteina fluorescente più luminosa.
Le implicazioni di questa ricerca vanno oltre la creazione di una singola proteina innovativa.
ESM3 dimostra la capacità di esplorare spazi di progettazione proteica molto lontani da quelli prodotti dall’evoluzione naturale, aprendo nuove strade per la creazione di proteine con funzioni o proprietà desiderate.
Ildottor Tiffany Taylor, professore di ecologia microbica ed evoluzione presso l’Università di Bath, che non ha partecipato allo studio, ha dichiarato a LiveScience: “Al momento ci manca ancora la comprensione fondamentale di come le proteine, soprattutto quelle ‘nuove per la scienza’, si comportano quando vengono introdotte in un sistema vivente, ma questo è un nuovo passo avanti che ci permette di approcciare la biologia sintetica in un modo nuovo”
“I modelli di intelligenza artificiale come ESM3 permetteranno di scoprire nuove proteine che i vincoli della selezione naturale non permetterebbero mai, creando innovazioni nell’ingegneria proteica che l’evoluzione non può fare”, ha aggiunto il Dr. Taylor.
Progettazione generativa di proteine
I ricercatori sostengono che l’ESM3 non sta semplicemente recuperando o ricombinando le informazioni sulle proteine esistenti.
Sembra invece che abbia sviluppato una comprensione dei principi fondamentali che regolano la struttura e la funzione delle proteine, consentendogli di generare progetti davvero innovativi.
Laricerca e la progettazione di proteine guidate dall’intelligenza artificiale hanno raggiunto un livello altissimo, con AlphaFold 3 diDeepMind che prevede il ripiegamento delle proteine con una precisione incredibile .
Leproteine progettate dall’intelligenza artificiale hanno anche dimostrato un’eccellente forza di legame, dimostrando di avere un’utilità pratica.
Tuttavia, come per ogni tecnologia in rapida evoluzione che interferisce in qualche modo con la biologia, ci sono dei rischi.
In primo luogo, se le proteine progettate dall’intelligenza artificiale dovessero diffondersi nell’ambiente, potrebbero interagire con gli ecosistemi naturali, arrivando a competere con le proteine naturali o a interrompere i processi biologici esistenti.
In secondo luogo, potrebbero innescare interazioni inaspettate all’interno degli organismi viventi, creando potenzialmente agenti biologici dannosi o tossine.
Di recente, i ricercatori hanno invocato dei paletti etici per la progettazione di proteine AI, per evitare risultati rischiosi in questo campo entusiasmante, anche se imprevedibile.



