Stanford Üniversitesi, NVIDIA ve Arc Enstitüsü’nden araştırmacılar, genetik varyasyonları tahmin edebilen ve yaşamın tüm alanlarında genomik diziler oluşturabilen devrim niteliğinde bir yapay zeka modeli geliştirdi. Evo 2 adı verilen bu model, hem prokaryotik hem de ökaryotik genomlar üzerinde etkili analizler yapabiliyor ve bilinen türlerin yanı sıra, doğrudan eğitim almamış olan türlerin bile genetik yapılarını başarıyla açıklayabiliyor.
Geliştirilen yeni model, modern genomik modellerin karşılaştığı en büyük zorluklardan biri olan, mutasyonların fonksiyonel etkilerini doğru bir şekilde tahmin etme sorununa yenilikçi bir çözüm sunuyor. Mevcut makine öğrenimi yaklaşımları, bakteriler gibi daha basit organizmaların genetik analizinde başarılı olsa da, çok hücreli ve karmaşık yapıya sahip ökaryotik organizmaların genomlarını yorumlamak çok daha zorlu bir süreç olarak biliniyor.
9,3 TRİLYON DNA İLE EĞİTİLDİ
Evo 2, tüm bu zorlukları aşmak amacıyla bakterilerden memelilere kadar uzanan geniş bir tür yelpazesinden elde edilen 9,3 trilyon DNA baz çifti üzerinde eğitildi. Model, bir seferde 1 milyona kadar nükleotidi analiz edebilme ve üretebilme kapasitesine sahip olmasıyla, DNA dizilerindeki uzun menzilli örüntüleri ve genetik ilişkileri yakalayabiliyor.
Araştırmacılar, Evo 2’nin eğitim sürecini, modern dil modellerine benzetiyor. Model, kelime tahmin eden yapay zeka sistemleri gibi, bir DNA dizisindeki bir sonraki baz çiftini tahmin ederek öğreniyor. Bu yenilikçi yaklaşım sayesinde Evo 2, doğrudan veri setlerinde yer almayan türlerde bile genetik dizilerin anlamını ve işlevini doğru bir şekilde tahmin edebiliyor.
İNSANA ZARARLI GENOM DİZİLERİ KAPSAM DIŞI
Evo 2’nin eğitim veri seti, özel bir dikkatle hazırlanarak, potansiyel kötüye kullanımı önlemek amacıyla insanlara zarar verebilecek patojenlerin genom dizileri kapsam dışı bırakıldı.
Modelin eğitimi, fonksiyonel genetik unsurların önceliklendirildiği bir ön eğitim aşaması ve daha geniş genetik kalıpların yakalanmasına olanak sağlayan orta eğitim aşaması olmak üzere iki kademeli bir sistemle gerçekleştirildi. Evo 2’nin mimarisi, uzun DNA dizilerini ölçeklenebilir şekilde işlemek için dikkat mekanizmaları ve konvolüsyon operatörlerini birleştiren StripedHyena 2 sistemi üzerine inşa edildi.
40 MİLYAR PARAMETRELİ
Toplamda 40 milyar parametreye sahip model, 1.024 GPU kullanılarak eğitildi ve geleneksel modellerle kıyaslandığında çok daha yüksek verimlilik sağladı.
Yapılan testlerde Evo 2’nin, hem prokaryotik hem de ökaryotik genomlarda mutasyonların fonksiyonel etkilerini, ek bir görev spesifik ayar gerektirmeden doğru şekilde tahmin ettiği ortaya kondu. Modelin, bilinen biyolojik süreçlerle uyumlu olarak, başlangıç kodonlarına, ekzon-intron sınırlarına ve korunmuş bölgelerdeki mutasyonlara karşı hassas olduğu gözlemlendi.
Mevcut özel modeller tek nükleotid varyasyonlarında daha başarılı sonuçlar verirken, Evo 2’nin indeller ve kodlamayan varyantlar konusunda üstün olduğu belirtildi. Modelin ürettiği genetik temsiller, BRCA1 meme kanseri varyantlarının sınıflandırılmasında bugüne kadarki en başarılı sonuçları verdi.
MAMUT GENOMUNU BAŞARIYLA AÇIKLADI
Ayrıca Evo 2’nin transkripsiyon faktörleri, ekzon-intron sınırları ve protein yapısal motifleri gibi temel biyolojik yapı taşlarını otonom şekilde öğrenebildiği vurgulandı. Modelin, mobil genetik unsurlar ve CRISPR dizilerini de tanımlayabildiği aktarıldı.
Evo 2’nin genelleme yeteneği ise, modelin eğitim setinde yer almayan yünlü mamut genomunu başarıyla açıklamasıyla ortaya kondu. Model, ayrıca tam mitokondriyal genomlar, bakteri genomları ve maya kromozom ölçeğinde gerçekçi diziler üreterek doğru synteny modelleri, protein kodlayan bölgeler ve düzenleyici unsurlar barındıran yapılar oluşturdu.
DNA TASARLAMA DA BAŞARILI
Evo 2’nin yetenekleri bununla da sınırlı kalmadı. Model, kromatin erişilebilirliğini programlayabilen DNA dizileri tasarlama konusunda da başarılı oldu. Evo 2, bu alanda, Enformer ve Borzoi gibi mevcut epigenetik modellerle birlikte çalışarak, gen düzenleyici diziler içine Mors kodu benzeri mesajlar kodlayacak kadar ileri bir kontrol mekanizması sergiledi.
Araştırmacılar, Evo 2’nin genomik yapay zekada bir dönüm noktası olduğunu vurgularken, modelin eğitim kodu, parametreleri ve kullanılan geniş veri setini tüm bilim dünyasının erişimine açarak genetik araştırmaları küresel çapta hızlandırmayı hedefliyor.