Дослідники з Інституту Arc створили модель Evo 2, яка може аналізувати генетичні послідовності, прогнозувати захворювання та мутації та створювати нові геноми, які можна порівняти з геномами простих бактерій.
Команда співпрацює з Nvidia, Стенфордським університетом, Каліфорнійським університетом у Берклі та Каліфорнійським університетом у Сан-Франциско. Їхню нейронну мережу навчили на ДНК більш ніж 100 000 різних видів.
Код Evo 2 доступний для громадськості на GitHub, а також включений у структуру Nvidia BioNeMo.
Інститут Arc співпрацював з Goodfire, лабораторією, що займається дослідженнями штучного інтелекту, щоб створити візуалізатор механічної інтерпретації, який розкриває важливі біологічні атрибути та тенденції, які модель вчиться ідентифікувати в геномних послідовностях.
«Evo 2 є найбільшою моделлю штучного інтелекту в галузі біології на сьогоднішній день, яка була навчена на більш ніж 9,3 трильйонах нуклеотидів — основних компонентах, які складають ДНК або РНК. […] Evo 2 містить знання про людей, рослини та різноманітні одноклітинні та багатоклітинні організми з еукаріотичної сфери життя», — йдеться в повідомленні.
Нейронна мережа володіє «всеосяжним розумінням дерева життя», що робить її цінною для вирішення багатьох завдань, включаючи передбачення мутацій і створення коду для штучного життя.
«Еволюція вбудувала біологічну інформацію в ДНК і РНК, утворюючи шаблони, які Evo 2 здатний виявляти та використовувати», — підкреслили автори дослідження.
Штучний інтелект був навчений за допомогою понад 2000 графічних процесорів Nvidia H100, що дозволило йому обробляти генетичні послідовності до 1 мільйона нуклеотидів одночасно, що допомагає йому зрозуміти зв’язки між віддаленими областями геному.
В експериментах із залученням варіантів гена BRCA1, пов’язаних із раком молочної залози, Evo 2 продемонстрував точність понад 90% у передбаченні того, які мутації нешкідливі, а які можуть бути потенційно шкідливими.
Дослідницька група оптимістично налаштована, що на основі Evo 2 можна розробити більш спеціалізовані моделі ШІ.
Варто зазначити, що в липні 2024 року китайські вчені створили робота, оснащеного вирощеним у лабораторії штучним мозком, здатним навчитися виконувати низку завдань.
Раніше Meta AI представила «модель білкової мови» ESM-2, яка включає 15 мільярдів параметрів, а також базу даних ESM Metagenomic Atlas, яка містить понад 600 мільйонів прогнозних структур метагеномних сполук.