Британская компания Basecamp Research объявила о запуске проекта Trillion Gene Atlas — одной из самых масштабных инициатив в истории биологии. Цель проекта — собрать и проанализировать генетические данные более чем от 100 миллионов ранее не изученных видов живых организмов, увеличив объём известного генетического разнообразия Земли примерно в 100 раз.
Проект реализуется совместно с компанией Anthropic, разработчиком технологий секвенирования Ultima Genomics, компанией PacBio и при поддержке вычислительной инфраструктуры Nvidia. По словам участников инициативы, сочетание современных методов секвенирования и искусственного интеллекта позволит выполнить объём работ, который ещё недавно потребовал бы более двух десятилетий, менее чем за два года.
Главная задача проекта — создать принципиально новый массив данных для обучения биологических ИИ-моделей. Сегодня большинство подобных систем обучаются на одних и тех же публичных базах данных, содержащих относительно ограниченный набор генетических последовательностей. В Basecamp Research считают, что именно нехватка разнообразных данных стала главным ограничением для дальнейшего прогресса биологического ИИ.
Компания уже представила семейство моделей EDEN, обученное на собственной базе данных BaseData. В неё входят более 10 миллиардов ранее неизвестных науке генов, обнаруженных у примерно миллиона новых видов. По данным компании, работа с таким объёмом информации позволила выявить новые закономерности масштабирования: по мере роста разнообразия биологических данных возможности ИИ увеличиваются быстрее, чем ожидалось.
Разработчики утверждают, что EDEN стала первой системой, способной проектировать потенциальные терапевтические молекулы непосредственно по описанию заболевания. В лабораторных испытаниях модель продемонстрировала активность в человеческих Т-клетках без предварительного обучения на клинических данных. Также сообщается о создании новых антимикробных пептидов с показателем успешного попадания в целевые патогены до 97% и о развитии технологии программируемой вставки генов AI-Programmable Gene Insertion (aiPGI).
Изображение сгенерировано: Nano Banana
Новый проект должен многократно расширить объём доступной для обучения информации. За последние 6 лет Basecamp Research сформировала сеть научных партнёров в 31 стране и организовала сбор генетических данных в регионах, где ранее подобные исследования практически не проводились. Одновременно компания объявила о новых партнёрствах в Чили, Аргентине и расширении работ в Антарктиде.
Технологической основой проекта станут системы сверхмассового секвенирования нового поколения. Ultima Genomics обеспечит высокопроизводительное чтение геномов, а PacBio предоставит технологию длинных высокоточных последовательностей, позволяющую сохранять полный генетический контекст образцов. Для обработки данных будут использоваться специализированные библиотеки для биоинформатики.
Anthropic планирует использовать результаты Trillion Gene Atlas для расширения научных возможностей своего ИИ-ассистента Claude. Предполагается, что в будущем Claude сможет работать с крупными массивами биологических данных, помогая исследователям интерпретировать результаты экспериментов и ускорять разработку новых методов лечения.
По масштабу авторы сравнивают Trillion Gene Atlas с проектом «Геном человека». Однако если в начале XXI века учёные расшифровывали геном одного вида, то теперь речь идёт о попытке создать крупнейшую в истории карту генетического разнообразия жизни на Земле. Разработчики рассчитывают, что такой объём данных позволит перейти от поиска лекарств методом длительных экспериментов к более систематическому проектированию новых препаратов с помощью искусственного интеллекта.
© iXBT

1 час назад
4









English (US) ·
Russian (RU) ·