Архив метки: биоинформатика

Срыв покровов: ANI

Дорогие люди и гуманоиды, позвольте познакомить вас с расследованием, которое в кратком виде было включено в мой постер на конференции MCCMB.

В 2021 году в научной среде господствует мнение, что если средняя идентичность (ANI, average nucleotide identity) геномов прокариот выше 95%, то они принадлежат одному виду, — два вида. Получили это значение опытным путём имея на руках данные по старому мокрому методу — гибридизации ДНК: там пороговое значение было 70%. К расчётам претензий нет и более того значение 95% хорошо работает как на выборке геномов, доступной 15 лет назад, так и актуальной. В настоящее время доступно немало скриптов, которые рассчитывают значение ANI по результатам выравнивания BLAST-ом (pyANI, OrthoANI, ani.rb и др.). Все они дают немного различающиеся результаты и требуют различных временных затрат. Конечно же, я захотел разобраться, почему результаты отличаются . Технические различия я сейчас опущу, они важны, но исследование завело меня глубже, в одну из первых статей по ANI (Goris et al., 2007; https://doi.org/10.1099/ijs.0.64483-0) В ней, в частности есть такой странный параграф:

The ANI between the query genome and the reference genome was calculated as the mean identity of all blastn matches that showed more than 30 % overall sequence identity (recalculated to an identity along the entire sequence) over an alignable region of at least 70 % of their length. This cut-off is above the ‘twilight zone’ of similarity searches in which an inference of homology is error prone because of low levels of similarity between aligned sequences (Rost, 1999; Sander & Schneider, 1991). Therefore we can assume that only homologous DNA fragments were considered in our calculations.

Мне сразу показалось странным 30% идентичности. Это же курам на смех, 25% идентичность двух нуклеотидных последовательностей гарантирована случайностью, а если при выравнивании допустимы гепы (англ. gaps, разрывы произвольной длины), то все 50%. И что должно значить recalculated … я не понял. И почему 70%? Чтобы выяснить в чём дело, отправился я по ссылкам, благо путь недалёкий.

В статье Зандера и Шнайдера 91-го года, направленной на получение вторичных структур белков из выравниваний я нашёл источник этих чисел, вернее сказать как бы источник:

The resulting homology cutoff (Fig. 4, Table I) is a strongly varying function of alignment length up to a length of about 70-80 residues. For example, for alignment length 30, sequence similarity has to be at least 43% (gaps allowed with a gap opening penalty of three residue identities) to infer structural homology. For very long alignment lengths 25% sequence identity is sufficient, Note that below these values of sequence similarity structural homology cannot be asserted nor excluded-the region of weaker sequence similarity is a “don’t know” region (mixture of squares and crosses in Fig. 4).

Ладно, 30% и 25% — это близкие значения, может авторы взяли с запасом. 70% нашлось как передельное значение secondary structure identity, в статье есть описание, не буду вас грузить, но это никак не связано с долей выровненной последовательности.

Но самое главное, в статье 91-го года речь идёт о белках. Может статья Бурхарда Роста 1999-го года прольёт свет? Есть же шансы! Постойте, ведь её название «Twilight zone of protein sequence alignments». Опять белки! Что за беспредел? Ладно, прочтём абстракт:
«More precisely, above a cut-off roughly corresponding to 30% sequence identity, 90% of the pairs were homologous»
Вот и 30%. А 70% в этой статье попросту нет…

Итого, основополагающая статья в подходе к оценке ANI содержит в себе кусок неправильно понятой информации из статей рассматривающих совершенно другие объекты исследования — белки и их вторичную и третичную структуру.

Литература

Goris, J. et al. (2007). DNA–DNA hybridization values and their relationship to whole-genome sequence similarities. IJSEM 57: 81–91. https://doi.org/10.1099/ijs.0.64483-0

Konstantinidis, K. T. & Tiedje, J. M. (2005) Genomic insights that advance the species definition for prokaryotes. PNAS 102: 2567–2572. https://doi.org/10.1073/pnas.0409727102

Rost, B. (1999). Twilight zone of protein sequence alignments. Protein engineering, 12(2), 85-94. https://doi.org/10.1093/protein/12.2.85

Sander, C., & Schneider, R. (1991). Database of homology‐derived protein structures and the structural meaning of sequence alignment. Proteins: Structure, Function, and Bioinformatics, 9(1), 56-68.

Свежие препринты: микробиология [2021-2]

Предоставляю обзор интересных препринтов сервера bioRxiv из раздела Microbiology, вышедших или обновлённых в январе 2021. В поле моего зрения были неклинические работы с максимальным уклоном в биоинформатику. 

Начнём с вирусов и единственной в подборке работы по коронавирусу 

A novel SARS-CoV-2 related coronavirus in bats from Cambodia 

https://www.biorxiv.org/content/10.1101/2021.01.26.428212v1

Подковоносые летучие мыши, обитавшие в 2010 на севере Камбоджи, оказывается несли в себе коронавирус весьма похожий на нынешний, средняя идентичность генома более 92%. Теперь конспирологам придётся придумать очередную теорию, а желающие могут потренироваться в поисках коронавирусов, благо исходные данные выложены. 

Картинки по запросу "подковоносых летучих мышей"
Симпатичная мышь ищет штамм с низкой вирулентностью, жилплощадь есть, вредных привычек — нет.
Читать далее

Свежие препринты: биоинформатика [2021-1]

Представляю обзор препринтов (ещё неопубликованных статей, которые представлены для раннего ознакомления) с bioRxiv.org с начала 2021 года по 10 января в категории биоинформатика (и 2 из категории геномика). Из этого материала вы узнаете про долгожительство летучих мышей, кластеризацию при помощи выравнивания и филогенетических деревьев, филогенетический анализ без выравниваний и просто крутейший инструмент метагеномного анализа, который я в первый же рабочий день буду ставить на рабочую станцию.

Читать далее

Игры в обзоры препринтов (1)

Привет, читатели! Вдохновился трудами Сергея Попова по обзору препринтов в области астрофизики — http://xray.sai.msu.ru/~polar/sci_rev/current.html и захотел провести схожее изыскание в области, которой занимаюсь, — в биоинформатике. К сожалению, моя квалификация весьма низкая, но надеюсь полезную информацию вы сможете почерпнуть.

Изначально я хотел взять неделю с 30 марта по 5 апреля целиком, но обнаружил, что только один день — 30 марта занял очень много времени. В связи с этим я пока предоставлю вам пробу пера по разбору статей из категории биоинформатика сервера предпечатных версий статей, или же препринтов/манускриптов — biorxiv.org. Читать далее

Задачи и исполнители

На мой взгляд задачи биоинформатиков можно с определённой долей уверенности разделить на два группы:

— эффективно использовать существующие инструменты, максимально подходящие для выполнения работы и наиболее точно интерпретировать полученные результаты.

— разрабатывать новые инструменты (как минимум модифицировать существующие) для повышения производительности выполнения типовых работ, реализации новых алгоритмов и подходов, перенесения на другие языки программирования, включения в базы данных новой информации и т.д.

Разумеется, один и тот же человек может выполнять оба типа задач, и в определенные моменты переходить от одного типа к другому: например, столкнувшись с проблемами использования существующих инструментов, человек может попробовать реализовать свой подход, с другой стороны собственные реализации могут с лёгкостью быть превзойдены ПО, созданным другими разработчиками. Да и создав приемлемый инструмент можно перейти к его планомерному использованию, не впадая в перфекционизм и оптимизируя время выполнения в надежде получить выигрыш в несколько сотых секунды.

Такая классификация может быть успешно оспорена, но в заключении я ещё сделаю одно замечание. Даже не имея опыта в программировании вы, используя некий набор инструментов уже можете постепенно переходить ко второй категории задач, создавая средства автоматизации, пакетной обработки данных, конвейеры, последовательно осуществляющие обработку данных. А уж сколько всего было и будет придумано вокруг обработки данных выравнивания BLAST’ом! Сколько однострочников было запущено для тестового парсинга данных! Сколько информации было безвозвратно отправлено в /dev/null!