Представляю обзор препринтов (ещё неопубликованных статей, которые представлены для раннего ознакомления) с bioRxiv.org с начала 2021 года по 10 января в категории биоинформатика (и 2 из категории геномика). Из этого материала вы узнаете про долгожительство летучих мышей, кластеризацию при помощи выравнивания и филогенетических деревьев, филогенетический анализ без выравниваний и просто крутейший инструмент метагеномного анализа, который я в первый же рабочий день буду ставить на рабочую станцию.
eQTL Catalogue: a compendium of uniformly processed human gene expression and splicing QTLs
https://www.biorxiv.org/content/10.1101/2020.01.29.924266v2
Авторы представляют Университет Тарту и Европейский институт биоинформатики (EBI), препринт впервые появился в начале 2020 и спустя год обновлён. Статья описывает создание базы данных eQTL (expression quantitative trait locus) Catalogue (https://www.ebi.ac.uk/eqtl/) на основании данных 21 исследования, включающего 112 наборов данных по 69 типам клеток и тканей, одновременно использовались данные микрочипов и RNA-seq. Очень интересна методическая часть, которая представляет набор используемого ПО для обработки и анализа данных и статистического анализа. Рекомендую ознакомиться, даже если вы не работаете с данными человека, т.к. методы, по сути, универсальны.
Genome Methylation Predicts Age and Longevity of Bats
https://www.biorxiv.org/content/10.1101/2020.09.04.283655v2
Летучие мыши — это одни из самых долгоживущих млекопитающих с учётом поправки на вес, два-три десятка лет кажется не таким и большим сроком, но это значительно больше, чем жизнь кошки или собаки, и почти на порядок больше жизни сравнимых по размеру “наземных” мышей. Исследования ранее показывали, что некоторые летучие мыши могут сохранять теломеры, но эта способность найдена среди далеко не у всех https://nplus1.ru/news/2018/02/08/Long-lived-bats
В этой же статье учёные отловили 712 летучих мышей 26 видов (почти столько же и авторов у статьи) и на кастомных микрочипах определили уровень метилирования CpG (цитидин-фосфат-гуанозин) островков, которые известны тем, что гиперметилируются с возрастом. Авторы показали, что могут с точностью до года предсказать возраст мыши (чем уже берётся таксон (семейство, род, вид), тем точнее), на основании данных метилирования CpG, а если допустить несколько большую ошибку в полтора года, то можно предсказать возраст и вовсе не изученного вида.
Метилирование промоторных областей влияет на транскрипцию генов и стабильность метилирования как раз отвечает за продолжительность жизни (сложно жить долго, когда не уверен, какой будет уровень экспрессии генов у тебя через год, это не курс доллара, а гораздо серьёзнее).
AncestralClust: Clustering of Divergent Nucleotide Sequences by Ancestral Sequence Reconstruction using Phylogenetic Trees. Lenore Pipes, Rasmus Nielsen
https://www.biorxiv.org/content/10.1101/2021.01.08.426008v1
Кластеризация последовательностей — это частая биоинформатическая задача, в метагеномике, например, это один из необходимых шагов для анализа ампликонных данных, в филогенетическом анализе часто требуется сократить количество последовательностей для упрощения расчётов, да и вообще избавиться от избыточности данных — это святое.
Что же предлагают товарищи из Беркли? Выбирая случайные последовательности строим матрицу расстояний (увы, Джукса-Кантора, что быстро, да неточно), по ней строим филогенетическое дерево присоединением соседей (NJ), выделяем ветви и формируем первичные кластеры, все последовательности кластера выравниваем при помощи kalign3, по множественному выравниванию восстанавливаем “исходную”, “родительскую” последовательность. Снова все исходные последовательности относим к той или иной “родительской” по критерию наименьшего расстояния, если наименьшее расстояние для последовательности до любого из кластеров больше расстояний между кластерами, то последовательность переносят на следующую итерацию, авторы говорят, что обычно хватает одной или двух итераций.
Проверку эффективности авторы устроили на наборе последовательностей 16S, 18S и цитохром оксидазы I — весьма типичных для практической деятельности. AncestralClust работает значительно медленнее, чем CD-HIT, UCLUST и DNACLUST, но за приемлемое для ожидания время и выдаёт результат с лучшей чистотой кластеров, что весьма интересно. Код написан на C и доступен на гитхабе: https://github.com/lpipes/ancestralclust
Auto-CORPus: Automated and Consistent Outputs from Research Publications
https://www.biorxiv.org/content/10.1101/2021.01.08.425887v1
О британских учёных давно ходят легенды и этот препринт в очередной раз докажет, что не зря. Под руководством молодого (почти как ваш покорный слуга) и миловидного (тут мне далеко) учёного из Имперского колледжа Лондона и более серьёзного коллеги из Университета Лейчестера трое отважных ребят написали очередной парсер, на этот раз для базы статей NCBI PubMed. Что же здесь хорошего? Его можно доработать для нужного вам журнала (уже есть десяток работающих конфигов) и получить данные в JSON. Наверное на этом и всё, ведь что делать с полученными данными будете решать уже вы. Код: https://github.com/jmp111/AutoCORPus/
Taxonomy-aware, sequence similarity ranking reliably predicts phage-host relationships
https://www.biorxiv.org/content/10.1101/2021.01.05.425417v1
Три поляка решили сделать один из самых популярных трюков: поиграть с результатами BLAST’а, на этот раз для того, чтобы узнать какой микроб будет поражать тот или иной фаг. Как пишут авторы, один из наиболее эффективных подходов — бластовать последовательность фага против базы геномов и выбирать лучшее выравнивание (очевидно, что это будут профаги), но они на этом не остановились и решили бластовать ещё. Да, бластовать геном подозреваемого микроорганизма-хозяина против той же базы геномов. Затем взять оба списка результатов и ранжировать их по весу выравнивания. Тут авторы сделали ошибку: ordered by decreasing sequence similarity (i.e., bit-score), напомню, что вес выравнивания зависит и от длины выраваниния, а не только от идентичности. Авторы применяют алгоритм “Rank-Biased Overlap“ для этих двух ранжированных списков и получают некое значение связанности в диапазоне от 0 до 1.
На тестовых выборках Phirbo показал результат несколько лучше, чем просто BLAST, но сдаётся мне, что работает данная конструкция гораздо дольше, чем просто BLASTn, тут хочется, чтобы авторы проверили, можно ли использовать какое-нибудь приближение, например Mash, т.к. тот позволяет быстрее оценивать идентичность геномов, возможно Анджей когда-нибудь имплементирует это и мы узнаем о результатах. Код: https://github.com/aziele/phirbo
metaGEM: reconstruction of genome scale metabolic models directly from metagenomes
https://www.biorxiv.org/content/10.1101/2020.12.31.424982v1
Шутки в сторону, серьёзная (и самая интересная для меня, хоть и немного обидно, что я это не сделал) работа по реконструкции метаболических моделей на основании метагеномных данных. Пайплайн собирает прочтения, проводит метагеномный бининнг тремя биннерами (CONCOCT, MetaBat2, MaxBin), отбирает и проверяет качество (metaWRAP и CheckM), оценивает специфичные для конкретного семпла взаимодействия (SMETANA, https://github.com/cdanielmachado/smetana), проводит таксономическую классификацию, расчитывает представленность микроорганизма в сообществе, оценивает скорость роста и проводит пангеномный анализ. Чего ещё желать?!
Код на Python и R: https://github.com/franciscozorrilla/metaGEM
Одной строкой
https://www.biorxiv.org/content/10.1101/2020.12.31.424643v1
Инструмент для филогенетического анализа на основании полных геномов (в т.ч. эукариот) и NGS-прочтений, реимплементация https://arxiv.org/abs/1905.04165 Код: https://gitlab.ub.uni-bielefeld.de/gi/sans
https://www.biorxiv.org/content/10.1101/2020.05.28.105718v2
Использование CRISPR-Cas9 может приводить к появлению крупных инсерций, недетектируемых секвенированием коротких ампликонов.
https://www.biorxiv.org/content/10.1101/2021.01.06.425550v1
Сотрудники Google улучшают поиск генетических вариаций при помощи машинного обучения.
https://www.biorxiv.org/content/10.1101/2021.01.06.425569v1
Масштабное аннотирование пиков в ЖХ-МС метаболомных исследованиях при помощи построения графов, отражающих биогенные и абиогенные превращения, позволяет опознать больше веществ в спектрах.
https://www.biorxiv.org/content/10.1101/2021.01.06.425546v1
Dave Osthus из Лос-Аламосской лаборатории предлагает инструмент для предсказания эпидемий гриппа (да-да, не коронавирусом единым) с прекрасным названием Inferno.
https://www.biorxiv.org/content/10.1101/2020.08.28.271981v2
Восстановление структуры белков по данным криоэлектронной микроскопии при помощи машинного обучения, код на Python и Fortran: https://github.com/JiahuaHe/DeepMM
https://www.biorxiv.org/content/10.1101/2021.01.01.423803v1
Симпатичные визуализации статистических данных на геноме с помощь Javascript/d3: https://github.com/statgen/locuszoom/
https://www.biorxiv.org/content/10.1101/2021.01.01.425045v1
Ирландско-шотландский коллектив объединён не столько выпивкой, как вы могли подумать, а благородной целью пополнить базы данных последовательностей рибосомальных генов из сырых данных секвенирования NCBI SRA, код на Python: https://github.com/FEMLab/focus16
https://www.biorxiv.org/content/10.1101/2021.01.09.426059v1
База данных о прокариотических белках и их отнесении к микрокомпартментам https://mcpdb.mbi.ucla.edu/explore/