Привет, читатели! Вдохновился трудами Сергея Попова по обзору препринтов в области астрофизики — http://xray.sai.msu.ru/~polar/sci_rev/current.html и захотел провести схожее изыскание в области, которой занимаюсь, — в биоинформатике. К сожалению, моя квалификация весьма низкая, но надеюсь полезную информацию вы сможете почерпнуть.
Изначально я хотел взять неделю с 30 марта по 5 апреля целиком, но обнаружил, что только один день — 30 марта занял очень много времени. В связи с этим я пока предоставлю вам пробу пера по разбору статей из категории биоинформатика сервера предпечатных версий статей, или же препринтов/манускриптов — biorxiv.org.
CytoTalk: De novo construction of signal transduction networks using single-cell RNA-Seq data
Yuxuan Hu, Tao Peng, Lin Gao, Kai Tan
https://doi.org/10.1101/2020.03.29.014464
Утилита направлена на реконструцию сетей передачи сигналов, специфичных для определённых типов клеток на основе траскриптомных данных единичных клеток.
Языки программирования и среды: Matlab, Python, R, Bash. Код залит на https://github.com/tanlabcode/CytoTalk
(форк авторского репозитория Yuxuan Hu https://github.com/huBioinfo/CytoTalk).
Среди соавторов Tao Peng, ранее засветившийся в другом инструменте проф. Kai Tan сотоварищи – https://github.com/tanlabcode/SCRABBLE – так же направленном на обработку данных RNA-seq. Сам профессор весьма неплохо публикуется – http://orcid.org/0000-0002-9104-5567 – 50 статей в Scopus при h=23.
Код читаемый, местами есть комментарии, но есть сомнительные отрывки и дублирующий код. Кроме того, в ряде мест указание на ручную правку кода и ссылки на несуществующие файлы. Есть краткий мануал с описанием шагов и указанием зависимостей, стоит отметить, что авторы указывают на использование Python 2.7, что не может радовать. Неизвестно, можно ли вместо Matlab использовать GNU Octave, так что скряги и сторонники свободного ПО – тестируйте! Сложно оценивать софт в этой области и правильность применённого подхода, лучше попробовать на своих данных…
DAISM-DNN: Highly accurate cell type proportion estimation with in silico data augmentation and deep neural networks
Yating Lin, Haojun Li, Xu Xiao, Wenxian Yang, Rongshan Yu
https://doi.org/10.1101/2020.03.26.009308
При помощи глубокого машинного обучения авторы намерены точно определять долю тех или иных клеток, к частности клеток иммунной системы. Последний автор — Rongshan Yu – отметился в Scopus огромным количеством тезисов конференций на довольно широкий спектр проблем, среди которых можно выделить сжатие аудио и обработку данных секвенирования. И тезисы эти весьма неплохо цитируются. Совместно с Wenxian Yang в феврале были поданы ещё два препринта:
— Нестареющая проблема утилит сжатия данных NGS – ScaleQC — https://doi.org/10.1101/2020.02.09.940932 – наверное заслуживает отдельного рассмотрения.
— Сравнение конвееров для обработки данных выскопроизводительного секвенирования РНК единичных клеток — https://doi.org/10.1101/2020.02.09.940221.
Печально, что “The source code for DAISM-DNN will be available once the paper is accepted for publication”. Интересно, в какой журнал они хотят подавать статью, ведь многие требуют, чтобы код был уже опубликован. Из хоть какой-то конкретики можно указать, что в статье упоминается фреймворк PyTorch и Python 3.7.3.
Comparison of read mapping and variant calling tools for the analysis of plant NGS data
Hanna Marie Schilbert, Andreas Rempel, Boas Pucker
https://doi.org/10.1101/2020.03.10.986059
На примере данных Арабидопсиса коллектив оценил сочетания 5 программ для картирования и 8 утилит для поиска вариаций (GATK был представлен 3 версиями и итоговое число комбинаций составило 50. Оценивалось качество картирования, а так же чувствительность, специфичность, точность (precision & accuracy) и показатель F1 (гармоническое среднее точности и чувствительности).
Коротко: лучшие показатели у Novalign + GATK, альтернатива – bwa-mem + GATK. Показательно, что картирования, полученные bowtie2 очевидно плохо обрабатываются коллерами CLC, LoFreq, SNVer и VarScan.
Improving replicability in single-cell RNA-Seq cell type discovery with Dune
Hector Roux de Bézieux, (8 authors), Sandrine Dudoit
https://doi.org/10.1101/2020.03.03.974220
Статья о новом методе классификации клеток на основании scRNA-Seq – секвенирования транскриптома единичной клетки. Авторы используют комбинацию результатов кластеризации трёх алгоритмов: SC3, Seurat и Monocle при помощи RSEC (resampling-based sequential ensemble clustering). Заявлены лучшие результаты, чем у имеющихся средств. Замечу, что сам по себе RSEC применяется для этой же цели.
Код доступен на https://github.com/HectorRDB/Dune
Утилита написана на R и может быть установлена при помощи BioConductor, включая все нужные зависимости.
Discovery of biased orientations of human regulatory motifs affecting transcription of genes and including known insulators
Naoki Osato
https://doi.org/10.1101/290825
Статья учёного, специализирующегося в эпигенетике, рассказывает о его поисках регуляторных элементов с обратной ориентацией и их функцией изоляции соседних генов.
Longitudinal cancer evolution from single cells
Daniele Ramazzotti, (6 authors), Alex Graudenzi
https://doi.org/10.1101/2020.01.14.906453
Ещё одна статья о транскриптомике единичных клеток, на этот раз с упором отслеживание эволюционных изменений при онкологических заболеваниях.
Исходный код на R доступен на https://github.com/BIMIB-DISCo/LACE. Установить можно с github при помощи devtools.
Multiple freeze-thaw cycles lead to a loss of consistency in poly(A)-enriched RNA sequencing
Benjamin P. Kellman, (11 authors), Nathan E. Lewis
https://doi.org/10.1101/2020.04.01.020792
Повторная заморозка-разморозка снижает воспроизводимость транскриптомных исследований. Странно, что это для кого-то новость и что потребовалось 13 авторов, чтобы это показать.
MORFEE: a new tool for detecting and annotating single nucleotide variants creating premature ATG codons from VCF files
Dylan Aïssi, (11 authors), David-Alexandre Trégouët, on behalf of the GENMED Consortium
https://doi.org/10.1101/2020.03.29.012054
От транскриптомики к геномике, причём сразу медицинской. Французский исследовательский консорциум представляет утилиту для поиска открытых рамок считывания в 5’-UTR регионах генов по входным VCF файлам.
Код доступен на https://github.com/daissi/MORFEE и написан на R. Установить можно с гитхаба при помощи devtools. Не может не умилять файл zzz.R следующего содержания:
.onAttach <- function(libname, pkgname) {
packageStartupMessage(«»)
packageStartupMessage(» *************************»)
packageStartupMessage(» ** MORFEE annotation **»)
packageStartupMessage(» *************************»)
packageStartupMessage(«»)
}
Код структурирован и есть комментарии, от обсуждений реализации пожалуй воздержусь.
Вот такие 8 препринтов попались мне на глаза, возможно стоит сузить спектр рассматриваемых манускриптов для экономии времени и повышения качества разбора.