КМБ: Геномика, часть 1

Геном и его секвенирование

Наследственной информацией, передаваемой к потомкам обладают все клеточные формы жизни (мамонт, возбудитель чумы, подосиновик, амёба, гладиолус и даже человек), внутриклеточные органеллы эукариот: митохондрии и пластиды, вирусы, вироиды и схожие инфекционные агенты, плазмиды, а также отдельные мобильные генетические элементы. Умозрительной единицей наследственности с 19-го века считался ген — наследственный фактор, определяющий тот или иной фенотипический признак. В 19-м же веке, в 1869, через три года после публикации трудов Менделя, швейцарец Фридрих Майшер выделил ДНК из лейкоцитов человека. Через 30 лет Бовери и Саттон предложили теорию хромосомного наследования, к тому моменту уже было определено, что хромосомы состоят из ДНК и гистонов. Эксперименты по трансформации бактерий 1920-1940-х привели группу Освальда Эйвери к выводу, что именно ДНК отвечает за хранение генетической информации у бактерий, Нобелевскую премию за это им, однако, так и не дали. Связь структуры и репликации ДНК была предложена Чаргаффом в 1950, а 1953 вышла работа Уотсона и Крика о структуре ДНК. Для интересующихся подробной историей этих открытий рекомендую обзорную статью The birth and development of the DNA theory of inheritance: sixty years since the discovery of the structure of DNA.

Но не ДНК единой: у многих вирусов и всех вироидов генетическая информация хранится в виде РНК, причём последние являются непосредственно фрагментом той самой РНК. После этих открытий понятием ген стали также обозначать участок ДНК или РНК, кодирующий белок или функциональную РНК. Понятие геном рассматривается как совокупность всей генетической информации организма, в которую включены как кодирующие участки, так и некодирующие, регуляторные элементы. Т.е. геном — это последовательность всех нуклеотидов, передающих информацию по наследству.

Читать далее

Срыв покровов: ANI

Дорогие люди и гуманоиды, позвольте познакомить вас с расследованием, которое в кратком виде было включено в мой постер на конференции MCCMB.

В 2021 году в научной среде господствует мнение, что если средняя идентичность (ANI, average nucleotide identity) геномов прокариот выше 95%, то они принадлежат одному виду, — два вида. Получили это значение опытным путём имея на руках данные по старому мокрому методу — гибридизации ДНК: там пороговое значение было 70%. К расчётам претензий нет и более того значение 95% хорошо работает как на выборке геномов, доступной 15 лет назад, так и актуальной. В настоящее время доступно немало скриптов, которые рассчитывают значение ANI по результатам выравнивания BLAST-ом (pyANI, OrthoANI, ani.rb и др.). Все они дают немного различающиеся результаты и требуют различных временных затрат. Конечно же, я захотел разобраться, почему результаты отличаются . Технические различия я сейчас опущу, они важны, но исследование завело меня глубже, в одну из первых статей по ANI (Goris et al., 2007; https://doi.org/10.1099/ijs.0.64483-0) В ней, в частности есть такой странный параграф:

The ANI between the query genome and the reference genome was calculated as the mean identity of all blastn matches that showed more than 30 % overall sequence identity (recalculated to an identity along the entire sequence) over an alignable region of at least 70 % of their length. This cut-off is above the ‘twilight zone’ of similarity searches in which an inference of homology is error prone because of low levels of similarity between aligned sequences (Rost, 1999; Sander & Schneider, 1991). Therefore we can assume that only homologous DNA fragments were considered in our calculations.

Мне сразу показалось странным 30% идентичности. Это же курам на смех, 25% идентичность двух нуклеотидных последовательностей гарантирована случайностью, а если при выравнивании допустимы гепы (англ. gaps, разрывы произвольной длины), то все 50%. И что должно значить recalculated … я не понял. И почему 70%? Чтобы выяснить в чём дело, отправился я по ссылкам, благо путь недалёкий.

В статье Зандера и Шнайдера 91-го года, направленной на получение вторичных структур белков из выравниваний я нашёл источник этих чисел, вернее сказать как бы источник:

The resulting homology cutoff (Fig. 4, Table I) is a strongly varying function of alignment length up to a length of about 70-80 residues. For example, for alignment length 30, sequence similarity has to be at least 43% (gaps allowed with a gap opening penalty of three residue identities) to infer structural homology. For very long alignment lengths 25% sequence identity is sufficient, Note that below these values of sequence similarity structural homology cannot be asserted nor excluded-the region of weaker sequence similarity is a “don’t know” region (mixture of squares and crosses in Fig. 4).

Ладно, 30% и 25% — это близкие значения, может авторы взяли с запасом. 70% нашлось как передельное значение secondary structure identity, в статье есть описание, не буду вас грузить, но это никак не связано с долей выровненной последовательности.

Но самое главное, в статье 91-го года речь идёт о белках. Может статья Бурхарда Роста 1999-го года прольёт свет? Есть же шансы! Постойте, ведь её название «Twilight zone of protein sequence alignments». Опять белки! Что за беспредел? Ладно, прочтём абстракт:
«More precisely, above a cut-off roughly corresponding to 30% sequence identity, 90% of the pairs were homologous»
Вот и 30%. А 70% в этой статье попросту нет…

Итого, основополагающая статья в подходе к оценке ANI содержит в себе кусок неправильно понятой информации из статей рассматривающих совершенно другие объекты исследования — белки и их вторичную и третичную структуру.

Литература

Goris, J. et al. (2007). DNA–DNA hybridization values and their relationship to whole-genome sequence similarities. IJSEM 57: 81–91. https://doi.org/10.1099/ijs.0.64483-0

Konstantinidis, K. T. & Tiedje, J. M. (2005) Genomic insights that advance the species definition for prokaryotes. PNAS 102: 2567–2572. https://doi.org/10.1073/pnas.0409727102

Rost, B. (1999). Twilight zone of protein sequence alignments. Protein engineering, 12(2), 85-94. https://doi.org/10.1093/protein/12.2.85

Sander, C., & Schneider, R. (1991). Database of homology‐derived protein structures and the structural meaning of sequence alignment. Proteins: Structure, Function, and Bioinformatics, 9(1), 56-68.

Кто может назвать себя биоинформатиком?

Мой добрый приятель, тёзка того самого литературного персонажа, к которому именно так обращалось солнце русской поэзии в своём романе, скинул интересную статью 2015 года во Frontiers in Genetics с заголовком Who qualifies to be a bioinformatician?

Статья хоть и небольшая, но весьма интересна точка зрения авторов, которые стараются разграничить биологов, биоинформатиков и IT-специалистов. Приведу несколько цитат:

Bioinformaticians are scientists who develop and conduct research based on a bioinformatics approach, they do not just use the tools to better understand a biological problem.

Consequently, in our opinion a biologist who only uses bioinformatics tools to perform analyses but does not contribute at the conception of such tools or not fits in the curator definition provided above is not a bioinformatician.

Many university departments, including ours, now give mandatory bioinformatics courses to students enrolled in biology, biochemistry, and microbiology programs, among others. … However, it is also important for students to realize that a 45-h bioinformatics course will not make them experts in the field or qualify them as bioinformaticians.

Antony T. Vincent, Steve J. Charette. 2015

Разумеется лучше ознакомиться с полным текстом, однако эти выдержки показывают, что жать просто кнопки и получать картинки для биоинформатика недостаточно. Я во многом согласен с авторами. Пожалуй всё-таки разработка ПО, баз данных и конечно же поиск фундаментальных закономерностей, которые в дальнейшем воплотятся в тех или иных инструментах, это и есть труд биоинформатика.

Но всё-таки какой объём работы или её значимость позволяют считать творение биоинформатическим инструментом? Вряд ли однострочник для фильтрации VCF можно назвать биоинформатическим инструментом, хотя важность таких простых средств трудно переоценить. А как вы думаете, кого можно считать биоинформатиком и что он должен делать?

Свежие препринты: микробиология [2021-2]

Предоставляю обзор интересных препринтов сервера bioRxiv из раздела Microbiology, вышедших или обновлённых в январе 2021. В поле моего зрения были неклинические работы с максимальным уклоном в биоинформатику. 

Начнём с вирусов и единственной в подборке работы по коронавирусу 

A novel SARS-CoV-2 related coronavirus in bats from Cambodia 

https://www.biorxiv.org/content/10.1101/2021.01.26.428212v1

Подковоносые летучие мыши, обитавшие в 2010 на севере Камбоджи, оказывается несли в себе коронавирус весьма похожий на нынешний, средняя идентичность генома более 92%. Теперь конспирологам придётся придумать очередную теорию, а желающие могут потренироваться в поисках коронавирусов, благо исходные данные выложены. 

Картинки по запросу "подковоносых летучих мышей"
Симпатичная мышь ищет штамм с низкой вирулентностью, жилплощадь есть, вредных привычек — нет.
Читать далее

Свежие препринты: биоинформатика [2021-1]

Представляю обзор препринтов (ещё неопубликованных статей, которые представлены для раннего ознакомления) с bioRxiv.org с начала 2021 года по 10 января в категории биоинформатика (и 2 из категории геномика). Из этого материала вы узнаете про долгожительство летучих мышей, кластеризацию при помощи выравнивания и филогенетических деревьев, филогенетический анализ без выравниваний и просто крутейший инструмент метагеномного анализа, который я в первый же рабочий день буду ставить на рабочую станцию.

Читать далее

Игры в обзоры препринтов (1)

Привет, читатели! Вдохновился трудами Сергея Попова по обзору препринтов в области астрофизики — http://xray.sai.msu.ru/~polar/sci_rev/current.html и захотел провести схожее изыскание в области, которой занимаюсь, — в биоинформатике. К сожалению, моя квалификация весьма низкая, но надеюсь полезную информацию вы сможете почерпнуть.

Изначально я хотел взять неделю с 30 марта по 5 апреля целиком, но обнаружил, что только один день — 30 марта занял очень много времени. В связи с этим я пока предоставлю вам пробу пера по разбору статей из категории биоинформатика сервера предпечатных версий статей, или же препринтов/манускриптов — biorxiv.org. Читать далее

Конец путешествий (из путевых записок)

Грустно осознавать, но мир уже слишком глобализирован, а новые технологии делают опыт, смекалку и знания практически бесполезными. Конечно, деградация путешествий началась гораздо раньше, чем появились GPS-навигаторы. Уже после перехода к осёдлому образу жизни перестало быть нужным многими поколениями бежать от недружелюбного климата, голода, конкуренции и собратьев.

Все дороги куда-то да приведут

Читать далее

Разбор задач №1. GFF из аннотаций Prodigal

Сложно писать что-нибудь полезное в отрыве от реальности, поэтому при подходящем случае буду делиться вариантами решения тех или иных задач.

Недавно необходимо было мне предоставить GFF файл с указанием генов, найденных в метагеноме. Всё бы хорошо, fasta-файлы с аминокислотными и нуклеотидными последовательностями сохранились, а вот ни GFF, ни GBK не сохранилось. К счастью, Prodigal в процессе поиска ORF сохраняет много данных в заголовках мультифасты, выглядит это примерно так:

>Contig_name_1_1 # 3 # 215 # -1 # ID=1_1;partial=10;start_type=ATG;rbs_motif=AGGAG;rbs_spacer=5-10bp;gc_cont=0.629

Легко понять, что разделителем полей является группа символов “ # “, при этом сами поля включают:

Читать далее

Вьетнам. Краткие итоги

Проведя во Вьетнаме две недели и благополучно его покинув опишу кратко своё видение этой страны в разрезе самостоятельных путешествий.

Остров Кат Ба, Вьетнам

Россиянам безвизовое пребывание во Вьетнаме ограничено 15 днями и осмотреть всю протяжённую и интересную страну практически невозможно. Приходится либо жертвовать длительностью пребывания в городе и осматриваться в спешке, либо терять интересные места или даже регионы. Если вы рассчитываете на несколько дней на пляже, то у меня плохие новости: так вы точно не сможете ознакомиться с разнообразием природы и культуры Вьетнама. К каждому месту я напишу моё мнение стоит ли его посещать в условиях дефицита времени.

Как попасть?

Читать далее

ЮВА-2018: планы

Сделаю вступительную запись к серии, описывающей поездку. Во-первых, надо же с чего-то начать, а, во-вторых, представить методы и материалы план поездки. Итак, стартую в Калининграде и еду на поезде в Москву, откуда уже вылетаю в Хошимин с пересадкой в Абу-Даби.

Сразу поясню почему поезд: какую-то полезную деятельность в Москве можно вести днём, соответственно появиться там тоже днём, если лететь на самолёте, то вылет должен быть ранний, что не очень-то удобно, аэропорт всё же не 10 двух остановках от дома, да и формальности съедят много времени. Да и потом из аэропортов Москвы надо добраться в центр, что даже на аэроэкспрессе занимает почти час. Вот и получаем, что вылеты после полудня практически бесполезны, а именно такие рейсы бывают подешевле. С другой стороны поезд (“Янтарь”) отправляется в час дня, что позволяет ещё что-то сделать в городе и прибывает в Москву в 9 утра. Причём, как вы догадываетесь, станция метро кольцевой линии Белорусская в 5 минутах медленной ходьбы.

В итоге мы имеем 1200 рублей (минимальная цена, которой и воспользовался) на поезде и прибытие утром на следующий день, либо 4000 рублей на самолёте, прибытие вечером + цена ночлега на ваш вкус на одну ночь. Потратить сэкономленные деньги в Белокаменной вы всегда сможете 🙂

Теперь появляется вопрос: почему Москва, а не Варшава, Гданьск, Вильнюс или другой крупный аэропорт недалеко от Калининграда? Всё предельно просто, за исключением очень редких акций или ошибок систем бронирования билеты из Москвы в ЮВА значительно дешевле, чем из Варшавы, лучшего варианта по соотношению удалённости от Калининграда, разнообразия рейсов и цен. Кстати, на правах рекламы поделюсь с вами адрресом http://fly4free.pl/ — это хороший портал для поиска билетов из Польши по Европе и всему миру, держу в курсе, так сказать.

Выбор Etihad и Хошимина (он же в прошлом Сайгон) был продиктован ценой билетов, логичнее было бы прилететь в Ханой, где прохладнее и проще акклиматизироваться, но цены были против. К тому же нарисовалась интересная пересадка в Абу-Даби в 13 часов, которую можно было использовать для краткого знакомства с этим эмиратом.

По Вьетнаму путь будет пролегать с юга на север и из Ханоя я направлюсь в Лаос, познакомлюсь с его северной частью и выеду в северную часть Таиланда, где расположены города Чианг Рай и Чианг Май. Из Бангкока меня ждёт перелёт в Мьянму, где из Янгона я перееду в Мандалай с попутным осмотром достопримечательностей, откуда снова вернусь в Бангкок с дальнейшим перемещением в Малайзию. План крайне обширен и поездка по плану займёт больше полутора месяцев, но никто не знает, удастся ли всё реализовать как было запланировано 🙂