КМБ: Геномика, часть 1

Геном и его секвенирование

Наследственной информацией, передаваемой к потомкам обладают все клеточные формы жизни (мамонт, возбудитель чумы, подосиновик, амёба, гладиолус и даже человек), внутриклеточные органеллы эукариот: митохондрии и пластиды, вирусы, вироиды и схожие инфекционные агенты, плазмиды, а также отдельные мобильные генетические элементы. Умозрительной единицей наследственности с 19-го века считался ген — наследственный фактор, определяющий тот или иной фенотипический признак. В 19-м же веке, в 1869, через три года после публикации трудов Менделя, швейцарец Фридрих Майшер выделил ДНК из лейкоцитов человека. Через 30 лет Бовери и Саттон предложили теорию хромосомного наследования, к тому моменту уже было определено, что хромосомы состоят из ДНК и гистонов. Эксперименты по трансформации бактерий 1920-1940-х привели группу Освальда Эйвери к выводу, что именно ДНК отвечает за хранение генетической информации у бактерий, Нобелевскую премию за это им, однако, так и не дали. Связь структуры и репликации ДНК была предложена Чаргаффом в 1950, а 1953 вышла работа Уотсона и Крика о структуре ДНК. Для интересующихся подробной историей этих открытий рекомендую обзорную статью The birth and development of the DNA theory of inheritance: sixty years since the discovery of the structure of DNA.

Но не ДНК единой: у многих вирусов и всех вироидов генетическая информация хранится в виде РНК, причём последние являются непосредственно фрагментом той самой РНК. После этих открытий понятием ген стали также обозначать участок ДНК или РНК, кодирующий белок или функциональную РНК. Понятие геном рассматривается как совокупность всей генетической информации организма, в которую включены как кодирующие участки, так и некодирующие, регуляторные элементы. Т.е. геном — это последовательность всех нуклеотидов, передающих информацию по наследству.

Зная, как объект исследования хранит генетическую информацию: в виде РНК или ДНК, мы можем выделить нуклеиновые кислоты, определить их первичную последовательность секвенировать и таким образом получить его геном, или, как обычно говорят, секвенировать (от англ. sequence — последовательность). В зависимости от задач может быть проведено полногеномное секвенирование, секвенирование какой-то части генома, например, экзомное секвенирование, со случайным или таргетированным обогащением, секвенирование концов фрагментов ДНК, полученных рестрикцией. 

Мы можем получить больше информации, чем непосредственно геномная последовательность организма или сообщества: определить уровень метилирования ДНК (Methyl-Seq) [https://clinicalepigeneticsjournal.biomedcentral.com/articles/10.1186/s13148-019-0795-x], секвенирование с иммунопреципитацией хроматина, для установления пространственной структуры генома (ChIP-Seq) [https://www.sciencedirect.com/science/article/pii/S1046202320300591] и т.д. В этих заметках мы остановимся подробно на полногеномном секвенировании и de novo сборке генома.

В настоящее время используется несколько технологий секвенирования и сломано немало копий по поводу их названий. Очень рекомендую ознакомиться с прекрасной заметкой почему “секвенирование следующего поколения” должно умереть (на английском). Вкратце, под этим размытым понятием могут скрываться семь разных технологий, разработанных в 90-е и 00-е, включая наиболее популярную сейчас технологию секвенирования на основе обратимых терминаторов полимеризации (Illumina/Solexa). А кроме неё в разное время это были пиросеквенирование (Roche), лигирование (ABI SOLiD), полупроводниковое (IonTorrent), платформы Helicos и Complete Genomics/BGI, клонирование на бидах с последующим сортингом (MPSS). Для всего этого зоопарка уже есть очередное новое поколение в виде технологий и продукции Pacific Biosciences и Oxford Nanopore Technologies (ONT). Фактически, можно явно выделить single-molecular sequencing (не звучит по-русски, но всё же попробую назвать одномолекулярным секвенированием или секвенированием одиночных молекул) — это как раз PacBio и ONT. А остальные платформы противопоставлены как использующие для секвенирования последовательности одной молекулы ДНК более одной её копии для усиления сигнала.

Как же поступить проще всего и не запутаться кто же для кого следующий? Просто использовать в качестве названия суть технологии, фирму-производителя оборудования или платформу, тогда всем всё будет ясно. В 2021 году вы скорее всего встретитесь с 3-4 технологиями, которые я укажу по производителям оборудования и реактивов: Illumina, ONT, PacBio, BGI. Суть процесса секвенирования, если это не влияет на характер получаемых данных я раскрывать не буду, равно как и процесс пробоподготовки. Первое вы можете почерпнуть из красочных роликов на сайтах компаний и сухих научных статей, а второе из протоколов с наглядными картинками, прилагаемых к реактивам. Чтобы больше узнать о тонкостях, например, технологии Illumina, прочитайте статью Accurate Whole Human Genome Sequencing using Reversible Terminator Chemistry.

Несмотря на ощутимые различия в процессе секвенирования у Illumina и BGI на выходе вы будете получать одиночные или парные последовательности длиной в 100 — 300 нуклеотидов каждая. Что значит парные? Это когда физический фрагмент ДНК считывается с начала с одного конца, потом со второго. При этом, в зависимости от длины, прочитанные отрезки могут перекрываться, что обычно необходимо для ампликонного секвенирования, но не так эффективно для полногеномного. Почему не эффективно? Геномы живых существ часто включают повторяющиеся фрагменты (это могут быть как функциональные многокопийные гены, так и прямые и обратные повторы), а короткие прочтения могут короче таких повторов, из-за чего возникают трудности в сборке. Логично, что для повышения качества сборки, необходимо увеличивать длину прочтений, однако на этом пути есть технологические ограничения, другой путь как раз состоит в получении данных с двух концов одного фрагмента ДНК примерно известной длины, что в последующем даёт дополнительную информацию сборщику и позволяет повысить качество сборки генома.

В следующей заметке рассказ пойдёт о получаемых с секвенатора данных, их количестве, качестве и о том как их обрабатывать.

Добавить комментарий

Ваш адрес email не будет опубликован.