Игры в обзоры препринтов (1)

Привет, читатели! Вдохновился трудами Сергея Попова по обзору препринтов в области астрофизики – http://xray.sai.msu.ru/~polar/sci_rev/current.html и захотел провести схожее изыскание в области, которой занимаюсь, – в биоинформатике. К сожалению, моя квалификация весьма низкая, но надеюсь полезную информацию вы сможете почерпнуть.

Изначально я хотел взять неделю с 30 марта по 5 апреля целиком, но обнаружил, что только один день – 30 марта занял очень много времени. В связи с этим я пока предоставлю вам пробу пера по разбору статей из категории биоинформатика сервера предпечатных версий статей, или же препринтов/манускриптов – biorxiv.org. Читать далее «Игры в обзоры препринтов (1)»

Конец путешествий (из путевых записок)

Грустно осознавать, но мир уже слишком глобализирован, а новые технологии делают опыт, смекалку и знания практически бесполезными. Конечно, деградация путешествий началась гораздо раньше, чем появились GPS-навигаторы. Уже после перехода к осёдлому образу жизни перестало быть нужным многими поколениями бежать от недружелюбного климата, голода, конкуренции и собратьев.

Все дороги куда-то да приведут

Читать далее «Конец путешествий (из путевых записок)»

Разбор задач №1. GFF из аннотаций Prodigal

Сложно писать что-нибудь полезное в отрыве от реальности, поэтому при подходящем случае буду делиться вариантами решения тех или иных задач.

Недавно необходимо было мне предоставить GFF файл с указанием генов, найденных в метагеноме. Всё бы хорошо, fasta-файлы с аминокислотными и нуклеотидными последовательностями сохранились, а вот ни GFF, ни GBK не сохранилось. К счастью, Prodigal в процессе поиска ORF сохраняет много данных в заголовках мультифасты, выглядит это примерно так:

>Contig_name_1_1 # 3 # 215 # -1 # ID=1_1;partial=10;start_type=ATG;rbs_motif=AGGAG;rbs_spacer=5-10bp;gc_cont=0.629

Легко понять, что разделителем полей является группа символов “ # “, при этом сами поля включают:

Читать далее «Разбор задач №1. GFF из аннотаций Prodigal»

Вьетнам. Краткие итоги

Проведя во Вьетнаме две недели и благополучно его покинув опишу кратко своё видение этой страны в разрезе самостоятельных путешествий.

Остров Кат Ба, Вьетнам

Россиянам безвизовое пребывание во Вьетнаме ограничено 15 днями и осмотреть всю протяжённую и интересную страну практически невозможно. Приходится либо жертвовать длительностью пребывания в городе и осматриваться в спешке, либо терять интересные места или даже регионы. Если вы рассчитываете на несколько дней на пляже, то у меня плохие новости: так вы точно не сможете ознакомиться с разнообразием природы и культуры Вьетнама. К каждому месту я напишу моё мнение стоит ли его посещать в условиях дефицита времени.

Как попасть?

Читать далее «Вьетнам. Краткие итоги»

ЮВА-2018: планы

Сделаю вступительную запись к серии, описывающей поездку. Во-первых, надо же с чего-то начать, а, во-вторых, представить методы и материалы план поездки. Итак, стартую в Калининграде и еду на поезде в Москву, откуда уже вылетаю в Хошимин с пересадкой в Абу-Даби.

Сразу поясню почему поезд: какую-то полезную деятельность в Москве можно вести днём, соответственно появиться там тоже днём, если лететь на самолёте, то вылет должен быть ранний, что не очень-то удобно, аэропорт всё же не 10 двух остановках от дома, да и формальности съедят много времени. Да и потом из аэропортов Москвы надо добраться в центр, что даже на аэроэкспрессе занимает почти час. Вот и получаем, что вылеты после полудня практически бесполезны, а именно такие рейсы бывают подешевле. С другой стороны поезд (“Янтарь”) отправляется в час дня, что позволяет ещё что-то сделать в городе и прибывает в Москву в 9 утра. Причём, как вы догадываетесь, станция метро кольцевой линии Белорусская в 5 минутах медленной ходьбы.

В итоге мы имеем 1200 рублей (минимальная цена, которой и воспользовался) на поезде и прибытие утром на следующий день, либо 4000 рублей на самолёте, прибытие вечером + цена ночлега на ваш вкус на одну ночь. Потратить сэкономленные деньги в Белокаменной вы всегда сможете 🙂

Теперь появляется вопрос: почему Москва, а не Варшава, Гданьск, Вильнюс или другой крупный аэропорт недалеко от Калининграда? Всё предельно просто, за исключением очень редких акций или ошибок систем бронирования билеты из Москвы в ЮВА значительно дешевле, чем из Варшавы, лучшего варианта по соотношению удалённости от Калининграда, разнообразия рейсов и цен. Кстати, на правах рекламы поделюсь с вами адрресом http://fly4free.pl/ – это хороший портал для поиска билетов из Польши по Европе и всему миру, держу в курсе, так сказать.

Выбор Etihad и Хошимина (он же в прошлом Сайгон) был продиктован ценой билетов, логичнее было бы прилететь в Ханой, где прохладнее и проще акклиматизироваться, но цены были против. К тому же нарисовалась интересная пересадка в Абу-Даби в 13 часов, которую можно было использовать для краткого знакомства с этим эмиратом.

По Вьетнаму путь будет пролегать с юга на север и из Ханоя я направлюсь в Лаос, познакомлюсь с его северной частью и выеду в северную часть Таиланда, где расположены города Чианг Рай и Чианг Май. Из Бангкока меня ждёт перелёт в Мьянму, где из Янгона я перееду в Мандалай с попутным осмотром достопримечательностей, откуда снова вернусь в Бангкок с дальнейшим перемещением в Малайзию. План крайне обширен и поездка по плану займёт больше полутора месяцев, но никто не знает, удастся ли всё реализовать как было запланировано 🙂

Задачи и исполнители

На мой взгляд задачи биоинформатиков можно с определённой долей уверенности разделить на два группы:

– эффективно использовать существующие инструменты, максимально подходящие для выполнения работы и наиболее точно интерпретировать полученные результаты.

– разрабатывать новые инструменты (как минимум модифицировать существующие) для повышения производительности выполнения типовых работ, реализации новых алгоритмов и подходов, перенесения на другие языки программирования, включения в базы данных новой информации и т.д.

Разумеется, один и тот же человек может выполнять оба типа задач, и в определенные моменты переходить от одного типа к другому: например, столкнувшись с проблемами использования существующих инструментов, человек может попробовать реализовать свой подход, с другой стороны собственные реализации могут с лёгкостью быть превзойдены ПО, созданным другими разработчиками. Да и создав приемлемый инструмент можно перейти к его планомерному использованию, не впадая в перфекционизм и оптимизируя время выполнения в надежде получить выигрыш в несколько сотых секунды.

Такая классификация может быть успешно оспорена, но в заключении я ещё сделаю одно замечание. Даже не имея опыта в программировании вы, используя некий набор инструментов уже можете постепенно переходить ко второй категории задач, создавая средства автоматизации, пакетной обработки данных, конвейеры, последовательно осуществляющие обработку данных. А уж сколько всего было и будет придумано вокруг обработки данных выравнивания BLAST’ом! Сколько однострочников было запущено для тестового парсинга данных! Сколько информации было безвозвратно отправлено в /dev/null!

Зачем это всё?

Доброго времени суток, господа и дамы!

Здесь будут выкладываться полезные материалы: авторские, переводные или просто скопированные на тему биоинформатики и скриптописания. Кроме того, планируются развёрнутые отчёты по путешествия.