Сложно писать что-нибудь полезное в отрыве от реальности, поэтому при подходящем случае буду делиться вариантами решения тех или иных задач.
Недавно необходимо было мне предоставить GFF файл с указанием генов, найденных в метагеноме. Всё бы хорошо, fasta-файлы с аминокислотными и нуклеотидными последовательностями сохранились, а вот ни GFF, ни GBK не сохранилось. К счастью, Prodigal в процессе поиска ORF сохраняет много данных в заголовках мультифасты, выглядит это примерно так:
>Contig_name_1_1 # 3 # 215 # -1 # ID=1_1;partial=10;start_type=ATG;rbs_motif=AGGAG;rbs_spacer=5-10bp;gc_cont=0.629
Легко понять, что разделителем полей является группа символов “ # “
, при этом сами поля включают: