Como converter um arquivo TXT para FASTA

Estudos clínicos são realizados para analisar os dados da sequência de proteínas e encontrar tratamentos para doenças. Os dados da sequência de proteínas são colocados no formato FASTA (formato rápido) para que os programas entendam como processar a linha de dados e usem o código padrão IUB / IUPAC (União Internacional de Bioquímica / União Internacional de Química Pura e Aplicada – União Internacional de Bioquímica / União Internacional de Química Pura e Aplicada). A conversão de um arquivo TXT (texto simples) em FASTA requer a edição ou adição de fluxos de dados no formato FASTA em um arquivo de texto existente com linhas de dados de sequência de proteínas. Editores de texto como o Bloco de Notas facilitam a tarefa.

Passo 1

Abra o arquivo de texto com a sequência de proteínas que você deseja editar em um programa de edição de texto, como o Bloco de Notas.

Etapa 2

Edite ou adicione a linha de descrição para seguir o formato FASTA. Por exemplo,> gi | 129295 | sp | P01013 | OVAX_CHICK GENE X PROTEIN (RELACIONADO COM OVALBUMINA) é uma linha de descrição válida do FASTA. Esta linha fornece uma descrição exclusiva para a sequência de dados a seguir. O formato FASTA requer o uso do símbolo maior que (>) para que o programa possa identificar as informações descritivas exclusivas e evitar o processamento da descrição como uma linha dos dados da sequência de proteínas.

Etapa 3

Pressione “Enter” para inserir uma quebra de linha depois de editar a linha de descrição.

Etapa 4

Edite ou adicione o formato da linha de dados da sequência de proteínas para estar em conformidade com os códigos IUB / IUPAC padrão. O padrão IUB / IUPAC usa letras do alfabeto para representar códigos aceitáveis ​​ou sequências de interrogação para aminoácidos ou ácidos nucleicos no formato FASTA. Por exemplo, QIKDLLVSSSTDLDTTLVLVNAIYFKGMWKTAFNAEDTREMPFHVTKQESKPVQMMCMNNSFNVATLPAE representa uma linha de sequência de dados válida, pois começa com a letra “Q”, representando glutamina, e termina com a letra “E”, que representa gluta.

Etapa 5

Adicione mais linhas de fluxos de dados, editando as existentes ou adicionando quebras de linha após 80 caracteres, conforme necessário. A adição de padrões e quebras de linha ao fluxo de dados FASTA garante que o programa siga as instruções relacionadas à glutamina, glutamato e outros códigos de letras. As letras no padrão IUB / IUPAC são simplesmente instruções para o programa que processa os dados no formato FASTA.

Etapa 6

Clique em “Arquivo”, selecione e clique no botão “Salvar”. Seu arquivo TXT já está no formato FASTA.

Referências

 

Você pode estar interessado:

Deixe um comentário