欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

NCBI 下载fna文件 human viral bacteria

程序员文章站 2024-03-01 17:06:22
...

基于manifest 手动批量下载

#!/usr/bin/bash
cat  manifest.txt | while read row
do
path=`dirname $row`
# para -d check dir
if [ ! -d "$path" ]; then
mkdir -p "$path"
fi
# para -f check file
if [ ! -f "$row" ]; then
cd  "$path"
wget -c https://ftp.ncbi.nlm.nih.gov/genomes/${row}
cd -
fi
done

https://ftp.ncbi.nlm.nih.gov/genomes/all
https://ftp.ncbi.nlm.nih.gov/genomes/refseq/assembly_summary_refseq.txt
manifest.txt模板

all/GCF/001/865/495/GCF_001865495.1_ASM186549v1/GCF_001865495.1_ASM186549v1_genomic.fna.gz
all/GCF/013/372/085/GCF_013372085.1_ASM1337208v1/GCF_013372085.1_ASM1337208v1_genomic.fna.gz
all/GCF/002/079/965/GCF_002079965.1_ASM207996v1/GCF_002079965.1_ASM207996v1_genomic.fna.gz
all/GCF/000/242/855/GCF_000242855.2_ASM24285v2/GCF_000242855.2_ASM24285v2_genomic.fna.gz
all/GCF/902/166/465/GCF_902166465.1_25964_2_27/GCF_902166465.1_25964_2_27_genomic.fna.gz
NCBI上基因组文件格式及解释

*.asn = ASN.1 (Abstract Syntax Notation 1) file 是NCBI的一种特定格式,包括完整的注释信息,可以用如sequin等软件打开。

*.faa = FASTA Amino Acid file 全部蛋白序列文件

*.ffn = FASTA nucleotide coding regions file 全部核酸序列文件

*.fna= FASTA Nucleic Acid file 完整的基因组序列文件(一条序列)

*.gbk = GenBank flat file format 不用说了,genbank格式的基因组注释信息

*.ptt = Protein Table 包含各个CDS(coding sequence)的完整信息表(很有用,可以方便的导入excel等软件来看)

以上这些软件都是文本类型的文件,所以可以用记事本打开,但是更加建议使用notepad++打开,会保证格式不会变化。

其中*.val是一个二进制格式的文件。

*.val = Nucleotide sequence, in ASN.1 binary format(ASN.1二进制的核苷酸序列)

相关标签: 生物信息