计算基因组大小
程序员文章站
2024-03-02 13:09:40
...
基因组大小统计在很多生信分析都会用到。
$ /home/huguang/script/Python/faCount.py
#coding=utf-8
import sys
aList=[]
fa_file = sys.argv[1]
with open(fa_file,'r') as f:
for line in f:
line = line.strip()
line = line.upper()
if not line.startswith(">"):
baseA = line.count("A")
baseT = line.count("T")
baseC = line.count("C")
baseG = line.count("G")
aList.extend([baseA, baseT, baseC, baseG])
# print(aList)
print("有效基因组大小:", sum(aList))
faCount可以统计得到基因组数据中的总碱基数和基因组装配中缺失碱基数(即被标位N的碱基)。
有效基因组大小 = 总碱基数 - 被标为N的碱基数
本脚本是直接统计ATCG碱基总数从而确定有效基因组大小。
$ faCount.py hg19.fa
有效基因组大小:2897310462
上一篇: Android中巧妙的实现缓存详解
下一篇: Java非静态成员变量之死循环(详解)