欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

计算基因组大小

程序员文章站 2024-03-02 13:09:40
...

基因组大小统计在很多生信分析都会用到。
$ /home/huguang/script/Python/faCount.py

#coding=utf-8
import sys
aList=[]
fa_file = sys.argv[1]
with open(fa_file,'r') as f:
	for line in f:
		line = line.strip()
		line = line.upper()
		if not line.startswith(">"):
			baseA = line.count("A")
			baseT = line.count("T")
			baseC = line.count("C")
			baseG = line.count("G")
			aList.extend([baseA, baseT, baseC, baseG])
			# print(aList)
	print("有效基因组大小:", sum(aList))

faCount可以统计得到基因组数据中的总碱基数和基因组装配中缺失碱基数(即被标位N的碱基)。
有效基因组大小 = 总碱基数 - 被标为N的碱基数

本脚本是直接统计ATCG碱基总数从而确定有效基因组大小。
$ faCount.py hg19.fa
有效基因组大小:2897310462

相关标签: python 生物信息