欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

scBCR-seq data from GEO database run on cellranger vdj

程序员文章站 2022-03-11 21:33:47
...

scBCR-seq data from GEO database run on cellranger vdj

#down load data

/public/home/djs/software/sratoolkit.2.10.9-ubuntu64/bin/prefetch-orig.2.10.9 --option-file /public/home/djs/SRR_Acc_List5.txt -X 1000G -p -r yes -c -O /public/home/djs/cell_ranger_test/IBD -t http

#拆分数据

ls | grep sra | while read id ;do /public/home/djs/software/sratoolkit.2.10.9-ubuntu64/bin/fasterq-dump -b 1000MB -m 10G --split-3 $id ; done & 

#pre-treatment

#fastq文件的命名需要符合cell ranger的要求,具体要求见下文
ls | while read id ;do mv $id "$(echo $id | cut -c 1-10)_S1_L001_R$(echo $id | cut -c 12).fastq" ;done
##wc bash的正则表达式好好学,不然还不如一个一个文件的改呢^_^

#quality of fastq

#本次使用fastqc以及multiqc
#插曲,multiqc未安装,安装multiqc,https://multiqc.info/docs/#parsed-data-directory
#工作了后访问那个网站都不顺利
cd /public/home/djs/software
wget https://github.com/ewels/MultiQC/archive/master.zip 
unzip master.zip
cd MultiQC-master
pip install .  #该动作修改了numpy,matplotlib等库的版本 ,最新版支持py3.6以上
multiqc --help 
cd - && mkdir fastqc && mkdir multiqc
ls | while read id ;do ( fastqc -q -t 10 -o ./fastqc $id &);done
multiqc ./fastqc -o ./multiqc #fastqc 需要JDK以及py2环境,但是multiqc在py3下面

#cellranger VDJ

nohup cellranger vdj --id=control_1 \
--fastqs=/public/home/djs/cell_ranger_test/IBD \
--reference=/public/home/djs/cell_ranger_test/vdj_reference \
--sample=SRR8478681,SRR8478682,SRR8478683 \
--localcores=32 \
--localmem=100 & #fastq文件名字格式不对一定报错 #我有个多个文件是IG/TR混合数据也报错

nohup cellranger vdj --id=control_2 \
--fastqs=/public/home/djs/cell_ranger_test/IBD \
--reference=/public/home/djs/cell_ranger_test/vdj_reference \
--sample=SRR8478704,SRR8478705 \
--localcores=32 \
--localmem=100 &

#结果文件可以使用 loupe VDJ browser查看

#好像有R包可以处理cellranger vdj产生的结果文件,我现在去找找学习学习。

#FASTQ文件命名说明(重要)

10x的pipeline处理的文件命名需要符合bcl2fastq的规则,否则会报错。

一般格式为:[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-bjYn3QvW-1610072974814)(C:\Users\lenovo\AppData\Roaming\Typora\typora-user-images\1607930535152.png)]

其中read type为以下之一:I1——sample index read; R1——Read1;R2——Read2

相关标签: 生物信息学