HLA分型
程序员文章站
2024-03-03 18:15:52
...
HLA分型
一、根据WES的tumor数据进行数据分型
选用hlahd
软件安装及使用
[[email protected] ~]# wget https://jaist.dl.sourceforge.net/project/bowtie-bio/bowtie2/2.4.1/bowtie2-2.4.1-linux-x86_64.zip
[[email protected] ~]# unzip bowtie2-2.4.1-linux-x86_64.zip && mv bowtie2-2.4.1-linux-x86_64.zip /usr/local/bowtie2
#使用时将bowtie2加入到环境变量echo "export PATH=/usr/local/bowtie2:$PATH"
#hlahd下载地址<https://www.genome.med.kyoto-u.ac.jp/HLA-HD/filedownload/>
#账号:hlahd,密码:cgmkyotohla
[[email protected] ~]# tar -zxvf hlahd.1.2.1.tar.gz && mv hlahd.1.2.1 hlahd
[[email protected] ~]# hlahd/bin/hlahd.sh -t 24 -m 100 -f hlahd/freq_data/ DNA_tumor_R1.fastq.gz DNA_tumor_R2.fastq.gz hlahd/HLA_gene.split.txt hlahd/dictionary/ YD hlahd/output
#-t 24 使用多少核心,看自己CPU
#-m 100 A read whose length is shorter than this parameter is ignored. Default size is 100
#-f freq_data/ 等位基因频率的使用信息,默认数据存在于已安装的目录中(默认位置hlahd.version/freq_data)
#fastq数据为WES的tumol数据
#HLA_gene.split.txt 参考文件,默认数据存在于已安装的目录中
#dictionary/ 参考文件
#YD sampleID,自定义
#output 输出路径
二、RNA-seq的tumor数据进行数据分型
选用seq2HLA
#获取软件
git clone https://github.com/TRON-Bioinformatics/seq2HLA
cd seq2HLA/
#用法
python seq2HLA.py -1 R1.fastq -2 R2.fastq -r test -p 10
说明:-1
和-2
参数分别指定输入的R1和R2端的fastq格式的序列; -r
参数指定输出文件名称的前缀,-p
指定线程数,主要是bowtie比对时的线程
输出文件非常多,详细列表如下
test.ambiguity
test-ClassI-class.bowtielog
test-ClassI-class.expression
test-ClassI-class.HLAgenotype2digits
test-ClassI-class.HLAgenotype4digits
test-ClassII.bowtielog
test-ClassII.expression
test-ClassII.HLAgenotype2digits
test-ClassII.HLAgenotype4digits
test-ClassI-nonclass.bowtielog
test-ClassI-nonclass.expression
test-ClassI-nonclass.HLAgenotype2digits
test-ClassI-nonclass.HLAgenotype4digits
我们主要关注后缀为HLAgenotype4digits
的结果文件,可以看到,同时体用了HLA Clas I 和 Class II 两种类型基因的分型结果。以HLA I型基因的4位分型结果为例,文件内容如下
#Locus Allele 1 Confidence Allele 2 Confidence
A A*02:65 0.008687167 A*02:65 NA
B B*39:05' 0.3821314 B*13:48 0.09848174
C C*08:02' NA C*08:02 NA
对于HlA I型基因,给出了A, B, C 三个基因的分型结果,每个基因给出了两个Allel, 对于每个Allel, 会给出对应的打分值。