欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

比对到hg19和hg38对somatic变异的寻找影响很大

程序员文章站 2022-03-20 13:17:16
...

我的bam文件如下:

4.0G Mar 29 06:18 B_marked_fixed.bam
3.8G Mar 29 13:22 D_marked_fixed.bam
4.5G Mar 29 07:26 T_marked_fixed.bam

其中B是正常组织的WES数据,使用varscan找somatic mutation的时候作为normal,然后对另外两个样本(D和T)计算。 从这个bam文件可以看到这个WES测序深度不够高,可能平均就 50X吧,如果是 200X的WES数据的bam应该是有20G左右文件大小。

了解hg19和hg38参考基因组异同

需要知道hg38这个新版参考基因组到底进步在哪里。

首先看somatic mutation个数

统计得到的统计学显著的somatic mutation个数如下:

  278 D_varscan.snp.Somatic.hc
  222 T_varscan.snp.Somatic.hc
  200 d_varscan.snp.Somatic.hc
  174 t_varscan.snp.Somatic.hc

如果只看有可能是somatic mutation个数如下:

  1426 D_varscan.snp.Somatic
  1375 T_varscan.snp.Somatic
  1071 d_varscan.snp.Somatic
  1001 t_varscan.snp.Somatic

其中大写字母的文件代表是比对到了hg19,小写字母的文件是我比对到hg38后跑varscan得到的。可以看到,如果是比对到hg38参考基因组的,那么找到的变异位点要稍微少一点点,不过我意识到参考基因组的有一些是非染色体的片段,所以我重新看了看染色体个数分布情况。

hg38 hg19 chr hg38 hg19 chr
10 18 1 8 16 1
8 12 2 8 14 2
5 9 3 4 7 3
7 20 4 8 22 4
6 7 5 6 9 5
4 7 6 10 19 6
5 6 7 2 13 7
4 5 8 2 4 8
2 8 9 1 12 9
7 15 10 3 14 10
6 10 11 4 5 11
7 10 12 9 10 12
1 5 13 0 1 13
1 4 14 2 7 14
2 6 15 2 4 15
9 7 16 4 15 16
2 16 17 9 13 17
2 5 18 1 3 18
1 6 19 16 18 19
2 7 20 7 6 20
7 10 21 1 14 21
1 2 22 3 2 22
1 3 X 22 28 X
4 17 Y 4 20 Y
104 215 sum 136 276 sum

左边的是T样本,右边的是D样本,可以看到,换成hg38这个新版人类的参考基因组之后,找到统计学显著的somatic mutation个数显著减少了。

当然了,仅仅是看个数,意义不大,我们需要仔细分析位点。

然后具体到位点

首先可以借用一系列网页工具:

其实如果这个位点位于dbSNP数据库,那么接下来一切查询都可以基于rs ID号来进行关联,虽然 rs ID号 也会有些微变化。

因为具体到位点,就涉及到课题组信息了,不便公布,但是思路给大家了,可以是坐标转换,或者以 rs ID号 进行关联比较。最终其实要载入IGV去一对一比较,而且varscan软件给的high confidence的somatic mutation也需要注意,它默认P值卡的是0.05,其实一刀切并不好。

更多

以上我仅仅是比较了在50X这个测序深度下,VARSCAN软件基于不同参考基因组版本的表现问题。

还可以探索不同的软件,或者不同的测序深度。

我这里只是想说,对配对的WES数据来说,找somatic mutation这件事,值得仔细检查,假阳性问题比较严重。