二代测序数据分析:[1]quality control
1、安装fastqc注意将fastqc加入到系统环境变量中,以便于在终端或命令行中直接运行具体安装方法参考fastqc官方手册
2、在命令行中直接运行命令fastqc [-o output dir] [--(no)extract] [-f 熠硒勘唏fastq|bam|sam] [-c contaminant file]output dir指的是输出结果路径extract参数指的是输出结果是否解压-f 参数 是输入文件的格式,指的是测序数据
3、运行fastqc:fastqc seqfile1.fq seqfile2.fq
![二代测序数据分析:[1]quality control](https://exp-picture.cdn.bcebos.com/4a6d48ee7b7f860e3eef714777f5ee0d3bcebe2d.jpg)
4、输出结果:在output dir目录下的一个压缩文件(未压缩)通常我们只需关注如下几个结果1 每个位置的碱基测序质量。通常我们一般认为从第二个碱基开始,平均每个碱基的测序质量boxplot下四分位线在30分以上,则认为测序质量非常好
![二代测序数据分析:[1]quality control](https://exp-picture.cdn.bcebos.com/91091efc77f7980e2ebad7c2d4db3620b83a912d.jpg)
5、每条序列的测序质量 一般认为90%的reads测序质量在35分以上,则认为该测序质量非常好
![二代测序数据分析:[1]quality control](https://exp-picture.cdn.bcebos.com/589f5b0788013870aadbae3f2d08a50f95fc832d.jpg)
6、 A哌囿亡噱TCG碱基在各个位置上的分布 一般来说,AT含量高于CG含量,AT含量约28%,CG含量约22%。由于测序问题,通常第一二位置的碱基测序质量比较低,ATCG含量也不正常。这种情况不影响数据质量,如果实在介意,可在后续bowtie mapping的时候将前两个碱基去掉
![二代测序数据分析:[1]quality control](https://exp-picture.cdn.bcebos.com/a749bb0f94fc508c1e54534b01775ddd894cfd2d.jpg)