menu

Bioinformation Metagenomics Mr.How知其所以然之宏基因组主题模块

Bioinformation Metagenomics 宏基因组主题模块


原创文章,版权所有,搬运文章,转发请注明polyaD,原文链接https://polyad.github.io/tags 如有任何问题或疑惑,请在后面留言或者发邮箱留言polyaluthor@gmail.com,加微信polyad或者qq数学算法开发10群 282642152进行探讨,请备注:Mr.How。


前言
  您好,欢迎来到我的引导学习记录博客,我是polayD, Mr.How先生。本系列依据《怎样解题》,George Polya的方法以及知其所以然模式启发,进行拓展而成。希望在这里,您能找到引导式学习的快乐,逐步建立与形成自己的知识同化模式,摆脱碎片化信息的烦扰,掌握快速学习与深度知识系统化的技能,期待与您共同进步。   信息碎片化的时代,大部分人只能随波逐流,特别是当没有形成系统化的知识模块,很多时候我们只能人云亦云,面对海量信息,无法判别重要性,相关性,有效性,普通的个人很难在信息洪流中找到自己的定位。深度式的知其所以然的引导式学习,可避开信息碎片化旋涡,同时突破信息茧房的束缚。下面波利亚将引领您,进入一个这个基础主题模块的海洋,带上自己的定位导航,抓紧好奇心的船舵,扬帆深入得在这片海洋里探索,前进,自我迭代进化。
**理念**
 首先,做什么事之前,先要设定一下我们的小目标。
我们的整体导航路径:
1.主题解析,先难后易,深入浅出,案例拆解,举一反三
2.主要解决两个问题:如何思考这个分支限界法算法?如何使用这个分支限界法算法解决问题?
3.尽可能所有收集参考资料,全部用自己的语言进行复述回答。
4.提供中英文版本 系列基础模块定位
  将如下基础主题模块化
宏基因组主题模块

**掌握的路径框架**

目录


重要逻辑:物种组成,物种功能,差异分析

分类

Metagenomics 广义的宏基因组或宏基因组学泛指研究微生物群体组成、功能基因、代谢产物的学科、以揭示微生物组组成结构、微生物组与宿主、微生物组内的相互作用关系。一般包括如下类型:

  • 宏基因组
      • 有参
      • 无参
  • 宏转录组
  • 16S/18S/ITS 扩增子测序
  • 宏病毒组
  • 宏表观组
  • 宏蛋白组
  • 宏代谢组
  • 细菌基因组测序
      • 细菌 de novo 测序
      • 细菌重测序
  • 真菌基因组测序
      • 真菌 de novo 测序
      • 真菌重测序
  • 临床宏基因组

定义与应用

  • 宏基因组:
    宏基因组研究以环境中所有微生物基因组为研究对象, 通过对环境样品中的全基因组DNA进行高通量测序,获得单个样品的饱和数据量, 基于denovo组装进行微生物群落结构多样性,微生物群体基因组成及功能, 特定环境相关的代谢通路等分析,从而进一步发掘和研究具有应用价值 的基因及环境中微生物群落内部、微生物与环境间的相互关系。
    宏基因组研究对象,按研究对象,主要分为人类宏基因组、动物宏基因组、植物宏基因组和环境宏基因组等。
      • 有参:基于marker gene进行序列相似性比对。
      • 无参:获得未被注释的物种和基因表达;通过Binning挖掘新物种的基因组。基于NCBI数据库注释reads层面,部分软件采用LCA(Lower Common Ancestor最小祖先法)算法。注:无参分析需要非常大的比对数据库,所以服务器配置最低256G内存,推荐内存512G以上。
  • 宏转录组:以RNA为研究对象,揭示微生物群落整体的转录情况,提示群落目前的生活状态。
  • 16S/18S/ITS 扩增子测序(通用引物获取marker基因)
    以DNA为研究对象,使用PCR扩增一类微生物共有的Marker基因,以揭示目标群体的组成与丰度。
    16S/18S/ITS扩增子测序即通过提取环境样品的DNA,选择合适的通用引物扩增16S/18S/ITS的某一或某几个区,使用测序平台将目的区域正反向读通,通过检测目的区域的序列变异和丰度,对环境样本物种分类及,丰度,种群结构,系统进化,群落比较等方面信息进行分析的研究方法。
  • 宏病毒组
    发现微生物群落中所有病毒,需要同一个样品分别进行宏基因组和宏转录组测序,因为病毒主要分类DNA病毒和RNA病毒两大类。
  • 宏表观组
    研究微生物群体水平DNA、RNA表观遗传学修饰。
  • 宏蛋白组
    研究微生物群体中蛋白的组成。
  • 宏代谢组 研究对象中的所有代谢物的组成。
  • 细菌基因组测序
      • 细菌 de novo 测序
        细菌基因组de novo测序,即从头测序,是指在没有任何现有的序列信息的情况下, 对某个细菌物种进行测序,利用生物信息学分析手段对 序列进行拼装,从而获得该细菌物种的基因组序列。
      • 细菌重测序
        细菌基因组重测序是对已有参考基因组序列(Reference Sequence)的物种的不同个体进行基因组测序, 并以此为基础进行个体或群体水平的差异性分析。
  • 真菌基因组测序
      • 真菌 de novo 测序
        真菌基因组de novo测序,即从头测序,是指在没有任何现有的序列信息的情况下, 对某个真菌物种进行测序,利用生物信息学分析手段对 序列进行拼装,从而获得该真菌物种的基因组序列。
      • 真菌重测序 真菌基因组重测序是对已有参考基因组序列(Reference Sequence)的物种的不同个体进行基因组测序, 并以此为基础进行个体或群体水平的差异性分析。
  • 临床宏基因组
    对患者样本中微生物和宿主遗传物质(DNA和RNA)的全面综合分析,正迅速从研究转向临床实验室。
    包括抗菌药物耐药性、微生物群、人类宿主基因表达(转录组学)和肿瘤学 临床微生物学领域包括诊断微生物学,指从临床样本中鉴定病原体以指导感染患者的管理和治疗,同时监测社区传染病的爆发。

    应用

  • 宏基因组
    环境微生物多样性; 基因挖掘 改造工程菌 疾病关联分析 药物开发
  • 宏转录组
  • 16S/18S/ITS 扩增子测序
  • 宏病毒组
  • 宏表观组
  • 宏蛋白组
  • 宏代谢组
  • 细菌基因组测序
      • 细菌 de novo 测序
      • 细菌重测序
  • 真菌基因组测序
      • 真菌 de novo 测序
      • 真菌重测序
  • 临床宏基因组

主要流程软件

  • 宏基因组
      • 有参:
        DNA 样品打断成300bp左右的片段->测序->质控和数据过滤->宏基因组组装、基因预测、构建参考基因集,并进行后续的物种、基因、功能分析 质控->物种组成和功能组成分析->差别分析及可视化。
        MetaPhlAn2基于己报导的所有微生物基因组获得物种组成,基于UniRef、EggNOG、KEGG等蛋白数据库确定功能组成。
      • 无参: 质控->物种分类->序列拼接->基因注释->去冗余->基因定量->功能注释->差别分析及可视化 。
        数据质控fastqc, Trimmomatic, MultiQC, khmer
        组装拼接MEGAHIT和评估quast 基因注释Prokka
        构建非冗余基因集:CD-HIT
  • 宏转录组:
  • 16S/18S/ITS 扩增子测序:
    PICRUSt与PICRUSt 2。
    16S rRNA基因测序研究细菌古菌的组成。
    ITS/18S测序研究真菌、原生动物等真核生物组成。
  • 宏病毒组
  • 宏表观组
  • 宏蛋白组

  • 宏代谢组
  • 细菌基因组测序
      • 细菌 de novo 测序
        细菌的染色DNA打断->构建文库->测序->contig
      • 细菌重测序
  • 真菌基因组测序
      • 真菌 de novo 测序
      • 真菌重测序
  • 临床宏基因组

解决问题

  • 宏基因组
      • 有参 样本中有什么?
        物种组成(包括宿主、细菌、真菌、病毒、寄生虫、原生动物等)
        样品中有哪些功能基因?
        功能基因组成–潜在的功能,注意潜在由于是DNA
        组间物种和功能差别?
        分组有关的物种分类(OTUs/种/属/科)
        和功能(通路/模块/同源簇/基因)
      • 无参
        样本中有什么?
        物种组成(包括宿主、细菌、真菌、病毒、寄生虫、原生动物等)
        样品中有哪些功能基因?
        功能基因组成–潜在的功能,注意潜在由于是DNA
        组间物种和功能差别?
        分组有关的物种分类(种/属/科)
        和功能(通路/模块/同源簇/基因)
        未知菌种基因组拼接
  • 宏转录组
    对复杂样本中的一组微生物编码的所有RNA进行分析。
  • 16S/18S/ITS 扩增子测序
    医学领域:人体微生物与人体健康/疾病的关系,人体微生物对疾病干预过程的影响;
    动物领域:肠道、瘤胃(如产甲烷菌类群)与动物健康/营养消化研究等;
    农业领域:根际微生物与植物互作、农业耕作/施肥处理与土壤微生物群落等;
    环境领域:雾霾处理、污水治理、石油降解、酸性矿水处理及海洋环境等;
    特殊极端环境:极端环境条件下的微生物类群研究,如冰川、火山等。
  • 宏病毒组
  • 宏表观组
  • 宏蛋白组
  • 宏代谢组
  • 细菌基因组测序
      • 细菌 de novo 测序
      • 细菌重测序
  • 真菌基因组测序
      • 真菌 de novo 测序
      • 真菌重测序
  • 临床宏基因组
    理论上可以获得所有微生物的分布。借助数据库的优化,区分定植、环境菌、条件致病菌,可以在报告中体现疑似致病微生物,结合临床表征及报道,可以快速、准确地缩小感染病原怀疑范围,协助临床确认病原学诊断。

区分

重要问题误解:高通量16S rRNA基因测序(其描绘所选生物或单个标记基因)的方法有时被称为宏基因组学,此称呼不合适。因为并非针对所有微生物群体,只是细菌群体。 重要理念:降维和可视化为核心

序列关系: reads: 测序所得的碱基数据。
contigs: 毗连的核苷酸碱基序列。由互相重叠的reads连接而成。
scaffolds: 总是由gap分隔的contig组成。


软件解析

主流软件:

  • 基础软件 linux:centos,shell,vim
    R:
    ggpattern包: 基于几何图案或图像的自定义填充
    vegan,phyloseq,microbiome, ggplot2:绘图
    python:Bioconductor
  • 比对工具 bwa: bwa序列比对
  • 可视化工具
    samtools: 压缩、排序、索引
  • 数据质控
    fastqc: fastqc质量评估 ,质控后再评估 Trimmomatic: 去接头和低质量序列
    MultiQC: MultiQC多样品报告汇总
    khmer: k-mer就是长度为k的DNA序列,K-mer过滤 kmer过滤原理,只对高覆盖度中的低丰度kmer剪切(更可能是测序错误)。 低覆盖度保留。
  • 鉴定工具
    MetaPhlAn2:(鉴定与表达量)分析微生物群落(细菌、古菌、真核生物和病毒)组成的工具,只需一条完命令即可获得物种丰度信息。 可以实现精确的分类群分配、准确估计物种的相对丰度、种水平精度、株鉴定与追踪、超快的分析速度。 MetaMaps:(鉴定)长读长宏基因组分析工具。
    HUMAnN2:(鉴定与功能分析)宏基因组和宏转录组种水平功能组成分析。
    kraken2、bracken、centrifuge、kaiju。

  • 组装工具
    MEGAHIT:(组装)多快好省的宏基因组装工具。 OPERA-MS :宏基因组二、三代测序混合组装软件。 metaspades:结果评估并比较
    megahit: MEGAHIT是NGS de novo汇编程序,在土壤等复杂环境样本组装、大量样本混合组装方面优势明显,速度很快,消耗的资源少。Megahit组装的算法使用的是基于迭代的kmer的DBG法,其特点是超快和超高效内存使用。
    SOAPdenovo:SOAPdenovo2是用于short-read组装的软件,主要用于组装比较大的基因组, 组装速度快但是错误率较高。 SPAdes:metaSPAdes是目前宏基因组领域组装指标较好的软件,尤其在株水平组装优势明显,组装效果优,但是拼接时间长,资源消耗高。
    IDBA:适合预测深度不均一的数据,且资源消耗过高。
  • 拼接工具 Velvet:
    SPAdes:
    IDBA-UD: metaSPAdes:株水平高精度宏基因组拼接软件
  • 去嵌合体工具: mothur:去除嵌合体可以将拼接好的Tags比对到参考数据库当中确定嵌合体,然后进行去除。
  • 表达量工具
    bedtools: 丰度估计
  • 差异分析
    STAMP:(组间差异)微生物组间差异分析神器。
    kneadData:(质控和去宿主)一款宏基因组和宏转录组测序数据质控的流程,其主要功能包括使用Trimmomatic序列质控,bowtie2比对至宿主和PhiX基因组去除宿主和测序平衡序列。

  • 注释工具 Prokka:注释基因,快速的原核基因组注释。 Kraken:(物种注释)超快的宏基因组序列物种注释工具。 KEGG、COG、耐药基因。
  • 分箱工具
    MetaWRAP:(分箱)宏基因组分箱流程。 ABAWACA: CONCOCT: Maxbin: MetaBAT: ESOM: contig binning主流分析软件有CONCOCT、MetaBAT、MaxBin等
  • 分析工具 MaxBin:基于每个contig的序列覆盖度和四碱基频率,以记录每个bin的标志基因数量。 MetaBAT:测序reads覆盖度(read coverage)、覆盖度变异(coverage variance)、和四碱基频率(tetranucleotide frequencies)。
  • 可视化工具
    CheckM 和VizBin:Bin 可视化
    Anvi可视化组装结果
    Circos可视化
  • 绘图工具
    GraPhlAn:GraPhlAn图
    Gephi:网络图
  • 模拟工具
    DAS工具

重要概念

组装(Assembly):基因组测序时将测得的各短序列拼接成连续完整的序列。从reads 到 Scaffolds的过程。组装原因:目前二代测序的序列读长比较短最长只有300bp。
soapdenovo:肠道样品。 MEGAHIT:土壤和水样品。 组装策略:基于序列overlap关系进行拼接,代表软件有Omega。基于de Bruijn图进行组装。基于k-mer的de Bruijn组装策略。

分箱(单菌草图): 分箱是对reads或contig分组的过程,并将其分配给独立的基因组。 。contig binning是基于宏基因组组装结果,将组成相似以及丰度分布模式一致的contigs划分到同一物种的聚类方法。binning的含义是分箱、聚类,指从宏基因组测序序列中将不同个体的序列分离开来的过程。contig binning方法可实现单菌草图的组装,对获得的基因组草图可进一步进行基因和功能注释,共线性比较分析、进化分析等。 contig binning的组装策略:核酸组成(NC)、核酸组成与丰度(NCA)、微分丰度(DA)等。

N50(N90):指基因组组装结果中,一半的scaffolds/ contigs长度都大于这个值。 混合组装:比对上部分Reads mapping->获取未比对上部分unmmaped.assembly->再进行组装,用不同的对应的软件。
分箱: 主要解决,知道那些序列来自那些菌,拼出未知菌的基因组。分箱宏基因组,将组装的叠连群(contigs)进行分组或分箱,这些组内可能来自相近的分类学单元。 de novo基因组拼接方法:1.de Bruijn,将基因组打断成k-mer再拼接,通过k-mer步移实现拼接。2.Overlap Layout Consensus:耗时长,用于Sanger测序。3.Greedy algorithm:对于含重复区的序列拼接效果不好。

OTU表(比对与聚类后用于区分):特征表,在系统发生学研究或群体遗传学研究中,为了便于进行分析,人为给某一个分类单元(品系,种,属,分组等)设置的同一标志。通常按照 97% 的相似性阈值将序列划分为不同的 OTU,每一个 OTU 通常被视为一个微生物物种。相似性小于97%就可以认为属于不同的种,相似性小于95%,可以认为属于不同的属。 功能,alpha多样性分析,beta多样性分析,差异分析等等都是基于OTU table展开的 。 de novo OTU 聚类 ,closed-reference聚类,open-reference OTU聚类。 对于open-reference OTU聚类:即将序列与参考序列比对,未比对上的序列再进行de novo聚类。兼具上述两种方法的优点,但无法用于不同16S区域的合并分析。

嵌合体:在PCR反应中,在延伸阶段由于不完全延伸,就会导致嵌合体序列的出现。

分析统计方法

  • 排序分析

非约束性排序分析(区分组间)
主要利用PCA、PCoA或NMDS分析进行样本比较,反映样本间菌群结构的相似性和差异性,从而分析组间样本能否明显区分开.

    • PCA:
    • PCoA:
    • NMDS:

约束性排序分析(区分环境关系) RDA/CCA和db-RDA分析则多用来阐述环境因子对样本菌群结构变化的影响,不仅可以反映样本、物种和环境因子之间的相关性,而且可以找出对物种分布变化影响程度较大的环境因子.

    • RDA/CCA:
    • db-RDA:

微生物数据库

  • 扩增子数据库
    RDP:去嵌合 RDP数据库 NCBI taxdmp SILVA GreenGene: 去除非细菌序列。Greengene
    PR2 UNITE FunGene EzBioCloud
  • 宏基因组数据库
    kraken2: 包括RefSeq 最近的99版本基因组数据,涵盖细菌、病毒、古菌、原生动物。加入了IMG的真菌和细菌的基因组数据,以及真核寄生生物的数据库。
  • 按对象
    • 综合数据库
    • 细菌
    • 真菌
    • 病毒
    • 寄生虫
  • 按功能
    • 抗性基因数据库
      CARD (The Comprehensive Antibiotic Resistance Database)
    • 病原菌与宿主互作
      HPIDB3.0 (Host-Pathogen Interaction Database)
      PHI (Pathogen Host Interactions)
    • 病原菌毒力因子
      VFDB (Virulence factors Database)
    • 预测水平转移基因
      Isfinder HGT-DB
    • 细菌中分泌蛋白的比对分析
      EffectiveDB (Prediction of bacterial protein secretion)

问题列表

为何要抽平处理? 扩增子测序拿到OTU表之后通常会被要求进行抽平处理,这样去进行后续比较分析,测序量一致后续分析比较才有意义。工具有Deseq2。
otutab_rare 抽样OTU比至某个指定数据量,方便比较Alpha多样性,对于抽平后的OTU表,会自动删除不满足样本量的样品,还会去除全为零的OTUs。

宏基因组生物信息学算法

UCHIME算法:去嵌合体的经典算法
UPARSE算法:作为OTU聚类和代表性序列挑选的金标准
UNOISE算法:对Illumina测序的错误去噪进行了一个很好的改善

功能模块

质控模块
物种组成模块
组装模块
注释模块
功能与丰度分析模块
统计分析模块
分箱模块

工具应用清单 工具名称 版本号 地址 FastQC 0.11.5 http://www.bioinformatics.babraham.ac.uk/projects/fastqc/ seqtk 1.3 https://github.com/lh3/seqtk R 4.0.3 https://www.r-project.org/ Bioconductor - http://bioconductor.org/ Trimmomatic 0.38 http://www.usadellab.org/cms/?page=trimmomatic BMTagger 3.102 ftp://ftp.ncbi.nlm.nih.gov/pub/agarwala/bmtagger/ metaSPAdes 3.15.0 https://github.com/ablab/spades QUAST 4.0 http://bioinf.spbau.ru/quast MEGAHIT 1.2.9 https://github.com/voutcn/megahit Prodigal 2.6.3 http://prodigal.ornl.gov/ eggnog-mapper 2.0.1 https://github.com/eggnogdb/eggnog-mapper DIAMOND 2.0.4 https://github.com/bbuchfink/diamond Salmon 1.4.0 https://github.com/COMBINE-lab/salmon kraken2 2.1.1 https://github.com/DerrickWood/kraken2 Bracken 2.6.0 https://ccb.jhu.edu/software/bracken/ centrifuge 1.0.4b https://github.com/khyox/recentrifuge kaiju 1.6.3 https://github.com/bioinformatics-centre/kaiju DESeq2 1.26.0 http://bioconductor.org/packages/release/bioc/html/DESeq.html Bowtie2 2.3.4.3 https://github.com/BenLangmead/bowtie2 GTDB-Tk 1.4.0 https://github.com/Ecogenomics/GTDBTk MetaBAT 2.15 https://bitbucket.org/berkeleylab/metabat Biostack® Suits 0.0.1 https://github.com/jameslz/biostack-suits Samtools 1.10 http://www.htslib.org/ HMMER 3.1b2 http://hmmer.org/ AMRFinderPluss 3.9.3 https://github.com/ncbi/amr CheckM 1.1.2 https://github.com/Ecogenomics/CheckM


参考资料


行定重要人物及组织

一级资料文献与书籍及重要作者
文献:
书籍:
博客:16S/18S/ITS 扩增子测序
众筹编写《微生物组数据分析与可视化实战》——成为宏基因组学百科全书的创始人
ngs-docs资源推荐
课程

宏基因组学研究—宏基因组Reads的组装与分类/分箱
论坛:
视频:

二级资料:他人加工且有观点及大众资料
博客: 论坛:
视频:


返回顶部



评论:


技术文章推送

知其所以然主题模块分享

微信搜索公众号: How先生polyad
wechat 微信公众号:How先生polyad