otu聚类分析-微生物组多样性的16s rDNA测序与分析

背景介绍

人体肠道内的微生物中，超过99%都是细菌，有500～1000个不同的种类，数量高达十万亿，是人体细胞总数的10倍之多！它们能影响体重和消化能力、抵御感染和自体免疫疾病的患病风险，还能控制人体对癌症治疗药物的反应。此外otu聚类分析，发酵食品、土壤环境等各种各个领域中也都存在复杂的微生物群落，微生物多样性测序可帮助我们认识并了解这些微生物。

实验流程

1.样本准备

2.DNA提取与检测

3. PCR扩增

4.产物纯化

5.文库制备与检测

6. Miseq 上机测序

otu聚类分析_k均值聚类和模糊c聚类异同点_聚类树状图结果分析

分析流程

拼接质控与优化数据

对原始数据进行去接头和低质量过滤处理，然后去除嵌合体序列，得到最终优化序列，并基于优化序列进行OTU聚类分析和物种分类注释与评估，基于OTU聚类结果进行物种组成分析otu聚类分析，基于分类学信息进行物种结构分析和物种差异分析。

OTU聚类

OTU（Operational Taxonomic Units）是在系统发生学或群体遗传学研究中，为了便于进行分析，人为给某一个分类单元（品系，属，种、分组等）设置的统一标志。要了解一个样本测序结果中的菌种、菌属等数目信息，就需要对序列进行聚类（cluster）。

物种注释与评估

OTU分析

横坐标代表某分类学水平下的物种（或OTU）数目排序等级，纵坐标表示该分类水平下的物种的数目的相对百分含量，样本曲线的延伸终点的横坐标位置为该样本的物种数量，如果曲线越平滑下降表明样本的物种多样性越高，而曲线快速陡然下降表明样本中的优势菌群所占比例很高，多样性较低。

物种丰富度：由曲线的宽度来反映。

物种均匀度：由曲线的下降趋势来反映。（曲线整体上越平滑说明含量相近的物种变化情况越平缓。）

Alpha多样性分析

群落丰富度（Community richness）：反映群落中所含物种的种类多少；常用指数有Sobs、Chao、ace指数。

群落均匀度（Community evenness）：反映群落中各物种的相对密度是否均匀；常用指数有Shannoneven、Heip指数。

群落多样性（Community diversity）：综合反映群落中物种的丰富度和均匀度。常用指数有Shannon、Simpson指数。

①Sobs:实际观测到的OTU值；

② Chao：是用chao1算法估计样本中所含OTU数目的指数，chao1在生态学中常用来估计物种总数，由Chao (1984) 最早提出。

③ Ace：用来估计群落中OTU数目的指数，由Chao提出，是生态学中估计物种总数的常用指数之一，与Chao 1的算法不同。

④ Shannon：用来估算样本中微生物多样性的指数之一。它与Simpson多样性指数类似，常用于反映群落alpha多样性。Shannon值越大，说明群落多样性越高。

⑤ Simpson：用来估算样本中微生物多样性的指数之一，由Edward Hugh Simpson( 1949) 提出，在生态学中常用来定量描述一个区域的生物多样性。Simpson指数值越大，说明群落多样性越低。

⑥ Coverage：是指各样本文库的覆盖率，其数值越高，则样本中序列被测出的概率越高，而没有被测出的概率越低。该指数反映本次测序结果是否代表了样本中微生物的真实情况。

稀释曲线分析

稀释曲线Sobs与Shannon曲线为何不同？

①Sobs：走势不会出现平缓的情况，随着测序量的增加必然会使得一些低丰度的物种不断地被测到，因此Sobs曲线会逐渐上升但速率会降低。

②Shannon：在后期即使有一些低丰度物种被检测到，但并不足以成为核心物种，因此对整体的均匀度来说影响并不是很大。

聚类树状图结果分析_k均值聚类和模糊c聚类异同点_otu聚类分析

物种组成分析

物种Venn图分析

otu聚类分析_聚类树状图结果分析_k均值聚类和模糊c聚类异同点

注：不同的颜色代表不同的分组（或样本），重叠部分的数字代表多个分组（或样本）中共有的物种数目，非重叠的部分的数字代表对应分组（或样本）所特有的物种数目。

群落组成分析

otu聚类分析_聚类树状图结果分析_k均值聚类和模糊c聚类异同点

① 此图清晰展示出样本中的优势物种

② 通过对比不同样本之间柱子的组成情况了解到不同样本之间整体的群落构成差异。

注：Others为在所有样本中丰度占比均小于某一阈值的物种归为others（写文章时要写清楚）

样本与物种关系

k均值聚类和模糊c聚类异同点_otu聚类分析_聚类树状图结果分析

Circos样本与物种关系图中，小半圆（左半圈）表示样本中物种组成情况，外层彩带的颜色代表的是来自哪一分组，内层彩带的颜色代表物种，长度代表该物种在对应样本中的相对丰度；大半圆（右半圈）表示该分类学水平下物种在不同样本中的分布比例情况，外层彩带代表物种，内层彩带颜色代表不同分组，长度代表该样本在某一物种中的分布比例。

样本比较分析

Beta多样性分析

1.样本层级聚类分析

为研究不同样本群落结构的相似性或差异关系，可对样本群落距离矩阵进行聚类分析，构建样本层级聚类树。聚类是指根据样本中特征值的组成信息将样本划分为不同的簇，一般而言，聚类结束后组内的样本相互之间是相似的，即同一组样本所代表树枝相互之间分叉较短，而不同组中样本是不相似的，即不同组样本所代表树枝相互之间分叉较长，组内的相似性越大组间的差别越大，说明处理的影响越大。

k均值聚类和模糊c聚类异同点_聚类树状图结果分析_otu聚类分析

2.PCA分析

otu聚类分析_聚类树状图结果分析_k均值聚类和模糊c聚类异同点

图形解读：

① 点代表不同的样本

② 点与点之间的直线距离代表两样本间的差异性，距离越长差异越大

③PC1轴：第一主成分轴；PC2轴：第二主成分轴。

每个样本有成百上千的物种，每个物种的丰度又不同，数据结构十分复杂，此时采用降维的方法将复杂的结构进行计算和展示，使分析结果能被人看懂。一般有几个样本就降成几个维度，每个维度代表一个主成分，分别为PC1、PC2、PC3、PC4……此时每个维度就不代表一个OTU，可能是一类OTU或者多个OTU的集合，所有主成分对差异的解释度之和为100%，但不同主成分对样本的差异解释度不同，因此将对差异解释度最高的两个轴挑出来，根据这两个主成分进行二维绘图，一般PC1+PC2＞80%就被认为是非常优秀的分组，但大部分实验数据都集中于40%—60%。

3.PCoA分析

otu聚类分析_聚类树状图结果分析_k均值聚类和模糊c聚类异同点

4.NMDS分析

NMDS分析为non-metric multidimensional scaling，即非度量多维尺度分析。

将样本之间的距离进行两两计算，进行从大到小的排序，只将排序信息进行输入和作图，按照每个距离的排列顺序在二维坐标上排布，使样本间的距离大小满足排序，所以NMDS图中点与点的距离不能反映样本间的实际距离，也就是说NMDS分析关注样本与样本间的距离谁大谁小，但不关注样本间的距离到底差多少，所以NMDS图中横纵坐标没有意义，不代表差异的解释度，一般通过随图一块输出的stress值来判断二维样本点排布与实际高维数据的一致性，认为stress值越小，代表排序越符合真实情况。

聚类树状图结果分析_otu聚类分析_k均值聚类和模糊c聚类异同点