WGCNA:概念初探

人工智能132
  • 鉴定高相关的基因module。一个module内的基因往往有相似的生物学功能,可通过此方法初步探索lncRNA的功能;
  • 鉴定与表型相关的基因module。与表型高度相关的module可进行后续分析,用于建立预测模型或者探索生物学机制;
  • 寻找hub基因。该类应用在早期的lncRNA研究中很热,如果某个module中有lncRNA作为hub基因,可以继续对该lncRNA进行深度探索。

  • Co-expression network加权基因网络。以基因表达谱举例,基因之间的连接由基因间的表达相关性决定,WGCNA则使用β(软阈值)加权提高相关性的绝对值,能突出高相关基因但牺牲低相关的基因。具体来说,aij = |cor(genei, genej)|^β表示 unsigned的共表达网络, aij = |(1 + genei, genej)/ 2|^β 表示 signed的共表达网络。

  • Module:表达高度相关的基因集。在unsigned的共表达网络中,module对应绝对相关性的基因集;在signed的网络中,module对应正相关的基因集
  • Module Eigengene ME:给定module的第一主成分,可代表module,例如计算ME和体重相关即说明module与体重相关
  • Module Membership MM:将该基因的表达量与module eigengene进行相关性分析就可以得到MM值。MM值本质上是一个相关系数,如果基因和某个module的MM值为0,说明二者根本不相关,该基因不属于这个module; 如果MM的绝对值接近1,说明基因与该module相关性很高
  • Intramodular connectivity K IM 衡量的是给定基因相对于特定模块的基因是如何连接或共同表达的。模内连接性可以衡量module membership。
  • Gene Significance GS:将指定基因的表达量与对应的表型数值进行相关性分析,最终的相关系数的值就是GS。GS越高表明指定基因与研究表型越相关。
  • Module Significance MS:给定module中所有基因的GS平均值。Module significance越高表明指定module与研究表型越相关。
  • Eigengene significance:模块特征(ME)与样本性状的相关性。值越高表明指定module与研究表型越相关。
  • Connectivity:在加权共表达网络中,由于每条边代表两个基因间的相关性的大小,对应一个数值,所以一个基因在共表达网络中的Connectivity定义为与该基因相连的所有边的数值之和。另外,根据相连的基因是否和该基因位于同一个module,又可以将边分为两类,和该基因位于同一个module内,定义为within,位于不同的modules,定义为out。可根据within的connectivity来确定该module的hub基因。
  • Hub gene:这个定义是"highly connected gene"的缩写。表示在指定module内的具有高Connectivity的基因。
  • SoftThreshold:软阈值,即aij = |cor(genei, genej)|^β中的β值,含义为调整cor(genei, genej)使其符合幂律分布的最小β值;若变量K满足幂律分布,则P(K)=c·K^-α,即P(K)和K的对数满足线性相关,pearson's R^2大于0.8

1、WGCNA分析对输入数据的要求?

2、WGCNA分析对内存的要求?

输入验证码查看隐藏内容

扫描二维码关注本站微信公众号 Johngo学长
或者在微信里搜索 Johngo学长
回复 svip 获取验证码
wechat Johngo学长