中国农业科学 ›› 2023, Vol. 56 ›› Issue (9): 1617-1632.doi: 10.3864/j.issn.0578-1752.2023.09.001
收稿日期:
2022-12-04
接受日期:
2023-03-02
出版日期:
2023-05-01
发布日期:
2023-05-10
通信作者:
赵毅强,E-mail:yiqiangz@cau.edu.cn
联系方式:
谭力治,E-mail:tanlizhi@cau.edu.cn。
基金资助:
Received:
2022-12-04
Accepted:
2023-03-02
Published:
2023-05-01
Online:
2023-05-10
摘要:
全基因组关联分析(genome-wide association study,GWAS)是定位基因组中与性状显著关联的变异位点的有效方法。随着表型记录的完善、高通量基因型分型技术的发展,以及统计方法的改进,全基因组关联分析在人类疾病、动物植物遗传等领域得到了广泛的应用。假阳性是影响全基因组关联分析结果可靠性的重要因素之一。为了控制假阳性,除了校正P值,GWAS模型从最简单的方差分析(或用于质量性状的卡方检验)到加入固定效应协变量的普通线性模型(general linear model,GLM),再到加入随机效应的混合线性模型(mixed linear model,MLM)持续改进,控制了多种混杂因素导致的假阳性。将个体的遗传效应拟合为由基因组亲缘关系矩阵(genomic relationships matrix,GRM)定义的随机效应是目前常用的方法。由于MLM的参数估计大量消耗计算资源,研究人员不断尝试模型求解优化和GRM的构建优化(GRM的构建优化同时也提高了计算效率),最终将基于MLM计算的时间复杂度由O(MN3)逐步改进到O(MN),实现了计算速度与统计功效的飞跃。针对质量性状病例对照比失衡带来的假阳性问题,研究人员进一步对广义混合线性模型(generalized linear mixed model,GLMM)进行了校正。本文较全面地介绍了GWAS的基本原理和发展,着重阐述了GWAS中MLM模型的改进和优化细节,同时,列举了GWAS在农业中的应用,包括在植物、动物和微生物方面的研究成果,以及基于单倍型的GWAS应用。最后,从进一步提高GWAS统计功效和GWAS试验设计2个角度对GWAS未来的发展进行了展望。
谭力治, 赵毅强. 全基因组关联分析中混合模型的原理、优化与应用[J]. 中国农业科学, 2023, 56(9): 1617-1632.
TAN LiZhi, ZHAO YiQiang. Principle, Optimization and Application of Mixed Models in Genome- Wide Association Study[J]. Scientia Agricultura Sinica, 2023, 56(9): 1617-1632.
表1
GWAS中MLM的优化模型"
计算模型 Computational model | 功能与方法要点 Methodological highlights | 计算速度 Computational speed | 发表时间 Publication time | 参考文献 Reference | 来源网站 Resource |
---|---|---|---|---|---|
EMMA | 似然估计的优化对象为遗传方差和残差方差之比 Optimize the ratio of genetic variance to residual variance in ML or REML | 慢 Low | 2008 | [ | |
CMLM | 对个体间的亲缘关系进行聚类,通过用组的相似性替代个体的相似性,提高计算速度同时提高检测功效 Cluster the kinship among individuals, replace individual similarity with group similarity to improve both computing speed and statistical power | 中 Intermediate | 2010 | [ | |
EMMAX | 单次估计随机效应方差,转化混合线性模型为普通线性模型 Single estimation of variance of random effects, transform mixed linear model into an ordinary linear model | 中 Intermediate | 2010 | [ | |
FaST-LMM | 通过对随机效应矩阵的特征分解去掉相关性,将混合线性模型转化为包括目标标记效应的普通线性模型 Transform mixed linear model into an ordinary linear model with by performing spectral decomposition of the random effects matrix to remove correlations | 中/快(n<m) Intermediate/fast (n<m) | 2011 | [ | |
GEMMA | 通过优化矩阵运算和迭代算法,加速标记效应的精确估计 Accelerate the exact estimation of marker effects by optimizing algorithms of matrix operations and iterative algorithm | 中 Intermediate | 2012 | [ | |
GRAMMAR -Gamma | 对表型残差和GRAMMAR-Gamma因子进行估计并优化。对表型残差和基因型之间的关联进行得分检验并校正统计量 Estimate and optimize phenotypic residuals and GRAMMAR-Gamma factors. Implement score-based association test and corrections for the statistic | 快 Fast | 2012 | [ | |
MLMM | 将多个相关标记作为固定效应拟合到MLM中,以逐步回归的方式压缩由随机效应解释的方差,实现随机效应的消除 Include significant markers in the MLM as fixed covariates, splitting the variance explained by random effects by forward-backward stepwise approach to eliminate random effects | 中 Intermediate | 2012 | [ | |
SUPER | 使用区间内最显著的标记并剔除与待测标记连锁的标记后,对剩余标记构建性状特异的亲缘矩阵 Use the most significant markers to represent each bin and exclude markers that are in LD to the testing markers, construct a complementary trait specific kinship with remaining markers. | 中 Intermediate | 2014 | [ | |
BOLT-LMM | 计算近似表型残差,使用贝叶斯模型与经典关联方法结合的回顾性得分统计量检验残差与检测标记间的关联 Compute approximate phenotypic residuals and tests the residuals for association with candidate markers via a retrospective score statistic that integrate Bayesian modeling and frequentist association testing | 很快 Very fast | 2015 | [ | |
FarmCPU | 独立随机效应模型筛选位点,独立的固定效应验证位点,两者交替使用直到没有新的候选标记进入到模型中 Markers are estimated by REM and tested by FEM independently, and both methods are used iteratively until no change on new candidate markers | 快 Fast | 2016 | [ | |
BLINK | 使用贝叶斯信息标准替代随机效应中的REML估计,使用LD信息挑选候选位点,不再使用混合线性模型 Replace REML with BIC in estimating random effects and select candidate markers by LD, the mixed linear model is no longer used | 快 Fast | 2018 | [ | |
FastGWA | 基于亲缘关系矩阵稀疏化和网格搜索的REML算法的计算优化 Computational optimization of REML algorithm based on sparse GRM and grid search | 极快 Extremely fast | 2019 | [ |
表2
GWAS中GLMM的优化模型"
计算模型 Computational model | 功能与方法要点 Methodological highlights | 计算速度 Computational speed | 发表时间 Publication time | 参考文献 Reference | 来源网站 Resource |
---|---|---|---|---|---|
GMMAT | 使用PQL与AI-REML对零模型进行参数估计,保留参数并 使用得分检验所有标记 Use PQL and AI-REML to estimate parameters of null model, retaining parameters to perform the score test for all markers | 中 Intermediate | 2016 | [ | |
SAIGE | PCG代替矩阵特征分解,使用SPA解决病例对照比失衡 Replace matrix Eigen decomposition with PCG and use SPA to calibrate unbalanced case-control ratio | 很快 Very fast | 2018 | [ | |
FastGWA- GLMM | 基于亲缘关系矩阵稀疏化和网格搜索的REML算法的计算优化 Computational optimization of REML algorithm based on sparse GRM and grid search | 极快 Extremely fast | 2021 | [ | |
POLMM | 可分析有序分类变量,使用PCG或稀疏矩阵加速矩阵运算,通 过SPA校准P值 Analyze ordinal categorical data, use PCG or sparse GRM to accelerate matrix operations and P-values adjusted by SPA | 很快 Very fast | 2021 | [ |
[1] |
doi: 10.1038/ng1090 |
[2] |
doi: 10.1016/j.ajhg.2011.11.029 |
[3] |
doi: 10.1016/j.ajhg.2017.06.005 |
[4] |
doi: 10.1038/ng1702 pmid: 16380716 |
[5] |
doi: 10.1038/nmeth.1681 pmid: 21892150 |
[6] |
doi: 10.1038/ng.3190 |
[7] |
doi: 10.1038/s41588-019-0530-8 pmid: 31768069 |
[8] |
卜李那, 赵毅强. 全基因组关联分析及其扩展方法的研究进展. 农业生物技术学报, 2019, 27(1): 150-158.
|
|
|
[9] |
doi: 10.1016/S0140-6736(03)12520-2 |
[10] |
doi: 10.1111/j.0006-341x.1999.00997.x pmid: 11315092 |
[11] |
doi: 10.1038/ng1847 pmid: 16862161 |
[12] |
doi: 10.1038/nrg3706 pmid: 24739678 |
[13] |
doi: 10.1002/gepi.20430 pmid: 19434714 |
[14] |
|
[15] |
|
[16] |
doi: S1674-2052(16)30308-2 pmid: 28039028 |
[17] |
温阳俊, 冯建英, 张瑾. 多位点关联分析方法学的研究进展. 南京农业大学学报, 2022, 45(1): 1-10.
|
|
|
[18] |
doi: 10.1534/genetics.107.080101 pmid: 18385116 |
[19] |
doi: 10.1038/ng.548 pmid: 20208533 |
[20] |
doi: 10.1038/ng.546 pmid: 20208535 |
[21] |
doi: 10.1186/1741-7007-12-1 |
[22] |
doi: 10.1534/genetics.107.075614 pmid: 17660554 |
[23] |
doi: 10.1038/ng.2410 pmid: 22983301 |
[24] |
doi: 10.1038/ng.2310 pmid: 22706312 |
[25] |
doi: 10.1038/nmeth.2037 pmid: 22669648 |
[26] |
|
[27] |
doi: 10.1038/ng.3211 |
[28] |
doi: 10.1038/ng.2314 pmid: 22706313 |
[29] |
|
[30] |
doi: 10.1186/s12864-021-08243-4 |
[31] |
doi: 10.1016/j.ajhg.2010.11.011 pmid: 21167468 |
[32] |
doi: 10.1016/j.ajhg.2016.02.012 |
[33] |
doi: 10.1038/s41588-018-0184-y pmid: 30104761 |
[34] |
doi: 10.1038/s41588-021-00954-4 pmid: 34737426 |
[35] |
doi: 10.1016/j.ajhg.2021.03.019 |
[36] |
doi: 10.1017/S0016672300004857 |
[37] |
doi: 10.1038/nature08800 |
[38] |
|
[39] |
doi: 10.1038/ng.695 pmid: 20972439 |
[40] |
doi: 10.1038/ng.1018 |
[41] |
doi: 10.1186/1471-2164-15-1 |
[42] |
doi: 10.1016/j.plantsci.2012.08.004 |
[43] |
doi: 10.1038/ng.2484 pmid: 23242369 |
[44] |
doi: 10.1111/tpj.2016.86.issue-5 |
[45] |
doi: 10.1105/tpc.18.00930 pmid: 31239390 |
[46] |
|
[47] |
|
[48] |
|
[49] |
doi: 10.1186/s12863-016-0351-z |
[50] |
|
[51] |
doi: 10.1186/s12711-020-00598-8 |
[52] |
|
[53] |
|
[54] |
|
[55] |
doi: 10.1038/s42003-019-0734-6 |
[56] |
|
[57] |
doi: 10.1186/s12864-020-07350-y |
[58] |
doi: 10.1186/s12864-021-08243-4 |
[59] |
张统雨, 朱才业, 杜立新, 赵福平. 羊重要性状全基因组关联分析研究进展. 遗传, 2017, 39(06): 491-500.
|
|
|
[60] |
|
[61] |
doi: 10.1111/age.12464 pmid: 27427781 |
[62] |
|
[63] |
doi: 10.1016/j.aquaculture.2018.06.014 |
[64] |
doi: 10.1038/s41598-016-0001-8 |
[65] |
doi: 10.1007/s10126-020-10007-2 pmid: 33196953 |
[66] |
doi: 10.1111/nph.2017.213.issue-2 |
[67] |
doi: 10.1093/plcell/koab146 |
[68] |
|
[69] |
doi: 10.1105/tpc.16.00931 pmid: 28320784 |
[70] |
|
[71] |
doi: 10.1111/pbi.v21.5 |
[72] |
doi: 10.1111/jipb.13226 |
[73] |
doi: 10.1038/s41598-018-37186-2 |
[74] |
doi: 10.1038/s41396-021-00993-z |
[75] |
doi: 10.1007/s10482-020-01440-3 pmid: 32577920 |
[76] |
doi: 10.1111/jbg.12443 pmid: 31576623 |
[77] |
doi: 10.1186/s40168-019-0777-4 |
[78] |
doi: 10.1017/S1751731119002428 pmid: 31619307 |
[79] |
doi: 10.1038/s41598-018-37186-2 |
[80] |
doi: 10.1038/s41598-019-56847-4 |
[81] |
doi: 10.1186/1471-2164-16-1 |
[82] |
doi: 10.1002/gepi.21940 pmid: 26625855 |
[83] |
|
[84] |
doi: 10.1038/ng.3596 pmid: 27322545 |
[85] |
|
[86] |
pmid: 22711794 |
[87] |
doi: S0032-5791(20)30086-9 pmid: 32359570 |
[88] |
doi: 10.1038/s41398-017-0009-2 |
[1] | 王慧玲, 闫爱玲, 王晓玥, 刘振华, 任建成, 徐海英, 孙磊. 葡萄果粒质量相关性状全基因组关联分析[J]. 中国农业科学, 2023, 56(8): 1561-1573. |
[2] | 王脉, 董清峰, 高珅奥, 刘德政, 卢山, 乔朋放, 陈亮, 胡银岗. 小麦苗期根系性状的全基因组关联分析与优异位点挖掘[J]. 中国农业科学, 2023, 56(5): 801-820. |
[3] | 杨明路, 张海亮, 罗汉鹏, 黄锡霞, 张翰林, 章施施, 王炎, 刘林, 郭刚, 王雅春. 基于智能项圈系统荷斯坦牛发情相关指标的遗传参数估计及全基因组关联分析[J]. 中国农业科学, 2023, 56(5): 995-1006. |
[4] | 李周帅,董远,李婷,冯志前,段迎新,杨明羡,徐淑兔,张兴华,薛吉全. 基于杂交种群体的玉米产量及其配合力的全基因组关联分析[J]. 中国农业科学, 2022, 55(9): 1695-1709. |
[5] | 职蕾,者理,孙楠楠,杨阳,Dauren Serikbay,贾汉忠,胡银岗,陈亮. 小麦苗期铅耐受性的全基因组关联分析[J]. 中国农业科学, 2022, 55(6): 1064-1081. |
[6] | 逄洪波, 程露, 于茗兰, 陈强, 李玥莹, 吴隆坤, 王泽, 潘孝武, 郑晓明. 栽培稻芽期耐低温全基因组关联分析[J]. 中国农业科学, 2022, 55(21): 4091-4103. |
[7] | 谢晓宇, 王凯鸿, 秦晓晓, 王彩香, 史春辉, 宁新柱, 杨永林, 秦江鸿, 李朝周, 马麒, 宿俊吉. 陆地棉吐絮率的限制性两阶段多位点全基因组关联分析及候选基因预测[J]. 中国农业科学, 2022, 55(2): 248-264. |
[8] | 常立国,何坤辉,刘建超. 多环境下玉米保绿相关性状遗传位点的挖掘[J]. 中国农业科学, 2022, 55(16): 3071-3081. |
[9] | 李婷,董远,张君,冯志前,王亚鹏,郝引川,张兴华,薛吉全,徐淑兔. 玉米杂交种穗部性状的全基因组关联分析[J]. 中国农业科学, 2022, 55(13): 2485-2499. |
[10] | 王娟, 马晓梅, 周小凤, 王新, 田琴, 李成奇, 董承光. 棉花产量构成因素性状的全基因组关联分析[J]. 中国农业科学, 2022, 55(12): 2265-2277. |
[11] | 崔承齐, 刘艳阳, 江晓林, 孙知雨, 杜振伟, 武轲, 梅鸿献, 郑永战. 芝麻产量相关性状的多位点全基因组关联分析及候选基因预测[J]. 中国农业科学, 2022, 55(1): 219-232. |
[12] | 张鹏霞,周秀文,梁雪,郭营,赵岩,李斯深,孔凡美. 小麦苗期生物量及氮效率相关性状的全基因组关联分析[J]. 中国农业科学, 2021, 54(21): 4487-4499. |
[13] | 严勇亮,时晓磊,张金波,耿洪伟,肖菁,路子峰,倪中福,丛花. 春小麦籽粒主要品质性状的全基因组关联分析[J]. 中国农业科学, 2021, 54(19): 4033-4047. |
[14] | 张林林,智慧,汤沙,张仁梁,张伟,贾冠清,刁现民. 谷子抽穗时间基因SiTOC1的表达与单倍型变异分析[J]. 中国农业科学, 2021, 54(11): 2273-2286. |
[15] | 王继庆,任毅,时晓磊,王丽丽,张新忠,苏力坛·姑扎丽阿依,谢磊,耿洪伟. 小麦籽粒超氧化物歧化酶(SOD)活性全基因组关联分析[J]. 中国农业科学, 2021, 54(11): 2249-2260. |
|