





中国农业科学 ›› 2023, Vol. 56 ›› Issue (9): 1617-1632.doi: 10.3864/j.issn.0578-1752.2023.09.001
收稿日期:2022-12-04
接受日期:2023-03-02
出版日期:2023-05-01
发布日期:2023-05-10
通信作者:
赵毅强,E-mail:yiqiangz@cau.edu.cn
联系方式:
谭力治,E-mail:tanlizhi@cau.edu.cn。
基金资助:Received:2022-12-04
Accepted:2023-03-02
Published:2023-05-01
Online:2023-05-10
摘要:
全基因组关联分析(genome-wide association study,GWAS)是定位基因组中与性状显著关联的变异位点的有效方法。随着表型记录的完善、高通量基因型分型技术的发展,以及统计方法的改进,全基因组关联分析在人类疾病、动物植物遗传等领域得到了广泛的应用。假阳性是影响全基因组关联分析结果可靠性的重要因素之一。为了控制假阳性,除了校正P值,GWAS模型从最简单的方差分析(或用于质量性状的卡方检验)到加入固定效应协变量的普通线性模型(general linear model,GLM),再到加入随机效应的混合线性模型(mixed linear model,MLM)持续改进,控制了多种混杂因素导致的假阳性。将个体的遗传效应拟合为由基因组亲缘关系矩阵(genomic relationships matrix,GRM)定义的随机效应是目前常用的方法。由于MLM的参数估计大量消耗计算资源,研究人员不断尝试模型求解优化和GRM的构建优化(GRM的构建优化同时也提高了计算效率),最终将基于MLM计算的时间复杂度由O(MN3)逐步改进到O(MN),实现了计算速度与统计功效的飞跃。针对质量性状病例对照比失衡带来的假阳性问题,研究人员进一步对广义混合线性模型(generalized linear mixed model,GLMM)进行了校正。本文较全面地介绍了GWAS的基本原理和发展,着重阐述了GWAS中MLM模型的改进和优化细节,同时,列举了GWAS在农业中的应用,包括在植物、动物和微生物方面的研究成果,以及基于单倍型的GWAS应用。最后,从进一步提高GWAS统计功效和GWAS试验设计2个角度对GWAS未来的发展进行了展望。
谭力治, 赵毅强. 全基因组关联分析中混合模型的原理、优化与应用[J]. 中国农业科学, 2023, 56(9): 1617-1632.
TAN LiZhi, ZHAO YiQiang. Principle, Optimization and Application of Mixed Models in Genome- Wide Association Study[J]. Scientia Agricultura Sinica, 2023, 56(9): 1617-1632.
表1
GWAS中MLM的优化模型"
| 计算模型 Computational model | 功能与方法要点 Methodological highlights | 计算速度 Computational speed | 发表时间 Publication time | 参考文献 Reference | 来源网站 Resource |
|---|---|---|---|---|---|
| EMMA | 似然估计的优化对象为遗传方差和残差方差之比 Optimize the ratio of genetic variance to residual variance in ML or REML | 慢 Low | 2008 | [ | |
| CMLM | 对个体间的亲缘关系进行聚类,通过用组的相似性替代个体的相似性,提高计算速度同时提高检测功效 Cluster the kinship among individuals, replace individual similarity with group similarity to improve both computing speed and statistical power | 中 Intermediate | 2010 | [ | |
| EMMAX | 单次估计随机效应方差,转化混合线性模型为普通线性模型 Single estimation of variance of random effects, transform mixed linear model into an ordinary linear model | 中 Intermediate | 2010 | [ | |
| FaST-LMM | 通过对随机效应矩阵的特征分解去掉相关性,将混合线性模型转化为包括目标标记效应的普通线性模型 Transform mixed linear model into an ordinary linear model with by performing spectral decomposition of the random effects matrix to remove correlations | 中/快(n<m) Intermediate/fast (n<m) | 2011 | [ | |
| GEMMA | 通过优化矩阵运算和迭代算法,加速标记效应的精确估计 Accelerate the exact estimation of marker effects by optimizing algorithms of matrix operations and iterative algorithm | 中 Intermediate | 2012 | [ | |
| GRAMMAR -Gamma | 对表型残差和GRAMMAR-Gamma因子进行估计并优化。对表型残差和基因型之间的关联进行得分检验并校正统计量 Estimate and optimize phenotypic residuals and GRAMMAR-Gamma factors. Implement score-based association test and corrections for the statistic | 快 Fast | 2012 | [ | |
| MLMM | 将多个相关标记作为固定效应拟合到MLM中,以逐步回归的方式压缩由随机效应解释的方差,实现随机效应的消除 Include significant markers in the MLM as fixed covariates, splitting the variance explained by random effects by forward-backward stepwise approach to eliminate random effects | 中 Intermediate | 2012 | [ | |
| SUPER | 使用区间内最显著的标记并剔除与待测标记连锁的标记后,对剩余标记构建性状特异的亲缘矩阵 Use the most significant markers to represent each bin and exclude markers that are in LD to the testing markers, construct a complementary trait specific kinship with remaining markers. | 中 Intermediate | 2014 | [ | |
| BOLT-LMM | 计算近似表型残差,使用贝叶斯模型与经典关联方法结合的回顾性得分统计量检验残差与检测标记间的关联 Compute approximate phenotypic residuals and tests the residuals for association with candidate markers via a retrospective score statistic that integrate Bayesian modeling and frequentist association testing | 很快 Very fast | 2015 | [ | |
| FarmCPU | 独立随机效应模型筛选位点,独立的固定效应验证位点,两者交替使用直到没有新的候选标记进入到模型中 Markers are estimated by REM and tested by FEM independently, and both methods are used iteratively until no change on new candidate markers | 快 Fast | 2016 | [ | |
| BLINK | 使用贝叶斯信息标准替代随机效应中的REML估计,使用LD信息挑选候选位点,不再使用混合线性模型 Replace REML with BIC in estimating random effects and select candidate markers by LD, the mixed linear model is no longer used | 快 Fast | 2018 | [ | |
| FastGWA | 基于亲缘关系矩阵稀疏化和网格搜索的REML算法的计算优化 Computational optimization of REML algorithm based on sparse GRM and grid search | 极快 Extremely fast | 2019 | [ |
表2
GWAS中GLMM的优化模型"
| 计算模型 Computational model | 功能与方法要点 Methodological highlights | 计算速度 Computational speed | 发表时间 Publication time | 参考文献 Reference | 来源网站 Resource |
|---|---|---|---|---|---|
| GMMAT | 使用PQL与AI-REML对零模型进行参数估计,保留参数并 使用得分检验所有标记 Use PQL and AI-REML to estimate parameters of null model, retaining parameters to perform the score test for all markers | 中 Intermediate | 2016 | [ | |
| SAIGE | PCG代替矩阵特征分解,使用SPA解决病例对照比失衡 Replace matrix Eigen decomposition with PCG and use SPA to calibrate unbalanced case-control ratio | 很快 Very fast | 2018 | [ | |
| FastGWA- GLMM | 基于亲缘关系矩阵稀疏化和网格搜索的REML算法的计算优化 Computational optimization of REML algorithm based on sparse GRM and grid search | 极快 Extremely fast | 2021 | [ | |
| POLMM | 可分析有序分类变量,使用PCG或稀疏矩阵加速矩阵运算,通 过SPA校准P值 Analyze ordinal categorical data, use PCG or sparse GRM to accelerate matrix operations and P-values adjusted by SPA | 很快 Very fast | 2021 | [ |
| [1] |
doi: 10.1038/ng1090 |
| [2] |
doi: 10.1016/j.ajhg.2011.11.029 |
| [3] |
doi: 10.1016/j.ajhg.2017.06.005 |
| [4] |
doi: 10.1038/ng1702 pmid: 16380716 |
| [5] |
doi: 10.1038/nmeth.1681 pmid: 21892150 |
| [6] |
doi: 10.1038/ng.3190 |
| [7] |
doi: 10.1038/s41588-019-0530-8 pmid: 31768069 |
| [8] |
卜李那, 赵毅强. 全基因组关联分析及其扩展方法的研究进展. 农业生物技术学报, 2019, 27(1): 150-158.
|
|
|
|
| [9] |
doi: 10.1016/S0140-6736(03)12520-2 |
| [10] |
doi: 10.1111/j.0006-341x.1999.00997.x pmid: 11315092 |
| [11] |
doi: 10.1038/ng1847 pmid: 16862161 |
| [12] |
doi: 10.1038/nrg3706 pmid: 24739678 |
| [13] |
doi: 10.1002/gepi.20430 pmid: 19434714 |
| [14] |
|
| [15] |
|
| [16] |
doi: S1674-2052(16)30308-2 pmid: 28039028 |
| [17] |
温阳俊, 冯建英, 张瑾. 多位点关联分析方法学的研究进展. 南京农业大学学报, 2022, 45(1): 1-10.
|
|
|
|
| [18] |
doi: 10.1534/genetics.107.080101 pmid: 18385116 |
| [19] |
doi: 10.1038/ng.548 pmid: 20208533 |
| [20] |
doi: 10.1038/ng.546 pmid: 20208535 |
| [21] |
doi: 10.1186/1741-7007-12-1 |
| [22] |
doi: 10.1534/genetics.107.075614 pmid: 17660554 |
| [23] |
doi: 10.1038/ng.2410 pmid: 22983301 |
| [24] |
doi: 10.1038/ng.2310 pmid: 22706312 |
| [25] |
doi: 10.1038/nmeth.2037 pmid: 22669648 |
| [26] |
|
| [27] |
doi: 10.1038/ng.3211 |
| [28] |
doi: 10.1038/ng.2314 pmid: 22706313 |
| [29] |
|
| [30] |
doi: 10.1186/s12864-021-08243-4 |
| [31] |
doi: 10.1016/j.ajhg.2010.11.011 pmid: 21167468 |
| [32] |
doi: 10.1016/j.ajhg.2016.02.012 |
| [33] |
doi: 10.1038/s41588-018-0184-y pmid: 30104761 |
| [34] |
doi: 10.1038/s41588-021-00954-4 pmid: 34737426 |
| [35] |
doi: 10.1016/j.ajhg.2021.03.019 |
| [36] |
doi: 10.1017/S0016672300004857 |
| [37] |
doi: 10.1038/nature08800 |
| [38] |
|
| [39] |
doi: 10.1038/ng.695 pmid: 20972439 |
| [40] |
doi: 10.1038/ng.1018 |
| [41] |
doi: 10.1186/1471-2164-15-1 |
| [42] |
doi: 10.1016/j.plantsci.2012.08.004 |
| [43] |
doi: 10.1038/ng.2484 pmid: 23242369 |
| [44] |
doi: 10.1111/tpj.2016.86.issue-5 |
| [45] |
doi: 10.1105/tpc.18.00930 pmid: 31239390 |
| [46] |
|
| [47] |
|
| [48] |
|
| [49] |
doi: 10.1186/s12863-016-0351-z |
| [50] |
|
| [51] |
doi: 10.1186/s12711-020-00598-8 |
| [52] |
|
| [53] |
|
| [54] |
|
| [55] |
doi: 10.1038/s42003-019-0734-6 |
| [56] |
|
| [57] |
doi: 10.1186/s12864-020-07350-y |
| [58] |
doi: 10.1186/s12864-021-08243-4 |
| [59] |
张统雨, 朱才业, 杜立新, 赵福平. 羊重要性状全基因组关联分析研究进展. 遗传, 2017, 39(06): 491-500.
|
|
|
|
| [60] |
|
| [61] |
doi: 10.1111/age.12464 pmid: 27427781 |
| [62] |
|
| [63] |
doi: 10.1016/j.aquaculture.2018.06.014 |
| [64] |
doi: 10.1038/s41598-016-0001-8 |
| [65] |
doi: 10.1007/s10126-020-10007-2 pmid: 33196953 |
| [66] |
doi: 10.1111/nph.2017.213.issue-2 |
| [67] |
doi: 10.1093/plcell/koab146 |
| [68] |
|
| [69] |
doi: 10.1105/tpc.16.00931 pmid: 28320784 |
| [70] |
|
| [71] |
doi: 10.1111/pbi.v21.5 |
| [72] |
doi: 10.1111/jipb.13226 |
| [73] |
doi: 10.1038/s41598-018-37186-2 |
| [74] |
doi: 10.1038/s41396-021-00993-z |
| [75] |
doi: 10.1007/s10482-020-01440-3 pmid: 32577920 |
| [76] |
doi: 10.1111/jbg.12443 pmid: 31576623 |
| [77] |
doi: 10.1186/s40168-019-0777-4 |
| [78] |
doi: 10.1017/S1751731119002428 pmid: 31619307 |
| [79] |
doi: 10.1038/s41598-018-37186-2 |
| [80] |
doi: 10.1038/s41598-019-56847-4 |
| [81] |
doi: 10.1186/1471-2164-16-1 |
| [82] |
doi: 10.1002/gepi.21940 pmid: 26625855 |
| [83] |
|
| [84] |
doi: 10.1038/ng.3596 pmid: 27322545 |
| [85] |
|
| [86] |
pmid: 22711794 |
| [87] |
doi: S0032-5791(20)30086-9 pmid: 32359570 |
| [88] |
doi: 10.1038/s41398-017-0009-2 |
| [1] | 叶美金, 吴雷, Lohani Md Nahibuzzaman, 尹丽, 胡欣荣, 刘亚西, 蒋云峰, 陈国跃, 蒲至恩, 李阳, 李婷, 邹亚亚, 吴佳怡, 马建. 基于GWAS的中国地方小麦成熟胚大小位点的鉴定及其遗传效应解析[J]. 中国农业科学, 2026, 59(6): 1157-1171. |
| [2] | 杨丽娟, 陈丝雨, 赵薇, 朱玲, 郭磊, 马丽娜, 马瑞敏, 张娟. 全基因组重测序揭示静原鸡羽色的遗传机制[J]. 中国农业科学, 2026, 59(6): 1348-1360. |
| [3] | 王勇胜, 牛丽, 王长杰, 马立花, 廉潇潇, 孟亚雄, 马小乐, 姚立蓉, 张宏, 杨轲, 李葆春, 王化俊, 司二静, 汪军成. 冬小麦千粒重的全基因组关联分析及候选基因预测[J]. 中国农业科学, 2026, 59(3): 499-514. |
| [4] | 李云丽, 刁邓超, 刘雅睿, 孙玉晨, 孟祥宇, 邬陈芳, 汪妤, 吴建辉, 李春莲, 曾庆东, 韩德俊, 郑炜君. 小麦苗期耐热性全基因组关联分析[J]. 中国农业科学, 2025, 58(9): 1663-1683. |
| [5] | 周广飞, 马亮, 马璐, 张舒钰, 章慧敏, 宋旭东, 张振良, 陆虎华, 郝德荣, 冒宇翔, 薛林, 陈国清. 玉米苞叶性状全基因组关联分析[J]. 中国农业科学, 2025, 58(3): 431-442. |
| [6] | 武书羽, 衡燕芳, 于太飞, 王世佳, 于思佳, 李园, 胡正, 张辉, 孙现军, 黎亮, 姜奇彦. 玉米自然群体苗期耐盐性鉴定及耐盐相关基因分析[J]. 中国农业科学, 2025, 58(20): 4085-4099. |
| [7] | 向爱慧, 白荣基, 郝宇琼, 赵佳佳, 武棒棒, 李晓华, 郑兴卫, 关攀锋, 郑军. 山西小麦矮秆基因的鉴定及株高遗传位点挖掘[J]. 中国农业科学, 2025, 58(17): 3372-3388. |
| [8] | 郑敏华, 陈洛, 邢甲乐, 谢月兰, 姜先芽, 聂帅, 蔡甫格, 巫浩翔, 陆展华, 孙伟, 霍兴, 白嵩, 赵均良, 杨武. 华南籼稻稻瘟病抗性QTL鉴定与候选基因挖掘[J]. 中国农业科学, 2025, 58(14): 2707-2719. |
| [9] | 李宁, 高丽锋, 黄鑫, 史华伟, 杨进文, 史雨刚, 陈明, 贾继增, 孙黛珍. 耐低氮小麦品种的筛选及耐低氮指数的全基因组关联分析[J]. 中国农业科学, 2025, 58(13): 2487-2503. |
| [10] | 史顺宇, 杨涛, 庞博, 李静, 林轶峰, 王正瑞, 傅林成, 扎尔加玛丽·阿不都别克, 高文伟, 吴鹏昊. 海岛棉叶绿素含量的全基因组关联分析及候选基因预测[J]. 中国农业科学, 2025, 58(10): 1878-1895. |
| [11] | 张颖, 石婷瑞, 曹瑞, 潘文秋, 宋卫宁, 王利, 聂小军. ICARDA引进-小麦苗期抗旱性的全基因组关联分析[J]. 中国农业科学, 2024, 57(9): 1658-1673. |
| [12] | 赵真坚, 王凯, 陈栋, 申琦, 余杨, 崔晟頔, 王俊戈, 陈子旸, 禹世欣, 陈佳苗, 王翔枫, 唐国庆. 基因组和DNA甲基化组联合分析筛选猪肉质性状关键基因[J]. 中国农业科学, 2024, 57(7): 1394-1406. |
| [13] | 郭军, 邵丹, 窦套存, 马猛, 卢建, 胡玉萍, 王星果, 王强, 李永峰, 郭伟, 童海兵, 曲亮. 鸡产蛋期剩余采食量的随机回归分析及遗传标记筛选[J]. 中国农业科学, 2024, 57(22): 4568-4577. |
| [14] | 郭军, 曲亮, 邵丹, 马猛, 窦套存, 卢建, 胡玉萍, 王星果, 王强, 李永峰, 郭伟, 童海兵. 基于一步法全基因组关联分析解析蛋黄比率遗传结构[J]. 中国农业科学, 2024, 57(21): 4356-4366. |
| [15] | 白冰楠, 乔丹, 葛群, 栾玉娟, 刘小芳, 卢全伟, 牛皓, 龚举武, 巩万奎, ELAMEER ELSAMMAN, 闫浩亮, 李俊文, 刘爱英, 石玉真, 王海泽, 袁有禄. 陆地棉棉籽相关性状的QTN挖掘及候选基因筛选[J]. 中国农业科学, 2024, 57(15): 2901-2913. |
|
||
