中国农业科学 ›› 2023, Vol. 56 ›› Issue (18): 3682-3692.doi: 10.3864/j.issn.0578-1752.2023.18.015
收稿日期:
2022-09-17
接受日期:
2023-06-28
出版日期:
2023-09-16
发布日期:
2023-09-21
通信作者:
联系方式:
李棉燕,Tel:15305169095;E-mail:mianyanli@outlook.com。王立贤,E-mail:iaswlx@263.net。李棉燕和王立贤为同等贡献作者。
基金资助:
LI MianYan(), WANG LiXian(
), ZHAO FuPing(
)
Received:
2022-09-17
Accepted:
2023-06-28
Published:
2023-09-16
Online:
2023-09-21
摘要:
基因组选择是指利用覆盖在全基因组范围内的分子标记信息来估计个体育种值。利用基因组信息能够避免因系谱错误带来的诸多问题,提高选择准确性并缩短育种世代间隔。根据统计模型的不同,基因组选择方法可大致分为基于BLUP(best linear unbiased prediction, BLUP)理论的方法、基于贝叶斯理论的方法和其他方法。目前应用较多的是GBLUP及其改进方法ssGBLUP。准确性是基因组选择模型最常用的评价指标,用来衡量真实值和估计值之间的相似程度。影响准确性的因素可以从模型中体现,大致分为可控因素和不可控因素。传统基因组选择方法促进了动物育种的快速发展,但这些方法目前都面临着多群体、多组学和计算等诸多挑战,不能捕获基因组高维数据间的非线性关系。作为人工智能的一个分支,机器学习是最贴近生物掌握自然语言处理能力的一种方式。机器学习从数据中提取特征并自动总结规律,利用该规律与新数据进行预测。对于基因组信息,机器学习无需进行分布假设,且所有的标记信息都能够被考虑进模型当中。相比于传统的基因组选择方法,机器学习更容易捕获基因型之间、表型与环境之间的复杂关系。因此,机器学习在动物基因组选择中具有一定的优势。根据训练期间接受的监督数量和监督类型,机器学习可分为监督学习、无监督学习、半监督学习和强化学习等。它们的主要区别为输入的数据是否带有标签。目前在动物基因组选择中应用的机器学习方法均为监督学习。监督学习可以处理分类和回归问题,需要向算法提供有标签的数据和所需的输出。近年来机器学习在动物基因组选择中的应用不断增多,特别是在奶牛和肉牛中发展较快。本文将机器学习算法划分为单个算法、集成算法和深度学习3类,综述其在动物基因组选择中的研究进展。单个算法中最常用的是KRR和SVR,两者都是通过核技巧来学习非线性函数,在原始空间中将数据映射到更高维的核空间。目前常用的核函数有线性核、余弦核、高斯核和多项式核等。深度学习又称为深度神经网络,由连接神经元的多个层组成。集成学习算法则是指将不同的学习器融合在一起进而得到一个较强的监督模型。近十年来,有关机器学习和深度学习的相关文献呈现了指数型的增长,在基因组选择方面的应用也在逐渐增多。尽管机器学习在某些方面存在明显的优势,但其在估计动物复杂性状基因组育种值时仍面临诸多挑战。部分模型的可解释性低,不利于数据、参数和特征的调整。数据的异质性、稀疏性和异常值也会造成机器学习的数据噪声。还有过拟合、大标记小样本和调参等问题。因此,在训练模型时需要谨慎处理每一个步骤。文章介绍了基因组选择传统方法及其面临的问题、机器学习的概念和分类,探讨了机器学习在动物基因组选择中的研究进展及目前存在的挑战,并给出了一个案例和一些应用的建议,以期为机器学习在动物基因组选择当中的应用提供一定参考。
李棉燕, 王立贤, 赵福平. 机器学习在动物基因组选择中的研究进展[J]. 中国农业科学, 2023, 56(18): 3682-3692.
LI MianYan, WANG LiXian, ZHAO FuPing. Research Progress on Machine Learning for Genomic Selection in Animals[J]. Scientia Agricultura Sinica, 2023, 56(18): 3682-3692.
表1
机器学习在动物基因组选择中的应用"
年份 Year | 数据集 Dataset | 传统方法 Traditional methods | 机器学习算法 Machine learning algorithms | 参考文献 References |
---|---|---|---|---|
2008 | 猪 Pig | 贝叶斯回归、BLUP | 核回归、RKHS回归 | [ |
2011 | 合成数据集 Synthetic dataset | BayesLASSO | SVR | [ |
2012 | 奶牛 Dairy cattle | BayesLASSO | RKHS回归、RBFNN | [ |
2013 | 模拟数据集 Simulated dataset | GBLUP、BayesR、BayesLASSO | RKHS回归、RBFNN、BRNN | [ |
2014 | 猪 Pig | LRC | KRRC、KNN、KLRC | [ |
2016 | 奶牛 Dairy cattle | GBLUP | RF | [ |
2016 | 奶牛、马、玉米 Dairy cattle、horse、corn | GBLUP | RF、SVM、Boosting | [ |
2018 | 奶牛、猪、松树 Dairy cattle、pig、pine | GBLUP、BayesLASSO | ABNN | [ |
2020 | 内洛尔牛 Nellore cattle | GBLUP、BayesB | MLP、CNN、RF、Gradient Boosting | [ |
2020 | 肉牛 Beef cattle | GBLUP、BSLMM、BayesR | KAML | [ |
2021 | 肉牛、奶牛、松树 Beef cattle、cattle、pine | GBLUP、BayesB | SVR、KCRR | [ |
2021 | 猪 Pig | GBLUP、BayesLASSO | SVR、BRNN、RF | [ |
2021 | 猪 Pig | GBLUP | SVR、KRR、RF、Adaboost.RT | [ |
2021 | 合成数据集 Synthetic dataset | GBLUP、BayesB | SELF | [ |
2022 | 奶牛 Dairy cattle | GBLUP、ssGBLUP、BayesHE | SVR、KRR、RF、Adaboost.R2 | [ |
表2
不同方法对奶牛3个性状的基因组估计准确性和均方误比较"
性状 Trait | 评价指标 Evaluation indicators | BayesB | GBLUP | KRR | SVR |
---|---|---|---|---|---|
产奶量 MKG | corr | 0.780 (0.009) | 0.769 (0.008) | 0.776 (0.010) | 0.778 (0.013) |
mse | 0.392 (0.016) | 0.409 (0.017) | 0.397 (0.016) | 0.395 (0.016) | |
乳脂百分比 FPRO | corr | 0.860 (0.006) | 0.813 (0.008) | 0.813 (0.008) | 0.809 (0.012) |
mse | 0.262 (0.010) | 0.340 (0.011) | 0.343 (0.014) | 0.351 (0.015) | |
体细胞评分 SCS | corr | 0.729 (0.012) | 0.726 (0.012) | 0.742 (0.013) | 0.740 (0.010) |
mse | 0.469 (0.019) | 0.474 (0.019) | 0.450 (0.018) | 0.453 (0.023) |
[1] |
doi: 10.1093/genetics/157.4.1819 pmid: 11290733 |
[2] |
doi: 10.1007/s10709-008-9308-0 pmid: 18704696 |
[3] |
doi: 10.3168/jds.2017-12879 |
[4] |
doi: 10.1186/1471-2105-12-186 pmid: 21605355 |
[5] |
doi: 10.1038/s41437-022-00539-9 pmid: 35508540 |
[6] |
doi: 10.1016/j.animal.2020.100006 |
[7] |
doi: 10.1186/s12864-020-06921-3 pmid: 32762654 |
[8] |
|
[9] |
doi: 10.1126/science.aaa8415 pmid: 26185243 |
[10] |
|
[11] |
doi: 10.1080/0886022X.2022.2036619 |
[12] |
doi: 10.1016/j.ijmedinf.2022.104835 |
[13] |
doi: 10.1161/HYPERTENSIONAHA.121.18794 |
[14] |
doi: 10.1016/j.biotechadv.2021.107739 |
[15] |
doi: 10.1111/tpj.v111.6 |
[16] |
doi: 10.1186/s13007-022-00918-7 pmid: 35690826 |
[17] |
doi: 10.3389/fgene.2022.916462 |
[18] |
doi: 10.1007/s11434-011-4632-7 |
[19] |
doi: 10.1534/genetics.110.116855 pmid: 20407128 |
[20] |
doi: 10.1371/journal.pone.0213873 |
[21] |
|
[22] |
doi: 10.3389/fgene.2018.00730 pmid: 30693018 |
[23] |
doi: 10.1147/rd.33.0210 |
[24] |
doi: 10.1093/bib/bbab132 |
[25] |
|
[26] |
|
[27] |
doi: 10.1534/genetics.107.084293 |
[28] |
doi: 10.1007/s00122-011-1648-y |
[29] |
doi: 10.1007/s00122-012-1868-9 |
[30] |
doi: 10.1017/S1751731113001389 pmid: 23880322 |
[31] |
|
[32] |
doi: S0022-0302(16)30382-4 pmid: 27344385 |
[33] |
doi: 10.1071/AN15538 |
[34] |
doi: 10.1186/s12711-018-0374-1 |
[35] |
doi: 10.1186/s12711-020-00531-z |
[36] |
doi: 10.1186/s13059-020-02052-w pmid: 32552725 |
[37] |
doi: 10.1111/age.13021 pmid: 33191532 |
[38] |
doi: 10.3389/fgene.2021.600040 |
[39] |
doi: 10.1186/s40104-022-00708-0 pmid: 35578371 |
[40] |
|
[41] |
|
[42] |
doi: 10.1007/s00521-013-1435-6 |
[43] |
doi: 10.1186/1297-9686-41-56 |
[44] |
doi: 10.1053/j.semnuclmed.2022.02.003 pmid: 35339259 |
[45] |
doi: 10.1038/s41576-022-00532-2 |
[46] |
doi: 10.3389/fpls.2019.00621 pmid: 31191564 |
[47] |
doi: 10.1534/g3.118.200998 |
[48] |
|
[49] |
doi: 10.3390/genes10070553 |
[50] |
doi: 10.1162/neco.2006.18.7.1678 |
[51] |
|
[52] |
doi: 10.1038/s42003-020-01233-4 |
[53] |
doi: 10.1371/journal.pone.0005350 |
[54] |
|
[55] |
|
[56] |
|
[57] |
|
[58] |
|
[59] |
|
[60] |
|
[61] |
doi: 10.1371/journal.pone.0094137 |
[62] |
doi: S1532-0464(15)00187-2 pmid: 26385375 |
[63] |
doi: 10.1186/s12911-017-0566-6 pmid: 29258510 |
[64] |
doi: 10.1186/s12911-019-1004-8 pmid: 31864346 |
[65] |
|
[66] |
|
[67] |
doi: 10.1016/j.artmed.2020.101822 |
[68] |
|
[1] | 曹珂, 陈昌文, 杨选文, 别航灵, 王力荣. 桃果实单果重及可溶性固形物含量的全基因组选择分析[J]. 中国农业科学, 2023, 56(5): 951-963. |
[2] | 郭燕, 井宇航, 王来刚, 黄竞毅, 贺佳, 冯伟, 郑国清. 基于无人机影像特征的冬小麦植株氮含量预测及模型迁移能力分析[J]. 中国农业科学, 2023, 56(5): 850-865. |
[3] | 冯子恒,宋莉,张少华,井宇航,段剑钊,贺利,尹飞,冯伟. 基于无人机多光谱和热红外影像信息融合的小麦白粉病监测[J]. 中国农业科学, 2022, 55(5): 890-906. |
[4] | 周隽,林清,邵宝全,任端阳,李加琪,张哲,张豪. 猪群体一步法基因组选择应用效果评估[J]. 中国农业科学, 2022, 55(15): 3042-3049. |
[5] | 朱墨,郑麦青,崔焕先,赵桂苹,刘杨. 基于GBLUP和BayesB方法对肉鸡屠宰性状基因组预测准确性的比较[J]. 中国农业科学, 2021, 54(23): 5125-5131. |
[6] | 唐振双,殷东,尹立林,马云龙,项韬,朱猛进,余梅,刘小磊,李新云,邱小田,赵书红. 猪基因组选择“两步走”策略的计算机模拟评估[J]. 中国农业科学, 2021, 54(21): 4677-4684. |
[7] | 周萌,韩晓旭,郑恒彪,程涛,田永超,朱艳,曹卫星,姚霞. 基于参数化和非参数化法的棉花生物量高光谱遥感估算[J]. 中国农业科学, 2021, 54(20): 4299-4311. |
[8] | 孙擎,赵艳霞,程晋昕,曾厅余,张祎. 基于多种算法的果树果实生长模型研究—以云南昭通苹果为例[J]. 中国农业科学, 2021, 54(17): 3737-3751. |
[9] | 费帅鹏,禹小龙,兰铭,李雷,夏先春,何中虎,肖永贵. 基于高光谱遥感和集成学习方法的冬小麦产量估测研究[J]. 中国农业科学, 2021, 54(16): 3417-3427. |
[10] | 张振华,丁建丽,王敬哲,葛翔宇,王瑾杰,田美玲,赵启东. 集成土壤-环境关系与机器学习的干旱区土壤属性数字制图[J]. 中国农业科学, 2020, 53(3): 563-573. |
[11] | 刘慧芳,贺正,贾彪,刘志,李振洲,付江鹏,慕瑞瑞,康建宏. 基于机器学习的滴灌玉米光合响应特征[J]. 中国农业科学, 2019, 52(17): 2939-2950. |
[12] | 张金鑫, 唐韶青, 宋海亮, 高虹, 蒋尧, 江一凡, 弥世荣, 孟庆利, 于凡, 肖炜, 云鹏, 张勤, 丁向东. 北京地区大白猪基因组联合育种研究[J]. 中国农业科学, 2019, 52(12): 2161-2170. |
[13] | 王飞,杨胜天,魏阳,杨晓东,丁建丽. 基于RF和SGT算法的子区优先建模对绿洲尺度 土壤盐度预测精度的影响[J]. 中国农业科学, 2018, 51(24): 4659-4676. |
[14] | 刘庆飞,张宏立,王艳玲. 基于深度可分离卷积的实时农业图像逐像素分类研究[J]. 中国农业科学, 2018, 51(19): 3673-3682. |
[15] | 朱波,王延晖,牛红,陈燕,张路培,高会江,高雪,李俊雅,孙少华. 畜禽基因组选择中贝叶斯方法及其参数优化策略[J]. 中国农业科学, 2014, 47(22): 4495-4505. |
|