【目的】系统了解芝麻发育及种子形成转录组特征,丰富芝麻转录组数据信息。【方法】选用6份芝麻样品(5个不同芝麻品种的完整植株、1份不同发育阶段的芝麻籽粒),构建转录组测序文库并进行Illumina RNA-seq双端测序及生物信息学分析。【结果】共获得原始数据12.69 Gb,有效数据8.80 Gb。通过de novo拼接获得了长度大于100 bp的转录物26 837条(
http://www. ncbi.nlm.nih.gov/genbank/TSA.html,登录号:JP631635—JP668414);转录物总长度18.35 Mb,平均长度683 bp,N50长度1 006 bp。转录物注释结果显示,25 331条转录物序列具有同源比对信息;1 506条转录物序列无匹配(no hits)序列信息,可能为芝麻特有的基因序列。采用COG、GO功能分类工具可将已注释转录物序列划分为24个或42个功能类别,共涉及物质及能量代谢、信号传导、转录调控及防卫反应等诸多生理生化过程。通过比较不同材料间转录物序列及表达水平,初步确定1 277条序列在种子形成过程中表达量下调10倍以上,990条序列仅在芝麻植株中表达而未在籽粒中表达;660条序列在种子形成过程中表达量上调10倍以上,296条序列可能与种子形成特异相关。【结论】利用高通量测序技术对芝麻野生种和不同栽培种现蕾期植株以及种子形成过程的转录组进行研究,揭示了芝麻发育转录组的整体表达特征,在得到大量芝麻转录组unigene序列的同时,获得了一批在芝麻生长发育及籽粒形成过程中有重要功能的基因序列。为深入开展芝麻生长发育、籽粒发育相关基因功能及调控以及芝麻分子标记开发等研究提供了丰富的数据资源。