小麦数据资源
为支撑小麦基因组多样性分析及重要农艺性状相关等位基因的挖掘工作,项目系统整合了来自国际权威公共数据库(如 NCBI GenBank、dbSNP、SRA、IWGSC)以及近十年发表的高水平科研文献中的小麦基因数据资源。所有数据经过标准化字段注释、交叉比对去重与质量控制流程,确保数据的一致性与可用性。构建的数据集涵盖全基因组重测序、基因型-表型关联、参考基因组、转录组及功能验证数据,为后续群体遗传分析、GWAS、基因组预测建模及功能基因挖掘提供了坚实的基础数据支撑。
1. 小麦图像库
| 名称 | 类别 | 数据量 | 简介 | 应用场景 | 操作 |
|---|---|---|---|---|---|
| 小麦病虫害图像库 | 表型-病虫害 | 近 7,000 张图像(12 类病害) | 包含根冠腐烂、叶锈病、白粉病等 12 类国内常见病害特写图,质量经标签验证。 | 病害识别、组学样本筛选、病虫害预警与田间管理 | |
|
第 1 页
|
|||||
| 小麦麦穗图像库 | 表型-穗部结构 | 1,691 张图像(含详细标注) | 麦穗形态图像库,标注信息可与组学数据对齐。 | 穗型性状关联分析、育种目标筛选 | |
|
第 1 页
|
|||||
| 全球小麦图像库 | 表型-物种多样性 | 19,322 张图像(野生 + 驯化小麦) | 覆盖野生小麦与驯化小麦的全球分布图像,支持 AI 识别。 | 物种发现、遗传多样性研究 | |
|
第 1 页
|
|||||
2. 核心基因数据集
| 名称 | 类别 | 数据量 | 简介 | 应用场景 |
|---|---|---|---|---|
| 355 份普通小麦全基因组重测序 | 基因组-重测序 | 355 份种质(10× 覆盖深度) | 中国主要麦区代表性材料,关联产量性状(单株产量、千粒重等)。 | 优异等位基因挖掘、GWAS 分析、高产育种设计 |
| 145 个优良小麦品种重测序 | 基因组-重测序 | 145 个主推品种 | 聚焦遗传多样性评估与现代育种选择信号,含育种背景记录。 | 产量性状遗传解析、优异单倍型追踪 |
| 地方品种与现代品种全基因组测序 | 基因组-重测序 | 827 份地方品种 + 208 份现代品种 | 全球生态区种质,关联产量、氮肥利用效率、条锈病抗性等性状。 | 驯化选择足迹分析、等位变异演化研究 |
| 墨西哥与伊朗地方品种多环境数据 | 基因型-表型关联 | 8,416 份(墨西哥)+ 2,403 份(伊朗) | 三种环境(最佳 / 干旱 / 高温)下的株高、粒长、抽穗期等表型数据。 | 基因型-环境互作(G×E)分析、预测育种模型验证 |
| 中国春参考基因组(v2.1) | 基因组-参考序列 | 15 Gb(约 107,000 个基因) | IWGSC 发布的染色体级别六倍体基因组,当前研究“黄金标准”。 | 序列比对、变异检测、比较基因组学基准 |
3. 蛋白质结构数据集
| 名称 | 类别 | 数据量 | 简介 | 应用场景 |
|---|---|---|---|---|
| Wheat Proteome Database | 蛋白质组-表达谱 | 24 种器官 / 发育阶段 | 整合根、茎、叶、穗、籽粒等组织的蛋白质组数据,关联 RNA-Seq 与代谢网络。 | 组织特异性表达分析、靶向蛋白质组学研究 |
| UniProt/NCBI 小麦蛋白序列 | 蛋白质组-序列 | 完整 FASTA 集合(Taxonomy 筛选) | 收录基因组注释、文献报道及实验验证的高质量蛋白条目。 | 序列比对、功能注释、进化分析 |
| PDB/PDB70 蛋白结构库 | 蛋白质组-三维结构 | >1 亿结构(PDB70 聚类去冗余) | 实验解析(X 射线 / NMR / 冷冻电镜)的大分子结构,支持同源建模。 | AlphaFold2 结构预测模板、功能机制解析 |
| ColabFoldDB 序列数据库 | 蛋白质组-多序列比对 | 2.09 亿代表性序列 + 7.38 亿成员序列 | 整合宏基因组(BFD/MGnify)的深度聚类数据库,提升远缘同源识别能力。 | AlphaFold2 多序列比对(MSA)优化、低同源性蛋白结构预测 |
4. 其他基因数据集
| 名称 | 类别 | 简介 | 应用场景 |
|---|---|---|---|
| 耐 HPPD 抑制剂小麦多组学数据 | 功能基因组-抗逆 | 解析 OsHIS1 基因在小麦中的除草剂解毒机制。 | 抗除草剂小麦分子设计 |
| Pm57 抗白粉病基因原始数据 | 功能基因组-抗病 | 支持抗白粉病基因 Pm57 的克隆、定位及功能验证。 | 抗病分子标记开发、抗性机制研究 |
| 淹水胁迫根系转录组数据 | 转录组-非生物胁迫 | 研究厌氧呼吸、根系通气组织形成的调控基因。 | 耐涝性状基因挖掘 |
| 转基因小麦 RNA-seq 数据 | 转录组-转基因效应 | 评估外源基因插入对整体表达谱的非预期效应。 | 转基因事件安全性评价 |
| Yr9 抗病突变体 RNA-seq 数据 | 转录组-生物胁迫 | 解析 Yr9 基因在抗条锈病信号通路中的功能机制。 | 抗病基因功能验证、标记开发 |
| 根毛突变体 RNA-seq 数据 | 转录组-发育调控 | 挖掘根系形态建成关键基因,服务于抗旱与养分吸收改良。 | 根系构型遗传改良 |
| 幼苗胁迫响应转录组数据 | 转录组-多胁迫 | 覆盖早期生长调控网络及胁迫响应机制。 | 幼苗期抗逆性状解析 |
| TaDTG6-B 转基因 RNA-seq 数据 | 转录组-产量调控 | 揭示该基因在籽粒发育与产量形成中的作用。 | 高产分子育种靶点筛选 |
5. 其他图像数据集
| 名称 | 类别 | 简介 | 应用场景 |
|---|---|---|---|
| 小麦病害检测数据集 | 病害检测 | 本数据集包含2000张多源采集的小麦病害图像,涵盖4类目标(大麦黄矮病、健康叶片、叶锈病、白粉病) | 小麦病害智能识别 |
| 水稻病害检测数据集 | 病害检测 | 本数据集包含6715幅水稻病害图像,分为细菌性叶斑病、褐斑病、叶霉病三类。 | 水稻病害智能识别 |
| 玉米病害检测数据集 | 病害检测 | 本数据集包含1656张玉米叶片病虫害图像,涵盖多种常见玉米叶片病害类型,适用于叶片级病害识别模型训练与细粒度分类研究。 | 玉米病害智能识别 |
| 小麦病害数据集(DST1088) | 病害检测 | 本数据集包含7714张小麦病虫害图像,按526张测试集、6357张训练集、831张验证集划分,适用于病虫害智能识别模型训练与评估。 | 小麦病害智能识别 |
| 玉米叶片病害数据集(DST1105) | 病害检测 | 本数据集包含20973张玉米病虫害图像,按1382张测试集、18123张训练集、1568张验证集划分,适用于玉米病虫害智能识别模型训练与评估。 | 玉米叶片病虫害智能识别 |
| 102类农业害虫数据集 | 害虫识别 | 大规模农业害虫分类数据集,涵盖102类常见害虫图像。 | 害虫种类自动识别 |
| 粮虫图像检测数据集 | 害虫识别 | 本数据集包含500幅粮虫原始图像,涵盖玉米象、麦蛾、谷蠹、玉米螟等多种害虫及小麦、玉米、大米等多类型粮食背景。 | 粮仓虫害监测 |