大米杂质检测数据集(YOLO格式)

张开发
2026/4/13 22:52:31 15 分钟阅读

分享文章

大米杂质检测数据集(YOLO格式)
数据集概述本数据集面向大米生产线中的异物杂质自动检测任务包含5类常见混入杂质的目标检测标注适用于基于深度学习的目标检测模型训练与评估如YOLO系列、Faster R-CNN等主流框架。数据集同时提供VOC格式Pascal VOC XML与YOLO格式归一化中心坐标TXT两套标注可直接用于不同框架的训练流程无需二次转换。目录结构data/ ├── JPEGImages/ # 原始图片.jpg共1007张 ├── Annotations/ # VOC格式标注文件.xml共1007个 ├── labels/ # YOLO格式标注文件.txt共1007个 │ └── classes.txt # 类别名称列表YOLO类别索引以此文件为准 └── README.md基本统计项目数值图片总数1007 张标注文件总数1007 × 2XML TXT图片分辨率480 × 480 像素RGB3通道标注类别数5 类标注框总数4164 个是否含数据增强否标注形状矩形边界框Bounding Box类别说明以下为5个检测类别及其标注统计YOLO格式中的类别ID以labels/classes.txt文件中的顺序为准。YOLO ID类别名中文含义标注框数占比0clod土块99323.8%1corn玉米粒117328.2%2screw螺丝48311.6%3stone石块3117.5%4wheat小麦粒120428.9%其中wheat小麦粒与corn玉米粒数量最多stone石块样本量相对稀少训练时建议关注类别不平衡问题可考虑对stone、screw适度过采样或调整损失权重。标注格式说明VOC格式Annotations/*.xml遵循Pascal VOC标准核心字段如下annotation filenamexyxr_images_dami999.jpg/filename size width480/width height480/height depth3/depth /size object namestone/name !-- 类别名 -- difficult0/difficult !-- 0正常样本1困难样本 -- bndbox xmin46/xmin !-- 左上角x -- ymin266/ymin !-- 左上角y -- xmax88/xmax !-- 右下角x -- ymax306/ymax !-- 右下角y -- /bndbox /object /annotation所有样本的difficult字段均为0即无困难样本标记。YOLO格式labels/*.txt每行对应一个目标格式为class_id x_center y_center width height坐标均为相对图片宽高的归一化值范围0~1中心点坐标宽高表示。示例3 0.139583 0.595833 0.087500 0.083333 0 0.364583 0.286458 0.137500 0.143750 4 0.768750 0.837500 0.091667 0.070833类别ID与labels/classes.txt中的行号从0开始严格对应与VOC格式XML中的类别名顺序无关使用时请以classes.txt为准。图片命名规则所有图片、XML和TXT文件保持同名仅后缀不同命名规则为xyxr_images_dami{编号}.jpg / .xml / .txt编号范围从1到1007三类文件一一对应可直接按文件名匹配图片与标注。使用建议本数据集未预先划分训练集/验证集/测试集使用时建议按8:1:1或7:2:1的比例自行随机划分划分时注意保持各类别的比例均衡。由于stone类样本仅311个建议在split时对其分布做单独验证确保测试集中有足够的石块样本用于评估。数据集本身未做任何增强处理若训练效果不理想可在训练pipeline中引入常规的几何变换翻转、旋转、缩放裁剪与色彩抖动但不建议对目标形状语义有破坏性的增强如极端透视变换。声明本数据集仅提供准确且合理的标注不对基于本数据集训练所得模型或权重文件的精度作任何保证。

更多文章