HRSC2016数据集处理避坑指南：从XML旋转框到YOLO格式的完整转换流程

张开发

• 2026/4/13 11:19:54 • 15 分钟阅读

分享文章

HRSC2016数据集实战旋转框转换与YOLO格式处理的深度解析第一次接触HRSC2016数据集时我被那些复杂的旋转框标注弄得晕头转向。作为专门用于船舶检测的数据集HRSC2016的XML标注格式与常规水平框完全不同而将其转换为YOLO可用的格式更是一路踩坑。本文将分享我从原始XML到最终YOLO格式的完整转换经验特别聚焦那些容易出错的细节和验证方法。1. 理解HRSC2016数据集结构HRSC2016数据集包含两个主要文件夹Train和Test。每个文件夹下都有两个关键子目录AllImages存储.bmp格式的原始图像Annotations包含XML格式的标注文件XML标注的核心信息集中在HRSC_Object节点中特别是以下几个关键字段HRSC_Object Class_ID17001/Class_ID mbox_cx569.5045/mbox_cx mbox_cy263.4875/mbox_cy mbox_w261.0578/mbox_w mbox_h65.08137/mbox_h mbox_ang-1.562451/mbox_ang /HRSC_Object这些字段定义了旋转框的中心点坐标(cx,cy)、宽度(w)、高度(h)和旋转角度(ang)。需要注意的是角度以弧度表示正值表示顺时针旋转宽度和高度是旋转前的原始尺寸Class_ID的前两位通常表示大类后三位表示具体子类2. 从XML到DOTA格式旋转框顶点计算转换的第一步是将中心点表示法转换为四个顶点坐标。这是通过hrsc2dota.py脚本完成的核心在于旋转矩阵的应用def get_rotated_box_vertices(labels, label_path): with open(label_path,w) as f: for i in range(len(labels)): class_id, mbox_cx, mbox_cy, mbox_w, mbox_h, angle_rad labels[i] # 构建旋转矩阵 rotation_matrix np.array([ [np.cos(angle_rad), -np.sin(angle_rad)], [np.sin(angle_rad), np.cos(angle_rad)] ]) # 计算半宽高 box_half_width mbox_w / 2 box_half_height mbox_h / 2 # 定义原始顶点(未旋转) box_vertices np.array([ [-box_half_width, -box_half_height], [box_half_width, -box_half_height], [box_half_width, box_half_height], [-box_half_width, box_half_height] ]) # 应用旋转 rotated_vertices np.dot(box_vertices, rotation_matrix.T) # 平移至中心点 rotated_vertices[:, 0] mbox_cx rotated_vertices[:, 1] mbox_cy # 四舍五入为整数 rotated_vertices np.round(rotated_vertices).astype(np.int32) rotated_vertices rotated_vertices.reshape(-1) # 写入文件x1 y1 x2 y2 x3 y3 x4 y4 class_id f.write( .join([str(a) for a in rotated_vertices]) str(class_id) \n)注意实际应用中建议先创建DOTA_labels目录再运行脚本否则会报错。对于Train和Test集需要分别处理。3. 可视化验证确保转换正确性转换后必须验证结果dota_drawed.py脚本可以将旋转框绘制到图像上img cv2.imread(img_path) poly [] for i in range(len(objects)): poly.append(np.array(objects[i][poly], dtypenp.int32)) cv2.polylines(img, poly, isClosedTrue, color(255, 0, 0), thickness2) cv2.imwrite(drawed_img_path, img)常见问题及排查方法框体错位检查旋转矩阵计算是否正确特别是角度符号框体变形确认宽度和高度是否对应正确的边类别错误验证Class_ID的解析逻辑4. DOTA到YOLO格式的转换策略dota2yolo.py脚本完成了关键的类型映射和归一化处理。这里有几个技术要点4.1 类别映射简化原始HRSC2016有31个细粒度类别但实际应用中常合并为4个大类aircraft_carrier [2,5,6,12,13,31,32,33] # 航空母舰 warcraft [3,7,8,9,10,11,14,15,16,17,19,28,29] # 军舰 merchant_ship [4,18,20,22,24,25,26,30] # 商船 submarine [27] # 潜艇4.2 归一化处理YOLO格式要求坐标归一化到[0,1]范围x1_normalized x1 / image_width y1_normalized y1 / image_height # 其他坐标点同理...4.3 关于14的谜团原始代码中有个令人困惑的操作# 原作者注释掉的代码 # aircraft_carrier [x 14 for x in aircraft_carrier]经过分析这是早期版本中类别ID偏移导致的。在最新HRSC2016数据集中Class_ID直接从XML读取即可取模运算class_id int(obj.find(Class_ID).text) % 100已足够不需要额外14的偏移量5. 数据集划分与YOLO适配使用split.py脚本划分训练集和验证集时需要注意路径设置必须与实际目录结构一致建议比例训练集80%验证集20%最终YOLO数据集目录结构应如下mydataset/ ├── images/ │ ├── train/ │ └── val/ └── labels/ ├── train/ └── val/每个标签文件内容格式示例1 0.512345 0.423456 0.534567 0.412345 0.545678 0.456789 0.523456 0.4678906. 高级技巧与性能优化在实际项目中我还发现几个提升效率的方法批量处理加速使用多进程处理大量图像from multiprocessing import Pool def process_single(args): xml_path, txt_path args get_rotated_box_vertices(get_label(xml_path), txt_path) if __name__ __main__: args_list [(os.path.join(xml_root,name), os.path.join(txt_root,name.split(.)[0].txt)) for name in os.listdir(xml_root)] with Pool(4) as p: # 4个进程 p.map(process_single, args_list)验证脚本增强添加随机颜色和透明度color (random.randint(0,255), random.randint(0,255), random.randint(0,255)) overlay img.copy() cv2.fillPoly(overlay, [poly], color) img cv2.addWeighted(overlay, 0.3, img, 0.7, 0)异常处理对无效标注的容错机制try: angle_rad float(obj.find(mbox_ang).text) if not -math.pi angle_rad math.pi: angle_rad angle_rad % (2*math.pi) if angle_rad math.pi: angle_rad - 2*math.pi except: print(fInvalid angle in {xml_path}, using 0) angle_rad 0.0处理HRSC2016数据集最耗时的部分不是代码运行而是反复验证每个转换环节的正确性。我建议在关键步骤都添加可视化验证虽然这会增加一些开发时间但能避免后续训练时的各种诡异问题。

更多文章

前端开发 2026/4/13 11:18:47

在Windows 10上运行Android应用：WSA反向移植项目完全指南

在Windows 10上运行Android应用：WSA反向移植项目完全指南【免费下载链接】WSA-Windows-10 This is a backport of Windows Subsystem for Android to Windows 10. 项目地址: https://gitcode.com/gh_mirrors/ws/WSA-Windows-10 还在为Windows 10无法运行An…

程序员的高阶价值在哪里，我想不单单是“写代码的执行者”更要成为“设计者、决策者、整合者”，尤其在AI时代，写代码门槛被大幅拉平，这些能力显得尤为重要：AI负责生成代码片段，我们来搭建系统骨架&#xff0…

张开发

前端开发 2026/4/13 11:07:20

Pixel Dimension Fissioner 安全加固指南：API访问鉴权、输入过滤与防滥用策略

Pixel Dimension Fissioner 安全加固指南：API访问鉴权、输入过滤与防滥用策略 1. 为什么API安全如此重要想象一下，你刚部署好的Pixel Dimension Fissioner服务突然被恶意用户刷爆了API配额，或者更糟——有人通过精心构造的提示词生成了不当…

张开发

HRSC2016数据集处理避坑指南：从XML旋转框到YOLO格式的完整转换流程

最新文章

【AIAgent生产级落地红线】：SITS2026案例揭示——未做这7项可观测性埋点的AI客服系统，上线即成黑盒

11. keyof 是什么？

TrollInstallerX终极指南：简单快速安装TrollStore的完整教程

MGeo中文地址解析模型快速上手：VS Code远程开发环境调试webui.py全流程

2025年终极指南：让Android TV遥控器秒变鼠标的MATVT虚拟鼠标工具

Linux线程（一）：从进程到线程，揭开并发执行的面纱

推荐文章

⑩【从0制作自己的ros导航小车：上位机篇】05、导航！

从NUSTCTF Ezjava1看Java Web参数绑定与条件竞争漏洞挖掘

SITS2026现场直击：LLM-native NLP架构设计原则（含可复用的5层抽象模型图谱）

AHT20温湿度传感器库深度解析与工业级应用实践

Rust的引用计数智能指针Rc与Arc在线程共享中的内部可变性

libhv实战：从零构建一个功能完备的HTTP客户端

相关文章

高效掌握多步提示工程：进阶AI任务处理的系统方法论

浏览器资源嗅探终极指南：如何轻松下载网页视频与音频

OPEN实战：基于深度强化学习的多无人机追逃在线规划，如何跨越仿真到现实的鸿沟？

从Depth Anything到Video版本：揭秘字节跳动如何用时空注意力突破视频深度估计瓶颈

终极指南：如何使用ChampR构建高性能英雄联盟游戏助手

GLM-4.1V-9B-Base效果展示：中文手绘草图→功能描述→技术实现建议生成

分享文章

更多文章

在Windows 10上运行Android应用：WSA反向移植项目完全指南

Nuxt3数据请求终极指南：useFetch vs useAsyncData vs $fetch实战对比

企业微信JS-SDK获取地理位置避坑指南：如何解决百度地图只返回城市中心点的问题

终极指南：如何用Explorer Tab Utility让Windows文件管理效率提升300%

3步深度解锁：开源工具彻底释放联想拯救者硬件配置潜能

基于DoDAF 2.0的“联合战术级实兵-虚拟-构造（LVC）仿真训练系统”架构设计与应用

基于深度学习CNN的智慧电力电缆状态巡检电力线路覆冰状态电力线路覆冰检测数据集电力巡检系统实现覆冰风险自动识别第10413期 (1)

别急着重装Anaconda！试试这个‘注册表修复’大法，让Jupyter Notebook秒回开始菜单

嘉楠堪智 CanMV K230 双核异构系统开发实战：从源码到镜像

3步解决黑苹果EFI配置难题：OpCore-Simplify让你的黑苹果之旅轻松上手

移动端架构体系（五）：终篇总结

Pixel Dimension Fissioner 安全加固指南：API访问鉴权、输入过滤与防滥用策略