腾讯ML-Images:探索最大规模多标签图像数据库的终极指南

张开发
2026/4/11 19:52:16 15 分钟阅读

分享文章

腾讯ML-Images:探索最大规模多标签图像数据库的终极指南
腾讯ML-Images探索最大规模多标签图像数据库的终极指南【免费下载链接】tencent-ml-imagesLargest multi-label image database; ResNet-101 model; 80.73% top-1 acc on ImageNet项目地址: https://gitcode.com/gh_mirrors/te/tencent-ml-images腾讯ML-Images是一个开源的大规模多标签图像数据库项目包含17,609,752张训练图像和88,739张验证图像覆盖11,166个类别。该项目还提供了基于ResNet-101的预训练模型在ImageNet上通过迁移学习实现了80.73%的top-1准确率是计算机视觉研究和应用的强大资源。 数据库概览规模与结构ML-Images的图像URL主要来源于两个权威数据集ImageNet提供了10,706,941张训练图像和50,000张验证图像覆盖10,032个类别Open Images贡献了6,902,811张训练图像和38,739张验证图像覆盖1,134个独特类别通过语义合并和去重处理最终形成了包含11,166个类别的统一数据库。每个图像平均标注8.72个标签每个类别平均拥有13,843张图像为多标签图像识别任务提供了丰富的训练素材。数据集统计特征以下两张图表直观展示了ML-Images的数据集特征图1ML-Images数据集中每个类别的图像数量分布对数刻度绿色线表示平均值图2训练集中图像标注标签数量的分布直方图大多数图像包含5-15个标签 快速开始环境准备与安装系统要求Linux操作系统Python 2.7TensorFlow 1.6.0项目获取git clone https://gitcode.com/gh_mirrors/te/tencent-ml-images cd tencent-ml-images 数据下载与准备由于版权限制项目不直接提供原始图像但提供了获取图像的完整方案从ImageNet下载图像下载完整的ImageNet数据库使用项目提供的图像ID文件提取所需图像data/train_image_id_from_imagenet.txtdata/val_image_id_from_imagenet.txt从Open Images下载图像项目提供了多线程下载脚本可直接通过URL下载图像cd data ./download_urls_multithreading.sh下载的图像将保存在data/images/目录下同时生成图像列表和注释文件train_im_list_tiny.txt。数据格式转换将图像数据转换为TFRecord格式以提高训练效率cd data ./tfrecord.sh生成的TFRecord文件将保存在data/tfrecords/目录中便于后续模型训练使用。 模型训练与应用预训练模型项目提供了两个关键的预训练模型 checkpointckpt-resnet101-mlimages在ML-Images上预训练的ResNet-101模型ckpt-resnet101-mlimages-imagenet在ML-Images预训练并在ImageNet上微调的模型下载后请将checkpoint文件放在checkpoints/目录下。模型训练使用提供的脚本进行模型训练# 在ML-Images上预训练 ./example/train.sh # 在ImageNet上微调 ./example/finetune.sh图像分类 demo运行图像分类示例./example/image_classification.sh预测结果将保存到label_pred.txt文件中。如需分类自定义图像可修改data/im_list_for_classification.txt文件。特征提取使用预训练模型提取图像特征./example/extract_feature.sh 性能表现在ImageNet验证集上的性能比较显示ML-Images预训练的ResNet-101模型表现优异Top-1准确率80.73%299x299图像尺寸Top-5准确率95.5%299x299图像尺寸这一结果超过了许多主流的ResNet-101实现证明了ML-Images数据库在视觉表示学习方面的优势。 项目结构项目主要目录结构如下data/包含图像列表、TFRecord文件和数据处理脚本data_processing/数据处理相关代码example/训练、微调、分类和特征提取的示例脚本models/模型定义包括ResNet-101实现git_images/项目统计图表核心代码文件包括models/resnet.pyResNet-101模型实现data/tfrecord.pyTFRecord文件生成工具train.py模型训练主程序 许可证信息图像注释采用CC BY 4.0许可证代码、文档和checkpoint采用BSD 3-Clause许可证详细信息请参见项目根目录下的LICENSE文件。 引用如果您在研究中使用了本项目的任何内容请引用以下论文article{tencent-ml-images-2019, title{Tencent ML-Images: A Large-Scale Multi-Label Image Database for Visual Representation Learning}, author{Wu, Baoyuan and Chen, Weidong and Fan, Yanbo and Zhang, Yong and Hou, Jinlong and Liu, Jie and Zhang, Tong}, journal{IEEE Access}, volume{7}, year{2019} }腾讯ML-Images项目为计算机视觉研究人员和开发者提供了一个强大的多标签图像数据库和预训练模型无论是学术研究还是工业应用都能从中受益。通过本指南您可以快速开始使用这一资源探索计算机视觉的无限可能【免费下载链接】tencent-ml-imagesLargest multi-label image database; ResNet-101 model; 80.73% top-1 acc on ImageNet项目地址: https://gitcode.com/gh_mirrors/te/tencent-ml-images创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

更多文章