简介

将labelImg格式数据集转换为PubLayNet格式。

labelImg结构如下:

  labelImg_dataset
├── classes.txt
├── images(13).jpg
├── images(13).txt
├── images(3).jpg
├── images(3).txt
├── images4.jpg
├── images4.txt
├── images5.jpg
├── images5.txt
├── images6.jpg
├── images7.jpg
└── images7.txt
  

转换

  labelImg_to_publaynet --data_dir dataset/labelImg_dataset \
                       --val_ratio 0.2 \
                       --have_test \
                       --test_ratio 0.2
  
  • --data_dir: COCO格式数据集所在目录。示例为dataset/labelImg_dataset
  • --save_dir: 保存转换后的数据集目录。默认为dataset/labelImg_dataset_publaynet
  • --val_ratio: 验证集数目占数据集总数比例,默认为0.2.
  • --have_test: 是否有测试集。默认为False,如果出现,则为True
  • --test_ratio: 测试集数目占数据集总数比例,默认为0.2

转换后结构如下:

  publaynet_dataset
├── test
│   ├── images5.jpg
│   └── images5.txt
├── test.json
├── train
│   ├── images(13).jpg
│   ├── images(13).txt
│   ├── images(3).jpg
│   ├── images(3).txt
│   ├── images4.jpg
│   ├── images4.txt
│   ├── images5.jpg
│   ├── images5.txt
│   ├── images7.jpg
│   └── images7.txt
├── train.json
├── val
│   ├── images(13).jpg
│   ├── images(13).txt
│   ├── images5.jpg
│   ├── images5.txt
│   ├── images7.jpg
│   └── images7.txt
└── val.json
  

Last updated 24 Apr 2024, 13:58 +0800 . history