Skip to content

Commit 546f3b5

Browse files
authored
[Doc] Update ZN dataset preparation of Synapse (open-mmlab#2465)
## Motivation - Add Chinese version of Synapse dataset preparation. - Modify all `,` and `。` to `,` and `.` in `docs/zh_cn/user_guides/2_dataset_prepare.md`.
1 parent f90f7a5 commit 546f3b5

File tree

2 files changed

+147
-51
lines changed

2 files changed

+147
-51
lines changed

docs/en/user_guides/2_dataset_prepare.md

Lines changed: 12 additions & 3 deletions
Original file line numberDiff line numberDiff line change
@@ -138,6 +138,13 @@ mmsegmentation
138138
│ │ ├── ann_dir
139139
│ │ │ ├── train
140140
│ │ │ ├── val
141+
│ ├── synapse
142+
│ │ ├── img_dir
143+
│ │ │ ├── train
144+
│ │ │ ├── val
145+
│ │ ├── ann_dir
146+
│ │ │ ├── train
147+
│ │ │ ├── val
141148
```
142149

143150
### Cityscapes
@@ -323,7 +330,7 @@ For Potsdam dataset, please run the following command to download and re-organiz
323330
python tools/dataset_converters/potsdam.py /path/to/potsdam
324331
```
325332

326-
In our default setting, it will generate 3456 images for training and 2016 images for validation.
333+
In our default setting, it will generate 3,456 images for training and 2,016 images for validation.
327334

328335
### ISPRS Vaihingen
329336

@@ -376,7 +383,7 @@ You may need to follow the following structure for dataset preparation after dow
376383
python tools/dataset_converters/isaid.py /path/to/iSAID
377384
```
378385

379-
In our default setting (`patch_width`=896, `patch_height`=896, `overlap_area`=384), it will generate 33978 images for training and 11644 images for validation.
386+
In our default setting (`patch_width`=896, `patch_height`=896, `overlap_area`=384), it will generate 33,978 images for training and 11,644 images for validation.
380387

381388
## LIP(Look Into Person) dataset
382389

@@ -429,7 +436,7 @@ cd ./RawData/Training
429436

430437
Then create `train.txt` and `val.txt` to split dataset.
431438

432-
According to TransUnet, the following is the data set division.
439+
According to TransUNet, the following is the data set division.
433440

434441
train.txt
435442

@@ -493,5 +500,7 @@ Then, use this command to convert synapse dataset.
493500
python tools/dataset_converters/synapse.py --dataset-path /path/to/synapse
494501
```
495502

503+
In our default setting, it will generate 2,211 2D images for training and 1,568 2D images for validation.
504+
496505
Noted that MMSegmentation default evaluation metric (such as mean dice value) is calculated on 2D slice image,
497506
which is not comparable to results of 3D scan in some paper such as [TransUNet](https://arxiv.org/abs/2102.04306).

docs/zh_cn/user_guides/2_dataset_prepare.md

Lines changed: 135 additions & 48 deletions
Original file line numberDiff line numberDiff line change
@@ -1,6 +1,6 @@
11
## 准备数据集(待更新)
22

3-
推荐用软链接将数据集根目录链接到 `$MMSEGMENTATION/data`如果您的文件夹结构是不同的您也许可以试着修改配置文件里对应的路径
3+
推荐用软链接, 将数据集根目录链接到 `$MMSEGMENTATION/data`. 如果您的文件夹结构是不同的, 您也许可以试着修改配置文件里对应的路径.
44

55
```none
66
mmsegmentation
@@ -119,116 +119,123 @@ mmsegmentation
119119
│ │ ├── ann_dir
120120
│ │ │ ├── train
121121
│ │ │ ├── val
122+
│ ├── synapse
123+
│ │ ├── img_dir
124+
│ │ │ ├── train
125+
│ │ │ ├── val
126+
│ │ ├── ann_dir
127+
│ │ │ ├── train
128+
│ │ │ ├── val
122129
```
123130

124131
### Cityscapes
125132

126-
注册成功后数据集可以在 [这里](https://www.cityscapes-dataset.com/downloads/) 下载
133+
注册成功后, 数据集可以在 [这里](https://www.cityscapes-dataset.com/downloads/) 下载.
127134

128-
通常情况下`**labelTrainIds.png` 被用来训练 cityscapes
135+
通常情况下, `**labelTrainIds.png` 被用来训练 cityscapes.
129136
基于 [cityscapesscripts](https://github.com/mcordts/cityscapesScripts),
130137
我们提供了一个 [脚本](https://github.com/open-mmlab/mmsegmentation/blob/master/tools/convert_datasets/cityscapes.py),
131-
去生成 `**labelTrainIds.png`
138+
去生成 `**labelTrainIds.png`.
132139

133140
```shell
134-
# --nproc 8 意味着有 8 个进程用来转换它也可以被忽略
141+
# --nproc 8 意味着有 8 个进程用来转换,它也可以被忽略.
135142
python tools/convert_datasets/cityscapes.py data/cityscapes --nproc 8
136143
```
137144

138145
### Pascal VOC
139146

140-
Pascal VOC 2012 可以在 [这里](http://host.robots.ox.ac.uk/pascal/VOC/voc2012/VOCtrainval_11-May-2012.tar) 下载
141-
此外许多最近在 Pascal VOC 数据集上的工作都会利用增广的数据它们可以在 [这里](http://www.eecs.berkeley.edu/Research/Projects/CS/vision/grouping/semantic_contours/benchmark.tgz) 找到
147+
Pascal VOC 2012 可以在 [这里](http://host.robots.ox.ac.uk/pascal/VOC/voc2012/VOCtrainval_11-May-2012.tar) 下载.
148+
此外, 许多最近在 Pascal VOC 数据集上的工作都会利用增广的数据, 它们可以在 [这里](http://www.eecs.berkeley.edu/Research/Projects/CS/vision/grouping/semantic_contours/benchmark.tgz) 找到.
142149

143-
如果您想使用增广后的 VOC 数据集请运行下面的命令来将数据增广的标注转成正确的格式
150+
如果您想使用增广后的 VOC 数据集, 请运行下面的命令来将数据增广的标注转成正确的格式.
144151

145152
```shell
146-
# --nproc 8 意味着有 8 个进程用来转换它也可以被忽略
153+
# --nproc 8 意味着有 8 个进程用来转换,它也可以被忽略.
147154
python tools/convert_datasets/voc_aug.py data/VOCdevkit data/VOCdevkit/VOCaug --nproc 8
148155
```
149156

150-
关于如何拼接数据集 (concatenate) 并一起训练它们更多细节请参考 [拼接连接数据集](https://github.com/open-mmlab/mmsegmentation/blob/master/docs/zh_cn/tutorials/customize_datasets.md#%E6%8B%BC%E6%8E%A5%E6%95%B0%E6%8D%AE%E9%9B%86)
157+
关于如何拼接数据集 (concatenate) 并一起训练它们, 更多细节请参考 [拼接连接数据集](https://github.com/open-mmlab/mmsegmentation/blob/master/docs/zh_cn/tutorials/customize_datasets.md#%E6%8B%BC%E6%8E%A5%E6%95%B0%E6%8D%AE%E9%9B%86) .
151158

152159
### ADE20K
153160

154-
ADE20K 的训练集和验证集可以在 [这里](http://data.csail.mit.edu/places/ADEchallenge/ADEChallengeData2016.zip) 下载
155-
您还可以在 [这里](http://data.csail.mit.edu/places/ADEchallenge/release_test.zip) 下载验证集
161+
ADE20K 的训练集和验证集可以在 [这里](http://data.csail.mit.edu/places/ADEchallenge/ADEChallengeData2016.zip) 下载.
162+
您还可以在 [这里](http://data.csail.mit.edu/places/ADEchallenge/release_test.zip) 下载验证集.
156163

157164
### Pascal Context
158165

159-
Pascal Context 的训练集和验证集可以在 [这里](http://host.robots.ox.ac.uk/pascal/VOC/voc2010/VOCtrainval_03-May-2010.tar) 下载
160-
注册成功后您还可以在 [这里](http://host.robots.ox.ac.uk:8080/eval/downloads/VOC2010test.tar) 下载验证集
166+
Pascal Context 的训练集和验证集可以在 [这里](http://host.robots.ox.ac.uk/pascal/VOC/voc2010/VOCtrainval_03-May-2010.tar) 下载.
167+
注册成功后, 您还可以在 [这里](http://host.robots.ox.ac.uk:8080/eval/downloads/VOC2010test.tar) 下载验证集.
161168

162-
为了从原始数据集里切分训练集和验证集 您可以在 [这里](https://codalabuser.blob.core.windows.net/public/trainval_merged.json)
163-
下载 trainval_merged.json
169+
为了从原始数据集里切分训练集和验证集, 您可以在 [这里](https://codalabuser.blob.core.windows.net/public/trainval_merged.json)
170+
下载 trainval_merged.json.
164171

165-
如果您想使用 Pascal Context 数据集
166-
请安装 [细节](https://github.com/zhanghang1989/detail-api) 然后再运行如下命令来把标注转换成正确的格式
172+
如果您想使用 Pascal Context 数据集,
173+
请安装 [细节](https://github.com/zhanghang1989/detail-api) 然后再运行如下命令来把标注转换成正确的格式.
167174

168175
```shell
169176
python tools/convert_datasets/pascal_context.py data/VOCdevkit data/VOCdevkit/VOC2010/trainval_merged.json
170177
```
171178

172179
### CHASE DB1
173180

174-
CHASE DB1 的训练集和验证集可以在 [这里](https://staffnet.kingston.ac.uk/~ku15565/CHASE_DB1/assets/CHASEDB1.zip) 下载
181+
CHASE DB1 的训练集和验证集可以在 [这里](https://staffnet.kingston.ac.uk/~ku15565/CHASE_DB1/assets/CHASEDB1.zip) 下载.
175182

176-
为了将 CHASE DB1 数据集转换成 MMSegmentation 的格式您需要运行如下命令
183+
为了将 CHASE DB1 数据集转换成 MMSegmentation 的格式,您需要运行如下命令:
177184

178185
```shell
179186
python tools/convert_datasets/chase_db1.py /path/to/CHASEDB1.zip
180187
```
181188

182-
这个脚本将自动生成正确的文件夹结构
189+
这个脚本将自动生成正确的文件夹结构.
183190

184191
### DRIVE
185192

186-
DRIVE 的训练集和验证集可以在 [这里](https://drive.grand-challenge.org/) 下载
187-
在此之前您需要注册一个账号当前 '1st_manual' 并未被官方提供因此需要您从其他地方获取
193+
DRIVE 的训练集和验证集可以在 [这里](https://drive.grand-challenge.org/) 下载.
194+
在此之前, 您需要注册一个账号, 当前 '1st_manual' 并未被官方提供, 因此需要您从其他地方获取.
188195

189-
为了将 DRIVE 数据集转换成 MMSegmentation 格式您需要运行如下命令
196+
为了将 DRIVE 数据集转换成 MMSegmentation 格式, 您需要运行如下命令:
190197

191198
```shell
192199
python tools/convert_datasets/drive.py /path/to/training.zip /path/to/test.zip
193200
```
194201

195-
这个脚本将自动生成正确的文件夹结构
202+
这个脚本将自动生成正确的文件夹结构.
196203

197204
### HRF
198205

199-
首先下载 [healthy.zip](https://www5.cs.fau.de/fileadmin/research/datasets/fundus-images/healthy.zip) [glaucoma.zip](https://www5.cs.fau.de/fileadmin/research/datasets/fundus-images/glaucoma.zip), [diabetic_retinopathy.zip](https://www5.cs.fau.de/fileadmin/research/datasets/fundus-images/diabetic_retinopathy.zip), [healthy_manualsegm.zip](https://www5.cs.fau.de/fileadmin/research/datasets/fundus-images/healthy_manualsegm.zip), [glaucoma_manualsegm.zip](https://www5.cs.fau.de/fileadmin/research/datasets/fundus-images/glaucoma_manualsegm.zip) 以及 [diabetic_retinopathy_manualsegm.zip](https://www5.cs.fau.de/fileadmin/research/datasets/fundus-images/diabetic_retinopathy_manualsegm.zip)
206+
首先, 下载 [healthy.zip](https://www5.cs.fau.de/fileadmin/research/datasets/fundus-images/healthy.zip) [glaucoma.zip](https://www5.cs.fau.de/fileadmin/research/datasets/fundus-images/glaucoma.zip), [diabetic_retinopathy.zip](https://www5.cs.fau.de/fileadmin/research/datasets/fundus-images/diabetic_retinopathy.zip), [healthy_manualsegm.zip](https://www5.cs.fau.de/fileadmin/research/datasets/fundus-images/healthy_manualsegm.zip), [glaucoma_manualsegm.zip](https://www5.cs.fau.de/fileadmin/research/datasets/fundus-images/glaucoma_manualsegm.zip) 以及 [diabetic_retinopathy_manualsegm.zip](https://www5.cs.fau.de/fileadmin/research/datasets/fundus-images/diabetic_retinopathy_manualsegm.zip).
200207

201-
为了将 HRF 数据集转换成 MMSegmentation 格式您需要运行如下命令
208+
为了将 HRF 数据集转换成 MMSegmentation 格式, 您需要运行如下命令:
202209

203210
```shell
204211
python tools/convert_datasets/hrf.py /path/to/healthy.zip /path/to/healthy_manualsegm.zip /path/to/glaucoma.zip /path/to/glaucoma_manualsegm.zip /path/to/diabetic_retinopathy.zip /path/to/diabetic_retinopathy_manualsegm.zip
205212
```
206213

207-
这个脚本将自动生成正确的文件夹结构
214+
这个脚本将自动生成正确的文件夹结构.
208215

209216
### STARE
210217

211-
首先下载 [stare-images.tar](http://cecas.clemson.edu/~ahoover/stare/probing/stare-images.tar), [labels-ah.tar](http://cecas.clemson.edu/~ahoover/stare/probing/labels-ah.tar)[labels-vk.tar](http://cecas.clemson.edu/~ahoover/stare/probing/labels-vk.tar)
218+
首先, 下载 [stare-images.tar](http://cecas.clemson.edu/~ahoover/stare/probing/stare-images.tar), [labels-ah.tar](http://cecas.clemson.edu/~ahoover/stare/probing/labels-ah.tar)[labels-vk.tar](http://cecas.clemson.edu/~ahoover/stare/probing/labels-vk.tar).
212219

213-
为了将 STARE 数据集转换成 MMSegmentation 格式您需要运行如下命令
220+
为了将 STARE 数据集转换成 MMSegmentation 格式, 您需要运行如下命令:
214221

215222
```shell
216223
python tools/convert_datasets/stare.py /path/to/stare-images.tar /path/to/labels-ah.tar /path/to/labels-vk.tar
217224
```
218225

219-
这个脚本将自动生成正确的文件夹结构
226+
这个脚本将自动生成正确的文件夹结构.
220227

221228
### Dark Zurich
222229

223-
因为我们只支持在此数据集上测试模型所以您只需下载[验证集](https://data.vision.ee.ethz.ch/csakarid/shared/GCMA_UIoU/Dark_Zurich_val_anon.zip)
230+
因为我们只支持在此数据集上测试模型, 所以您只需下载[验证集](https://data.vision.ee.ethz.ch/csakarid/shared/GCMA_UIoU/Dark_Zurich_val_anon.zip).
224231

225232
### Nighttime Driving
226233

227-
因为我们只支持在此数据集上测试模型所以您只需下载[测试集](http://data.vision.ee.ethz.ch/daid/NighttimeDriving/NighttimeDrivingTest.zip)
234+
因为我们只支持在此数据集上测试模型,所以您只需下载[测试集](http://data.vision.ee.ethz.ch/daid/NighttimeDriving/NighttimeDrivingTest.zip).
228235

229236
### LoveDA
230237

231-
可以从 Google Drive 里下载 [LoveDA数据集](https://drive.google.com/drive/folders/1ibYV0qwn4yuuh068Rnc-w4tPi0U0c-ti?usp=sharing)
238+
可以从 Google Drive 里下载 [LoveDA数据集](https://drive.google.com/drive/folders/1ibYV0qwn4yuuh068Rnc-w4tPi0U0c-ti?usp=sharing).
232239

233240
或者它还可以从 [zenodo](https://zenodo.org/record/5706578#.YZvN7SYRXdF) 下载, 您需要运行如下命令:
234241

@@ -241,46 +248,46 @@ wget https://zenodo.org/record/5706578/files/Val.zip
241248
wget https://zenodo.org/record/5706578/files/Test.zip
242249
```
243250

244-
对于 LoveDA 数据集请运行以下命令下载并重新组织数据集
251+
对于 LoveDA 数据集,请运行以下命令下载并重新组织数据集:
245252

246253
```shell
247254
python tools/convert_datasets/loveda.py /path/to/loveDA
248255
```
249256

250-
请参照 [这里](https://github.com/open-mmlab/mmsegmentation/blob/master/docs/zh_cn/inference.md) 来使用训练好的模型去预测 LoveDA 测试集并且提交到官网
257+
请参照 [这里](https://github.com/open-mmlab/mmsegmentation/blob/master/docs/zh_cn/inference.md) 来使用训练好的模型去预测 LoveDA 测试集并且提交到官网.
251258

252-
关于 LoveDA 的更多细节可以在[这里](https://github.com/Junjue-Wang/LoveDA) 找到
259+
关于 LoveDA 的更多细节可以在[这里](https://github.com/Junjue-Wang/LoveDA) 找到.
253260

254261
### ISPRS Potsdam
255262

256263
[Potsdam](https://www2.isprs.org/commissions/comm2/wg4/benchmark/2d-sem-label-potsdam/)
257-
数据集是一个有着2D 语义分割内容标注的城市遥感数据集
258-
数据集可以从挑战[主页](https://www2.isprs.org/commissions/comm2/wg4/benchmark/data-request-form/) 获得
259-
需要其中的 '2_Ortho_RGB.zip''5_Labels_all_noBoundary.zip'。
264+
数据集是一个有着2D 语义分割内容标注的城市遥感数据集.
265+
数据集可以从挑战[主页](https://www2.isprs.org/commissions/comm2/wg4/benchmark/data-request-form/) 获得.
266+
需要其中的 `2_Ortho_RGB.zip``5_Labels_all_noBoundary.zip`.
260267

261-
对于 Potsdam 数据集请运行以下命令下载并重新组织数据集
268+
对于 Potsdam 数据集,请运行以下命令下载并重新组织数据集
262269

263270
```shell
264271
python tools/convert_datasets/potsdam.py /path/to/potsdam
265272
```
266273

267-
使用我们默认的配置 将生成 3456 张图片的训练集和 2016 张图片的验证集
274+
使用我们默认的配置, 将生成 3,456 张图片的训练集和 2,016 张图片的验证集.
268275

269276
### ISPRS Vaihingen
270277

271278
[Vaihingen](https://www2.isprs.org/commissions/comm2/wg4/benchmark/2d-sem-label-vaihingen/)
272-
数据集是一个有着2D 语义分割内容标注的城市遥感数据集
279+
数据集是一个有着2D 语义分割内容标注的城市遥感数据集.
273280

274281
数据集可以从挑战 [主页](https://www2.isprs.org/commissions/comm2/wg4/benchmark/data-request-form/).
275-
需要其中的 'ISPRS_semantic_labeling_Vaihingen.zip' 和 'ISPRS_semantic_labeling_Vaihingen_ground_truth_eroded_COMPLETE.zip'
282+
需要其中的 'ISPRS_semantic_labeling_Vaihingen.zip' 和 'ISPRS_semantic_labeling_Vaihingen_ground_truth_eroded_COMPLETE.zip'.
276283

277-
对于 Vaihingen 数据集请运行以下命令下载并重新组织数据集
284+
对于 Vaihingen 数据集, 请运行以下命令下载并重新组织数据集
278285

279286
```shell
280287
python tools/convert_datasets/vaihingen.py /path/to/vaihingen
281288
```
282289

283-
使用我们默认的配置 (`clip_size`=512, `stride_size`=256) 将生成 344 张图片的训练集和 398 张图片的验证集
290+
使用我们默认的配置 (`clip_size`=512, `stride_size`=256), 将生成 344 张图片的训练集和 398 张图片的验证集.
284291

285292
### iSAID
286293

@@ -290,7 +297,7 @@ iSAID 数据集(训练集/验证集)的注释可以从 [iSAID](https://captain-w
290297

291298
该数据集是一个大规模的实例分割(也可以用于语义分割)的遥感数据集.
292299

293-
下载后在数据集转换前您需要将数据集文件夹调整成如下格式.
300+
下载后, 在数据集转换前, 您需要将数据集文件夹调整成如下格式.
294301

295302
```
296303
│ ├── iSAID
@@ -316,4 +323,84 @@ iSAID 数据集(训练集/验证集)的注释可以从 [iSAID](https://captain-w
316323
python tools/convert_datasets/isaid.py /path/to/iSAID
317324
```
318325

319-
使用我们默认的配置 (`patch_width`=896, `patch_height`=896, `overlap_area`=384), 将生成 33978 张图片的训练集和 11644 张图片的验证集。
326+
使用我们默认的配置 (`patch_width`=896, `patch_height`=896, `overlap_area`=384), 将生成 33,978 张图片的训练集和 11,644 张图片的验证集.
327+
328+
## Synapse dataset
329+
330+
这个数据集可以在这个[网页](https://www.synapse.org/#!Synapse:syn3193805/wiki/) 里被下载.
331+
我们参考了 [TransUNet](https://arxiv.org/abs/2102.04306) 里面的数据集预处理的设置, 它将原始数据集 (30 套 3D 样例) 切分出 18 套用于训练, 12 套用于验证. 请参考以下步骤来准备该数据集:
332+
333+
```shell
334+
unzip RawData.zip
335+
cd ./RawData/Training
336+
```
337+
338+
随后新建 `train.txt``val.txt`.
339+
340+
根据 TransUNet 来将训练集和验证集如下划分:
341+
342+
train.txt
343+
344+
```none
345+
img0005.nii.gz
346+
img0006.nii.gz
347+
img0007.nii.gz
348+
img0009.nii.gz
349+
img0010.nii.gz
350+
img0021.nii.gz
351+
img0023.nii.gz
352+
img0024.nii.gz
353+
img0026.nii.gz
354+
img0027.nii.gz
355+
img0028.nii.gz
356+
img0030.nii.gz
357+
img0031.nii.gz
358+
img0033.nii.gz
359+
img0034.nii.gz
360+
img0037.nii.gz
361+
img0039.nii.gz
362+
img0040.nii.gz
363+
```
364+
365+
val.txt
366+
367+
```none
368+
img0008.nii.gz
369+
img0022.nii.gz
370+
img0038.nii.gz
371+
img0036.nii.gz
372+
img0032.nii.gz
373+
img0002.nii.gz
374+
img0029.nii.gz
375+
img0003.nii.gz
376+
img0001.nii.gz
377+
img0004.nii.gz
378+
img0025.nii.gz
379+
img0035.nii.gz
380+
```
381+
382+
此时, synapse 数据集包括了以下内容:
383+
384+
```none
385+
├── Training
386+
│ ├── img
387+
│ │ ├── img0001.nii.gz
388+
│ │ ├── img0002.nii.gz
389+
│ │ ├── ...
390+
│ ├── label
391+
│ │ ├── label0001.nii.gz
392+
│ │ ├── label0002.nii.gz
393+
│ │ ├── ...
394+
│ ├── train.txt
395+
│ ├── val.txt
396+
```
397+
398+
随后, 运行下面的数据集转换脚本来处理 synapse 数据集:
399+
400+
```shell
401+
python tools/dataset_converters/synapse.py --dataset-path /path/to/synapse
402+
```
403+
404+
使用我们默认的配置, 将生成 2,211 张 2D 图片的训练集和 1,568 张图片的验证集.
405+
406+
需要注意的是 MMSegmentation 默认的评价指标 (例如平均 Dice 值) 都是基于每帧 2D 图片计算的, 这与基于每套 3D 图片计算评价指标的 [TransUNet](https://arxiv.org/abs/2102.04306) 是不同的.

0 commit comments

Comments
 (0)