EraseNet(EraseNet: End-to-End Text Removal in the Wild)端到端文本删除

文中提出了一个新的数据集SCUT-EnsText,总共包含3562张图片,每张图片都是从公开的场景文字理解数据集中挑选的,而且图像标注也是保证了视觉上的擦除效果,而非之前使用一些自动的方法去获得的标注信息(擦除效果无法得到保证)。

基于上述数据集,本文基于GAN的方法,提出了EraseNet这个网络结构,用来实现端到端的文字擦除。model包含coarse和refinement两个阶段。refinement sub-network主要就是对coarse sub-network的输出进行进一步的refinement,从而提升擦除效果。

NRNet

HRNet是2019年由微软亚洲研究院提出的一种全新的神经网络,不同于以往的卷积神经网络,该网络在网络深层仍然可以保持高分辨率,因此预测的关键点热图更准确,在空间上也更精确。此外,该网络在对分辨率敏感的其他视觉任务中,如检测、分割等,表现尤为优异。

该系列模型的FLOPS、参数量以及T4 GPU上的预测耗时如下图所示。

精度、FLOPS和参数量

Models Top1 Top5 Referencetop1 Referencetop5 FLOPS(G) Parameters(M)
HRNet_W18_C 0.769 0.934 0.768 0.934 4.140 21.290
HRNet_W30_C 0.780 0.940 0.782 0.942 16.230 37.710
HRNet_W32_C 0.783 0.942 0.785 0.942 17.860 41.230
HRNet_W40_C 0.788 0.945 0.789 0.945 25.410 57.550
HRNet_W44_C 0.790 0.945 0.789 0.944 29.790 67.060
HRNet_W48_C 0.790 0.944 0.793 0.945 34.580 77.470
HRNet_W64_C 0.793 0.946 0.795 0.946 57.830 128.060

基于V100 GPU的预测速度

Models Crop Size Resize Short Size FP32Batch Size=1(ms)
HRNet_W18_C 224 256 7.368
HRNet_W30_C 224 256 9.402
HRNet_W32_C 224 256 9.467
HRNet_W40_C 224 256 10.739
HRNet_W44_C 224 256 11.497
HRNet_W48_C 224 256 12.165
HRNet_W64_C 224 256 15.003

基于T4 GPU的预测速度

Models Crop Size Resize Short Size FP16Batch Size=1(ms) FP16Batch Size=4(ms) FP16Batch Size=8(ms) FP32Batch Size=1(ms) FP32Batch Size=4(ms) FP32Batch Size=8(ms)
HRNet_W18_C 224 256 6.79093 11.50986 17.67244 7.40636 13.29752 23.33445
HRNet_W30_C 224 256 8.98077 14.08082 21.23527 9.57594 17.35485 32.6933
HRNet_W32_C 224 256 8.82415 14.21462 21.19804 9.49807 17.72921 32.96305
HRNet_W40_C 224 256 11.4229 19.1595 30.47984 12.12202 25.68184 48.90623
HRNet_W44_C 224 256 12.25778 22.75456 32.61275 13.19858 32.25202 59.09871
HRNet_W48_C 224 256 12.65015 23.12886 33.37859 13.70761 34.43572 63.01219
HRNet_W64_C 224 256 15.10428 27.68901 40.4198 17.57527 47.9533 97.11228

ISNet: Integrate Image-Level and Semantic-Level Context for Semantic Segmentation

ISTDU-Net: Infrared Small-Target Detection U-Net

ISNet:深度分类器的无成本和隐式图像分割

CRNN

CRNN 全称为 **Convolutional Recurrent Neural Network,**主要用于端到端地对不定长的文本序列进行识别,不用先对单个文字进行切割,而是将文本识别转化为时序依赖的序列学习问题,就是基于图像的序列识别。