个人理解

**创新点：**相对于CornetNet（需要预测两个点）、ExtremeNet（需要预测5个点），并且都需要使用 grouping 操作来对预测出的点进行分组，而CenterNet只需要预测一个中心点，然后再根据该中心点回归出偏移量和宽高，则能够完成目标检测任务。并且只需要对该网络做一点点修改，便能完成其他任务，对于3D BBox检测：只需要从特征图的峰值点位置回归目标的深度信息，3D框的尺寸，目标朝向；**对于人姿态估计：**作者将关节点（2D joint）位置作为中心点的偏移量，直接在中心点位置回归出这些偏移量的值。
为什么：当前主流的（anchor-based）检测任务将对象标识为图像中的轴对齐的框。大多数目标检测器枚举一个几乎详尽的潜在对象位置列表，并对每个位置进行分类（将目标检测简化为图像分类），使用NMS进行过滤，耗时耗力，
**怎么做：**作者将检测任务当做一个目标中心点的检测，即将目标检测当做关键点检测，然后根据关键点所处的位置来回归出其他所需要的属性，例如中心点偏移量，矩形框的宽高。

一、摘要

Detection identififies objects as axis-aligned boxes in an image. Most successful object detectors enumerate a nearly exhaustive list of potential object locations and classify each. This is wasteful, ineffificient, and requires additional post-processing. In this paper, we take a different approach. We model an object as a single point — the center point of its bounding box. Our detector uses keypoint estimation to fifind center points and regresses to all other object properties, such as size, 3D location, orientation, and even pose. Our center point based approach, CenterNet, is end-to-end differentiable, simpler, faster, and more accurate than corresponding bounding box based detectors. CenterNet achieves the best speed-accuracy trade-off on the MS COCO dataset, with 28*.1% AP at 142 FPS, 37.4% AP at 52 FPS, and 45.*1% AP with multi-scale testing at 1.4 FPS. We use the same approach to estimate 3D bounding box in the KITTI benchmark and human pose on the COCO keypoint dataset. Our method performs competitively with sophisticated multi-stage methods and runs in real-time.

目标检测的主流方式是将候选目标描述成一个边界框（anchor-based），这些边界框可以把待检测的目标包围在内，将复杂的目标检测问题转换成目标的分类问题，而边界框内的图片可以分为特定想区分的物体或者是背景。这种方法都需要先设置候选框，并进行复杂的，且重复度较多的计算，并且最后运算的结果还需要通过nms进行后处理，无法实现真正的端到端训练和推理。
而本文则将目标描述成一个中心点（目标的矩形框的中心点,anchor-free），目标的其他特性，如尺寸，方向和姿态等则通过在特征图中直接回归得到，这种方法原理简单，兼容性强，且无需复杂的后处理，实现真正的端到端。

二、研究背景

当前主流的方法（anchor-based）：检测将对象标识为图像中的轴对齐的框。大多数目标检测器枚举一个几乎详尽的潜在对象位置列表，并对每个位置进行分类（将目标检测简化为图像分类），使用NMS进行过滤，耗时耗力，
- one stage detectors: 在图像上滑动复杂排列的bounding bbox（即anchor）,然后直接对框进行分类，而不会指定框中内容
- **two-stage detectors：**对每个潜在框（anchor）重新计算图像特征，然后将那些特征进行分类
无论是one-stage还是two-stage都需要使用 NMS（非极大值抑制）进行后处理，通过计算Bbox间的IOU来删除同个目标的重复检测框。这种后处理很难区分和训练，因此现有大多检测器都不是端到端可训练的
本论文提出的方法：将一个对象建模为一个单个点——其边界框的中心点。检测器使用关键点估计来寻找中心点，并回归到所有其他对象属性，如大小、三维位置、方向，甚至姿势，具体如下图所示。

即目标检测问题变成了一个标准的关键点估计问题。作者仅仅将图像传入全卷积网络，得到一个热力图，热力图峰值点即中心点，根据每个特征图的峰值点位置回归预测了目标的宽高信息等

模型训练采用标准的监督学习，推理仅仅是单个前向传播网络，不存在NMS这类后处理
创新点：本文用对象的边界框中心的单个点来表示对象(将目标描述成一个中心点，见图2）而其他属性，如物体的大小、尺寸、三维范围、方向和姿态，则直接从中心位置的图像特征进行回归。