Para datasets de video se encontro la siguiente herramienta: https://cvat.org/. permite interpolar las etiquetas para un etiquetado semi-automatico. También tiene una opción de etiquetado automático en base a modelos como YOLO o Fast R-CNN, pero su documentación para la instalación de estos modelos es escasa.
Se pueden transformar facilmente el formato datasets con https://app.roboflow.com/, también permite cambiar el tamaño de las imagenes ya etiquetadas, hacer preprocesamiento y data augmentation. Tiene una version de paga pero es posible aprovechar que la creación de gmails es gratis para no pagarla.
https://colab.research.google.com/drive/1MK9myy60QNr0Ng8dpJLfQ203udN9kjGo?usp=sharing
https://colab.research.google.com/drive/1Tr-riHCykq3Eo_QKPrCbyFgtaotJlKDb?usp=sharing
Se podria estimar la distancia de un objeto usando la semejanza de triángulos, la cuál, utiliza la anchura W de un objeto conocido, usando la anchura aparente P en Pixeles que la cámara capta en un determinado momento, es necesario tener una distancia de referencia D, para calcular ladistancia focal de la cámara, con esos 3 valores, se puede aplicar la siguiente fórmula:
$$ \begin{equation} F = \frac{PxD}{W}\end{equation} $$
Con el cálculo de la distancia focal se puede estimar la variación de la distancia entre el objeto de referencia y la cámara, haciendo uso de la siguiente ecuación:
Teniendo la posición de las personas por el modelo de reconocimiento y la profundidad de los objetos (ya sea por la implementacion de una camara RGBD o la estimación de una imagen 2D como de la anterior sección). Se podría implementar la distancia Euclidiana para saber distancia entre dos puntos, que tomando en cuenta la profundidad se tendria 3 dimensiones, entonces se tendria que usar la siguiente formula:
$$ \begin{equation} d(x1,x2)=\sqrt{(x1-x2)^2+(y1-y2)^2+(z1-z2)^2} \end{equation} $$