주제

<aside> 💡

비디오 → 객체 탐지 → text generator Model → 의료AI → LLM → 레포트 생성

</aside>

데이터셋

https://github.com/luiscarlosgph/list-of-surgical-tool-datasets

Datasets

단계 모델(권장) 이유/메모
탐지 YOLOv8n/s (Ultralytics, custom fine-tune) 실시간성+성능 균형, 수술 도구 검출 사례 다수. EndoVis로 파인튜닝. (ResearchGate, opencas.dkfz.de)
트래킹 ByteTrack 간단하고 강력한 MOT, 파이썬 예제 풍부. (GitHub, datature.com)
캡션 BLIP base (ViT-B) 8GB 친화, 품질/속도 균형, 코드/모델카드 충실. (Hugging Face, GitHub)
의료 LLM BioMistral-7B (4bit) 의료 특화 7B, Apache-2.0, 4bit로 8GB 적합. (Hugging Face)
대안(통합) LLaVA-Med v1.5-Mistral-7B (4bit) 이미지 직접 해석·QA. 세팅 이슈 주의. (Hugging Face)
System: 당신은 외과 리포트 작성 보조 AI입니다. 
User: 다음 evidence를 근거로 수술 단계별 요약과 합병증 리스크, 추후 지시를 작성하세요.
- Patient: {age/sex/proc}
- Step: {timestamp}, Caption: "{blip_caption}", Tools: {detected_tools}, Location: {anatomy}
- ... (여러 키프레임 반복)
요구 형식: 
[Procedure Summary] 
[Instruments & Key Events (타임라인)]
[Findings]
[Complications & Risk]
[Post-op Instructions]
용어는 표준 의학용어(영문) 사용.

도메인 객체탐지 캡셔닝 LLM 대표 데이터셋
스포츠 분석 YOLOv8 + ActionFormer BLIP LLaMA2 SoccerNet, SportsMOT
제조 품질관리 YOLOv8-seg + SAM BLIP GPT-J MVTec, DAGM
교통 사고 리포트 YOLOv8 + ByteTrack BLIP LLaVA KITTI, UA-DETRAC
농업 분석 YOLOv8 + U-Net BLIP AgriGPT PlantVillage
법의학 분석 Detectron2 BLIP-2 LawLLaMA NIJ, ForenLab
[입력]  현장 CCTV 영상 / 사진
    ↓
[1] 증거물 객체탐지 (혈흔, 무기, 시신, 차량, 신체부위 등)
    ↓
[2] 이미지 캡셔닝 (시각정보 → 설명문 생성)
    ↓
[3] 법의학 LLM 분석 (의미 해석 및 사건 리포트 생성)
    ↓
[출력] 사건 리포트, 증거 요약, 위험도 분석