<aside> 💡
비디오 → 객체 탐지 → text generator Model → 의료AI → LLM → 레포트 생성
</aside>
https://github.com/luiscarlosgph/list-of-surgical-tool-datasets
단계 | 모델(권장) | 이유/메모 |
---|---|---|
탐지 | YOLOv8n/s (Ultralytics, custom fine-tune) | 실시간성+성능 균형, 수술 도구 검출 사례 다수. EndoVis로 파인튜닝. (ResearchGate, opencas.dkfz.de) |
트래킹 | ByteTrack | 간단하고 강력한 MOT, 파이썬 예제 풍부. (GitHub, datature.com) |
캡션 | BLIP base (ViT-B) | 8GB 친화, 품질/속도 균형, 코드/모델카드 충실. (Hugging Face, GitHub) |
의료 LLM | BioMistral-7B (4bit) | 의료 특화 7B, Apache-2.0, 4bit로 8GB 적합. (Hugging Face) |
대안(통합) | LLaVA-Med v1.5-Mistral-7B (4bit) | 이미지 직접 해석·QA. 세팅 이슈 주의. (Hugging Face) |
System: 당신은 외과 리포트 작성 보조 AI입니다.
User: 다음 evidence를 근거로 수술 단계별 요약과 합병증 리스크, 추후 지시를 작성하세요.
- Patient: {age/sex/proc}
- Step: {timestamp}, Caption: "{blip_caption}", Tools: {detected_tools}, Location: {anatomy}
- ... (여러 키프레임 반복)
요구 형식:
[Procedure Summary]
[Instruments & Key Events (타임라인)]
[Findings]
[Complications & Risk]
[Post-op Instructions]
용어는 표준 의학용어(영문) 사용.
도메인 | 객체탐지 | 캡셔닝 | LLM | 대표 데이터셋 |
---|---|---|---|---|
스포츠 분석 | YOLOv8 + ActionFormer | BLIP | LLaMA2 | SoccerNet, SportsMOT |
제조 품질관리 | YOLOv8-seg + SAM | BLIP | GPT-J | MVTec, DAGM |
교통 사고 리포트 | YOLOv8 + ByteTrack | BLIP | LLaVA | KITTI, UA-DETRAC |
농업 분석 | YOLOv8 + U-Net | BLIP | AgriGPT | PlantVillage |
법의학 분석 | Detectron2 | BLIP-2 | LawLLaMA | NIJ, ForenLab |
[입력] 현장 CCTV 영상 / 사진
↓
[1] 증거물 객체탐지 (혈흔, 무기, 시신, 차량, 신체부위 등)
↓
[2] 이미지 캡셔닝 (시각정보 → 설명문 생성)
↓
[3] 법의학 LLM 분석 (의미 해석 및 사건 리포트 생성)
↓
[출력] 사건 리포트, 증거 요약, 위험도 분석