노현지 : AI 생성형 모델

주제

<aside> 💡

비디오 → 객체 탐지 → text generator Model → 의료AI → LLM → 레포트 생성

</aside>

데이터셋

https://github.com/luiscarlosgph/list-of-surgical-tool-datasets

단계	모델(권장)	이유/메모
탐지	YOLOv8n/s (Ultralytics, custom fine-tune)	실시간성+성능 균형, 수술 도구 검출 사례 다수. EndoVis로 파인튜닝. (ResearchGate, opencas.dkfz.de)
트래킹	ByteTrack	간단하고 강력한 MOT, 파이썬 예제 풍부. (GitHub, datature.com)
캡션	BLIP base (ViT-B)	8GB 친화, 품질/속도 균형, 코드/모델카드 충실. (Hugging Face, GitHub)
의료 LLM	BioMistral-7B (4bit)	의료 특화 7B, Apache-2.0, 4bit로 8GB 적합. (Hugging Face)
대안(통합)	LLaVA-Med v1.5-Mistral-7B (4bit)	이미지 직접 해석·QA. 세팅 이슈 주의. (Hugging Face)

System: 당신은 외과 리포트 작성 보조 AI입니다. 
User: 다음 evidence를 근거로 수술 단계별 요약과 합병증 리스크, 추후 지시를 작성하세요.
- Patient: {age/sex/proc}
- Step: {timestamp}, Caption: "{blip_caption}", Tools: {detected_tools}, Location: {anatomy}
- ... (여러 키프레임 반복)
요구 형식: 
[Procedure Summary] 
[Instruments & Key Events (타임라인)]
[Findings]
[Complications & Risk]
[Post-op Instructions]
용어는 표준 의학용어(영문) 사용.

도메인	객체탐지	캡셔닝	LLM	대표 데이터셋
스포츠 분석	YOLOv8 + ActionFormer	BLIP	LLaMA2	SoccerNet, SportsMOT
제조 품질관리	YOLOv8-seg + SAM	BLIP	GPT-J	MVTec, DAGM
교통 사고 리포트	YOLOv8 + ByteTrack	BLIP	LLaVA	KITTI, UA-DETRAC
농업 분석	YOLOv8 + U-Net	BLIP	AgriGPT	PlantVillage
법의학 분석	Detectron2	BLIP-2	LawLLaMA	NIJ, ForenLab

[입력]  현장 CCTV 영상 / 사진
    ↓
[1] 증거물 객체탐지 (혈흔, 무기, 시신, 차량, 신체부위 등)
    ↓
[2] 이미지 캡셔닝 (시각정보 → 설명문 생성)
    ↓
[3] 법의학 LLM 분석 (의미 해석 및 사건 리포트 생성)
    ↓
[출력] 사건 리포트, 증거 요약, 위험도 분석