1. Video Caption Model

Video입력이 주어지면 주요 장면에 대한 “타임 스탬프”와 “캡션”이 출력으로 주어지는 단일 모델

2. 순차적으로 구현

  1. 비디오 프레임 추출 및 분석
  2. 주요 장면 감지
  3. 텍스트 캡션 생성
  4. 타임스탬프 연결
  5. 결과 반환