1. Video Caption Model
Video입력이 주어지면 주요 장면에 대한 “타임 스탬프”와 “캡션”이 출력으로 주어지는 단일 모델
2. 순차적으로 구현
비디오 프레임 추출 및 분석
초당 2-5프레임 정도 추출(OpenCV)
프레임 특징 추출(CNN)
주요 장면 감지
장면 전환 감지(색상 히스토그램 비교, 특징 벡터 비교, 프레임 차이 누적, 움직임 분석, 오디오 분석)
텍스트 캡션 생성
TimeSformer
타임스탬프 연결
결과 반환