Hugging Face 모델 | Notion

1. Video Caption Model

Video입력이 주어지면 주요 장면에 대한 “타임 스탬프”와 “캡션”이 출력으로 주어지는 단일 모델

2. 순차적으로 구현

비디오 프레임 추출 및 분석
- 초당 2-5프레임 정도 추출(OpenCV)
- 프레임 특징 추출(CNN)
주요 장면 감지
- 장면 전환 감지(색상 히스토그램 비교, 특징 벡터 비교, 프레임 차이 누적, 움직임 분석, 오디오 분석)
텍스트 캡션 생성
- TimeSformer
타임스탬프 연결
결과 반환