TimeProVe: 일상생활 활동 장시간 비디오에서 효율적인 시간 추론을 위한 '제안 후 검증' 방식

TimeProVe: Propose, then Verify for Efficient Long Video Temporal Reasoning in Activities of Daily Living

💡 이 논문은 긴 비디오에서 질문에 답할 때, 기존 방식의 높은 비용 문제를 해결하기 위해 '가설 제안'과 '선택적 검증'을 결합한 새로운 프레임워크 TimeProVe를 제안합니다. 이를 통해 비용은 크게 줄이면서도 성능은 향상시켰습니다.

핵심 요약

무엇을 · 장시간 비디오 질문 응답(LVQA)은 몇 시간 길이의 편집되지 않은 비디오에서 질문과 관련된 특정 순간의 증거를 찾아야 하는 어려운 과제입니다. 기존 방법들은 비디오 전체를 처리하거나 텍스트 캡션에만 의존하여 비효율적이거나 중요한 정보를 놓치는 문제가 있었습니다.
어떻게 · TimeProVe는 '제안 후 검증'이라는 하이브리드 접근 방식을 사용합니다. 먼저 가벼운 모듈을 사용하여 비디오 속 행동을 기반으로 답변과 증거에 대한 가설을 생성합니다. 그 다음, 비용이 많이 드는 대규모 비전-언어 모델(VLM)은 이 가설들을 검증하는 데만 선택적으로 사용됩니다. 핵심은 '행동 기반 후보 증거(ACE)' 모듈로, 이는 시간적으로 특정된 행동을 가벼운 대규모 언어 모델(LLM) 추론을 통해 질문에 맞는 후보 답변과 증거 구간으로 변환합니다.
결과 · 새로운 벤치마크인 OpenTSUBench(OTB)에서 TimeProVe는 가장 강력한 기존 모델보다 7.3% 더 나은 성능을 보였습니다. 동시에 VLM 호출을 75% 줄이고 추론 비용을 93% 절감했습니다. 또한, 시간적 근거 훈련 없이도 Charades-STA 데이터셋에서 경쟁력 있는 성능을 달성했으며, 근거 VLM과 결합했을 때는 최첨단 결과를 얻었습니다.

기존의 장시간 비디오 분석 방식은 엄청난 계산 비용이 들거나 중요한 시각적 정보를 놓치는 한계가 있었습니다. TimeProVe는 이러한 문제를 해결하여 효율성과 정확성을 동시에 높일 수 있는 새로운 길을 제시합니다.

이 기술은 CCTV 영상 분석, 온라인 강의나 회의록 요약, 스포츠 경기 하이라이트 생성, 자율주행 차량의 상황 인지 등 장시간 비디오에서 특정 정보를 빠르게 찾아야 하는 다양한 분야에 적용되어 시간과 비용을 크게 절감할 수 있습니다.

초록에는 명시적인 한계점이 언급되어 있지 않습니다. 다만, '가벼운 모듈'이 생성하는 가설의 정확성이 전체 시스템의 성능에 큰 영향을 미칠 수 있으며, '선택적 검증' 과정에서 중요한 정보가 누락될 가능성도 배제할 수 없습니다.

#장시간 비디오#질문 응답#효율성

arXiv 원문 보기 → Arkaprava Sinha, Dominick Reilly, Siddharth Krishnan 외 · 2026-06-18 · arXiv:2606.20561

이 요약이 유용했나요?

※ 이 요약은 AI 보조로 생성하고 사람이 검수했습니다. 난이도·실생활 영향·톤은 본 사이트의 편집 의견이며, 정확한 내용은 반드시 원문(arXiv)을 확인하세요. 번역은 AI 기반으로 오역 가능성이 있습니다. 출처: arXiv (2606.20561).