DVMM Lab, Columbia UniversityVideo Event Recognition Video Event Recognition: Multilevel Pyramid Matching Dong Xu and Shih-Fu Chang Digital Video and Multimedia.

Slides:

Advertisements

Similar presentations

Shape Context and Chamfer Matching in Cluttered Scenes

Advertisements

Pseudo-Relevance Feedback For Multimedia Retrieval By Rong Yan, Alexander G. and Rong Jin Mwangi S. Kariuki

DONG XU, MEMBER, IEEE, AND SHIH-FU CHANG, FELLOW, IEEE Video Event Recognition Using Kernel Methods with Multilevel Temporal Alignment.

Human Identity Recognition in Aerial Images Omar Oreifej Ramin Mehran Mubarak Shah CVPR 2010, June Computer Vision Lab of UCF.

Automatic Video Shot Detection from MPEG Bit Stream Jianping Fan Department of Computer Science University of North Carolina at Charlotte Charlotte, NC.

One-Shot Learning Gesture Recognition Students:Itay Hubara Amit Nishry Supervisor:Maayan Harel Gal-On.

Patch to the Future: Unsupervised Visual Prediction

Detecting Categories in News Video Using Image Features Slav Petrov, Arlo Faria, Pascal Michaillat, Alex Berg, Andreas Stolcke, Dan Klein, Jitendra Malik.

Visual Event Detection & Recognition Filiz Bunyak Ersoy, Ph.D. student Smart Engineering Systems Lab.

Ghunhui Gu, Joseph J. Lim, Pablo Arbeláez, Jitendra Malik University of California at Berkeley Berkeley, CA

Broadcast News Parsing Using Visual Cues: A Robust Face Detection Approach Yannis Avrithis, Nicolas Tsapatsoulis and Stefanos Kollias Image, Video & Multimedia.

Content-based Video Indexing, Classification & Retrieval Presented by HOI, Chu Hong Nov. 27, 2002.

Toward Semantic Indexing and Retrieval Using Hierarchical Audio Models Wei-Ta Chu, Wen-Huang Cheng, Jane Yung-Jen Hsu and Ja-LingWu Multimedia Systems,

Event prediction CS 590v. Applications Video search Surveillance – Detecting suspicious activities – Illegally parked cars – Abandoned bags Intelligent.

Image Search Presented by: Samantha Mahindrakar Diti Gandhi.

ADVISE: Advanced Digital Video Information Segmentation Engine

Face Detection: a Survey Speaker: Mine-Quan Jing National Chiao Tung University.

Multimedia Search and Retrieval Presented by: Reza Aghaee For Multimedia Course(CMPT820) Simon Fraser University March.2005 Shih-Fu Chang, Qian Huang,

T.Sharon 1 Internet Resources Discovery (IRD) Video IR.

Video Search Engines and Content-Based Retrieval Steven C.H. Hoi CUHK, CSE 18-Sept, 2006.

A fuzzy video content representation for video summarization and content-based retrieval Anastasios D. Doulamis, Nikolaos D. Doulamis, Stefanos D. Kollias.

Face Recognition and Retrieval in Video Basic concept of Face Recog. & retrieval And their basic methods. C.S.E. Kwon Min Hyuk.

Representative Previous Work

Bag of Video-Words Video Representation

Computer vision.

Bridge Semantic Gap: A Large Scale Concept Ontology for Multimedia (LSCOM) Guo-Jun Qi Beckman Institute University of Illinois at Urbana-Champaign.

Action recognition with improved trajectories

Problem Statement A pair of images or videos in which one is close to the exact duplicate of the other, but different in conditions related to capture,

Università degli Studi di Modena and Reggio Emilia Dipartimento di Ingegneria dell’Informazione Prototypes selection with.

Characterizing activity in video shots based on salient points Nicolas Moënne-Loccoz Viper group Computer vision & multimedia laboratory University of.

Marcin Marszałek, Ivan Laptev, Cordelia Schmid Computer Vision and Pattern Recognition, CVPR Actions in Context.

Searching and Browsing Video in Face Space Lee Begeja Zhu Liu Video and Multimedia Technologies Research.

A Comparison Between Bayesian Networks and Generalized Linear Models in the Indoor/Outdoor Scene Classification Problem.

Tactic Analysis in Football Instructors: Nima Najafzadeh Mahdi Oraei Spring

Video Based Palmprint Recognition Chhaya Methani and Anoop M. Namboodiri Center for Visual Information Technology International Institute of Information.

Multimodal Information Analysis for Emotion Recognition

DIEGO AGUIRRE COMPUTER VISION INTRODUCTION 1. QUESTION What is Computer Vision? 2.

IBM QBIC: Query by Image and Video Content Jianping Fan Department of Computer Science University of North Carolina at Charlotte Charlotte, NC 28223

Character Identification in Feature-Length Films Using Global Face-Name Matching IEEE TRANSACTIONS ON MULTIMEDIA, VOL. 11, NO. 7, NOVEMBER 2009 Yi-Fan.

PSEUDO-RELEVANCE FEEDBACK FOR MULTIMEDIA RETRIEVAL Seo Seok Jun.

Robust Object Tracking by Hierarchical Association of Detection Responses Present by fakewen.

Event retrieval in large video collections with circulant temporal encoding CVPR 2013 Oral.

CVPR2013 Poster Detecting and Naming Actors in Movies using Generative Appearance Models.

March 31, 1998NSF IDM 98, Group F1 Group F Multi-modal Issues, Systems and Applications.

First-Person Activity Recognition: What Are They Doing to Me? M. S. Ryoo and Larry Matthies Jet Propulsion Laboratory, California Institute of Technology,

Image Classification for Automatic Annotation

Chittampally Vasanth Raja vasanthexperiments.wordpress.com.

Looking at people and Image-based Localisation Roberto Cipolla Department of Engineering Research team

Bachelor of Engineering In Image Processing Techniques For Video Content Extraction Submitted to the faculty of Engineering North Maharashtra University,

MMDB-9 J. Teuhola Standardization: MPEG-7 “Multimedia Content Description Interface” Standard for describing multimedia content (metadata).

Semantic Extraction and Semantics-Based Annotation and Retrieval for Video Databases Authors: Yan Liu & Fei Li Department of Computer Science Columbia.

Using Cross-Media Correlation for Scene Detection in Travel Videos.

Multimedia Systems and Communication Research Multimedia Systems and Communication Research Department of Electrical and Computer Engineering Multimedia.

Query by Image and Video Content: The QBIC System M. Flickner et al. IEEE Computer Special Issue on Content-Based Retrieval Vol. 28, No. 9, September 1995.

Classifying Covert Photographs CVPR 2012 POSTER. Outline  Introduction  Combine Image Features and Attributes  Experiment  Conclusion.

Image features and properties. Image content representation The simplest representation of an image pattern is to list image pixels, one after the other.

SUMMERY 1. VOLUMETRIC FEATURES FOR EVENT DETECTION IN VIDEO correlate spatio-temporal shapes to video clips that have been automatically segmented we.

Ontology-based Automatic Video Annotation Technique in Smart TV Environment Jin-Woo Jeong, Hyun-Ki Hong, and Dong-Ho Lee IEEE Transactions on Consumer.

Naifan Zhuang, Jun Ye, Kien A. Hua

Digital Video Library - Jacky Ma.

Automatic Video Shot Detection from MPEG Bit Stream

Traffic Sign Recognition Using Discriminative Local Features Andrzej Ruta, Yongmin Li, Xiaohui Liu School of Information Systems, Computing and Mathematics.

Multimedia Content-Based Retrieval

Image Segmentation Techniques

2 variants: Global fusion & Local perturbation

The Open World of Micro-Videos

Xiaodan Liang Sun Yat-Sen University

Multimedia Information Retrieval

Introduction to Object Tracking

Presentation transcript:

DVMM Lab, Columbia UniversityVideo Event Recognition Video Event Recognition: Multilevel Pyramid Matching Dong Xu and Shih-Fu Chang Digital Video and Multimedia Lab Department of Electrical Engineering Columbia University *Courtesy to Eric Zavesky for preparing for the slides

DVMM Lab, Columbia UniversityVideo Event Recognition Video Event Recognition: Problem Online video search and video indexing Events characterized by an evolution of scenes, objects and actions over time 56 events are defined in LSCOM Airplane Flying Car Exiting

DVMM Lab, Columbia UniversityVideo Event Recognition Video Event Recognition : Challenges Geometric and photometric variances Clutter background Complex camera motion and object motion

DVMM Lab, Columbia UniversityVideo Event Recognition Event Recognition : Object Tracking Detect interest object, track over time, and model spatio-temporal dynamics Hard to detect events without explicit object motion, such as Riot Object Detection & Localization Tracking Inference “Airplane Landing” ?

DVMM Lab, Columbia UniversityVideo Event Recognition Event Recognition : Key-Frame based Matching Only key-frame is used for matching. Low-level feature extraction, compare to other frames, overall decision on matching... KeyframeFeature 15% 18% 50% Similarity

DVMM Lab, Columbia UniversityVideo Event Recognition multi-level pyramid matching Event Recognition : Multi-level Pyramid Matching feature extraction concept detectors EMDdistanceEMDdistance... X

DVMM Lab, Columbia UniversityVideo Event Recognition Content Representation: Low-level Features edge direction histogram grid color moment σσσ μμμγγγ Gabor texture

DVMM Lab, Columbia UniversityVideo Event Recognition Train detectors on low-level features Mid-level semantic concept feature is more robust Developed and released 374 semantic concept detectors Concept Detectors Content Representation: Mid-level Semantic Concept Scores Image Database + -

DVMM Lab, Columbia UniversityVideo Event Recognition Earth Mover’s Distance (EMD): Approach d ij Supplier P is with a given amount of goods Receiver Q is with a given limited capacity Weights: Solved by linear programming Temporal shift: a frame at the beginning of P can be mapped to a frame at the end of Q Scale variations: a frame from P can be mapped to multiple frames in Q 1 1/2 1/2

DVMM Lab, Columbia UniversityVideo Event Recognition Multi-level Pyramid Matching : Motivations One Clip = several subclips (stages of event evolution) No prior knowledge about the number of stages in an event Videos of the same event may include only a subset of stages Solution: Multi-level pyramid matching in temporal domain

DVMM Lab, Columbia UniversityVideo Event Recognition Fusion of information from different levels. Alignment of different subclips (Level-1 as an example) EMD Distance Matrix between Sub-clips Integer-value Alignment Smoke Fire Smoke Level-0 Level-1 Temporally Constrained Hierarchical Agglomerative Clustering Fire Multi-level Pyramid Matching: Algorithm Level-2

DVMM Lab, Columbia UniversityVideo Event Recognition Pyramid Matching : Projected Illustration First stage of shot 1 Second stage of shot 1 First stage of shot 2 Second stage of shot 2 Negative shots

DVMM Lab, Columbia UniversityVideo Event Recognition Experiments : Keyframe based feature performance Dataset: TRECVID2005 Evaluation Metric: Average Precision

DVMM Lab, Columbia UniversityVideo Event Recognition Experiments : EMD concept performance

DVMM Lab, Columbia UniversityVideo Event Recognition Experiments : Benefits of multi-level pyramid fusion

DVMM Lab, Columbia UniversityVideo Event Recognition  Single-level EMD outperforms key-frame based method. Multi-level Pyramid Matching further improves event detection accuracy.  First systematic study of diverse visual event recognition in the unconstrained broadcast news domain. Video Event Recognition: Conclusions