Spatio-Temporal Attention Mechanism for Activity Recognition

Srijan Das

Résumé

This thesis targets recognition of human actions in videos. Action recognition is a complicated task in the field of computer vision due to its high complex challenges. With the emergence of deep learning and large scale datasets from internet sources, substantial improvements have been made in video understanding. For instance, state-of-the-art 3D convolutional networks like I3D pre-trained on huge datasets like Kinetics have successfully boosted the recognition of actions from internet videos. But, these networks with rigid kernels applied across the whole space-time volume cannot address the challenges exhibited by Activities of Daily Living (ADL). We are particularly interested in discriminative video representation for ADL. Besides the challenges in generic videos, ADL exhibits - (i) fine-grained actions with short and subtle motion like pouring grain and pouring water, (ii) actions with similar visual patterns differing in motion patterns like rubbing hands and clapping, and finally (iii) long complex actions like cooking. In order to address these challenges, we have made three key contributions. The first contribution includes a multi-modal fusion strategy to take the benefits of multiple modalities into account for classifying actions. However the question remains, how to combine multiple modalities in an end-to-end manner? How can we make use of the 3D information to guide the current state-of-the-art RGB networks for action classification? To this end, our second contribution is a pose driven attention mechanism for action classification. We propose, three variants of spatio-temporal attention mechanisms exploiting RGB and 3D pose modalities to address the aforementioned challenges (i) and (ii) for short actions. Our third main contribution is a Temporal Model combining temporal representation and attention mechanism. The video representation retaining dense temporal information enables the temporal model to model long complex actions which is crucial for ADL. We have evaluated our first contribution on three small-scale public datasets: CAD-60, CAD-120 and MSRDailyActivity3D. We have evaluated our second and third contributions on four public datasets: a large scale human activity dataset: NTU-RGB+D 120, its subset NTU-RGB+D 60, a real-world challenging human activity dataset: Toyota Smarthome and a small scale human-object interaction dataset Northwestern UCLA. Our experiments show that the methods proposed in this thesis outperform the state-of-the-art results.

Cette thèse vise la reconnaissance d’actions humaines dans des vidéos. La reconnaissance d’actions est une tâche difficile en vision par ordinateur posant de nombreux défis complexes. Avec l’émergence de l’apprentissage en profondeur et de très grandes bases de données provenant d’Internet, des améliorations substantielles ont été apportées à la reconnaissance de vidéos. Par exemple, des réseaux de convolution 3D de pointe comme I3D pré-entrainés sur d’énormes bases de données comme Kinetics ont réussi à améliorer substantiellement la reconnaissance d’actions de vidéos Internet. Mais, ces réseaux à noyaux rigides appliqués sur l’ensemble du volume espace-temps ne peuvent pas relever les défis présentés par les activités de la vie quotidienne (ADL). Nous sommes plus particulièrement intéressés par la reconnaissance vidéo pour les activités de la vie quotidienne ou ADL. Outre les défis des vidéos génériques, les ADL présentent - (i) des actions à grain fin avec des mouvements courts et subtils comme verser du grain ou verser de l’eau, (ii) des actions avec des modèles visuels similaires différant par des modèles de mouvement comme se frotter les mains ou applaudir, et enfin (iii) de longues actions complexes comme faire la cuisine. Afin de relever ces défis, nous avons apporté trois contributions principales. La première contribution comprend une stratégie de fusion multimodale pour prendre en compte les avantages des modalités multiples pour classer les actions. Cependant, la question demeure: comment com-biner plusieurs modalités de bout en bout? Comment pouvons-nous utiliser les informations 3D pour guider les réseaux RVB de pointe actuels pour la classification des actions? À cette fin, notre deuxième contribution est un mécanisme d’attention axé sur la pose pour la classification des actions. Nous proposons trois variantes de mécanismes d’attention spatio-temporelle exploitant les modalités de pose RVB et 3D pour relever les défis susmentionnés (i) et (ii) pour des actions courtes. Notre troisième contribution principale est un modèle temporel combinant représentation temporelle et mécanisme d’attention. La représentation vidéo conservant des informations temporelles denses permet au modèle temporel de modéliser de longues actions complexes, ce qui est crucial pour les ADL. Nous avons évalué notre première contribution sur trois petites bases de données publiques: CAD-60, CAD-120 et MSRDailyActivity3D. Nous avons évalué nos deuxième et troisième contributions sur quatre bases de données publiques: une très base de données d’activité humaine: NTU-RGB + D 120, son sous-ensemble NTU-RGB + D 60, une base de données d’activité humaine difficile du monde réel: Toyota Smarthome et une base de données d’interaction personne-objet de petite dimension Northwestern UCLA. Nos expériences montrent que les méthodes proposées dans cette thèse surpassent les résultats de pointe.

Spatio-Temporal Attention Mechanism for Activity Recognition

Mécanismes d'Attention Spatio-temporels pour la Reconnaissance d'Activité

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager