Le projet DigInPix : Nos questions à l’INA

Diginpix est un projet innovant conçu et développé le département Recherche à l’INA qui sera présenté à Futur en Seine cette année. Quelle a été sa genèse et le contexte d’innovation dans lequel il a émergé ? De quel constat, avec quels moyens (cellule innovation, appui sur des produits issus de la R&D, etc…) et quels objectifs (besoins exprimés, stratégie, cible…) êtes-vous partis ?

DigInPix est un projet porté par Pierre Letessier et Nicolas Hervé, tout deux ingénieurs au département Recherche de l’Ina, et développé avec la participation de sa DSI. L’Ina imagine depuis déjà de nombreuses années des solutions permettant de faire évoluer ses application métiers en leur offrant la possibilité d’ingérer des métadonnées calculées automatiquement par des algorithmes, notamment de vision par ordinateur. Les chercheurs de l’Ina ont pour habitude de rencontrer fréquemment les directions opérationnelles afin de faire germer des idées et des besoins qui, couplées aux avancées de l’état de l’art et aux recherches en interne, permettent de concevoir des prototypes. Ces prototypes sont ensuite présentés aux utilisateurs afin de recueillir leur réactions. Lorsque l’intérêt est fort, comme ce fut le cas pour DigInPix, le prototype est retravaillé afin de lui faire franchir de nouvelles étapes, en termes de volume de données, d’ergonomie, etc.  Les aspects recherches ont été en parti financés par les projets collaboratifs OTMedia (financé par l’ANR) et Vitalas (projet FP6), mais la réalisation du système dans son ensemble s’est faite grâce à un financement interne, dont l’origine repose sur la volonté de l’Ina de faire connaitre ses activités innovantes du grand public et de ses partenaires.

Quelle est l’importance au sein de la démarche d’innovation de valoriser les données de l’INA ? Que faites-vous des métadonnées ?

La valorisation des données est l’une des activités essentielles de l’Ina, puisqu’une archive dont le contenu n’est pas documenté ne peut logiquement pas être accessible via nos moteurs de recherche. Ce travail de documentation et de valorisation est effectué par les documentalistes de l’Ina. Aujourd’hui, nous constatons que les avancées technologiques nous permettent d’être complémentaire avec ce travail humain, qu’il s’agisse d’annotation complètement automatique ou d’interaction en intègrant ces technologies au sein même des applications métiers. Des évolutions sur le système informatique de l’INA sont en cours d’étude en ce sens.

Diginpix est un moteur de recherche visuelle : comment fonctionne-t-il et sur quelles technologies est-il basé ?

DigInPix est un système d’identification (reconnaissance) d’objets fonctionnant grâce à un moteur de recherche visuelle. A chaque requête, le système compare l’image à l’ensemble des images (600.000 à l’heure actuelle) de la base d’apprentissage afin de trouver des similarités visuelles. Les images de la base d’apprentissage étant chacune associées avec l’un des 25.000 objets identifiables (uniquement des logos pour l’instant), il est alors possible d’associer l’image requête avec un ou plusieurs objets. Plus concrètement, la comparaison des images est effectuée par le biais d’un moteur de recherche basé sur le contenu. Il utilise une description des images avec des descripteurs SIFT, qui sont ensuite compressés sur 128 bit à l’aide de fonctions de hachage (obtenues par PCA). Les descripteurs ainsi compressés sont alors indexés dans une base de données permettant une recherche approximative par KNN, dont la qualité est réglable dynamiquement selon le temps de calcul attendu. Une dernière étape permet de supprimer certaines incohérences géométriques dans les résultats, par l’application de différents filtres et d’un algorithme de type RANSAC. Ce moteur de recherche visuelle est en co-propriété INA/INRIA puisqu’il a été développé en partenariat avec l’équipe-projet IMEDIA (Rocquencourt) puis ZENITH (Montpellier). La constitution de la base d’apprentissage a été réalisée en effectuant des requêtes dans des moteurs d’images (à l’aide de requêtes textuelles) et en récupérant les images ainsi obtenues. La qualité des résultats est souvent très variable selon les objets, et nous cherchons aujourd’hui à mettre en œuvre un système de collecte de données représentatives, basé sur l’interaction des utilisateurs avec un système automatique de suggestion d’annotations.

Quels en sont les domaines d’application les plus porteurs ? On parle de plus en plus de la tendance des contenus shoppables (et la multiplication des acteurs sur ce créneau : WeUp, Xilopix, Moodstocks, Selectionnist, …), est-ce que cela offre de nouvelles perspectives en termes de modèle d’affaires dans l’audiovisuel ?

Notre technologie est particulièrement adaptée pour la reconnaissance d’objets non-déformables (typiquement les logos, les bâtiments, les oeuvres d’art, …) et n’est, par exemple, pas préconisée pour les vêtements. De plus, en tant que service public, l’Ina n’a pas pour rôle d’inciter les visiteurs de ses plateformes web à acheter les produits visibles au sein de ses vidéos. Le simple fait de mieux valoriser nos contenus peut par contre nous permettre de trouver de nouveaux clients qui ont alors accès à de nouvelles vidéos qui seraient restées inconnues sinon. De même, en faisant la démonstration de notre capacité à documenter plus profondément les contenus audiovisuels, c’est un message que nous envoyons aux détenteurs de fonds : « confiez nous la gestion de vos contenus, et nous vous diront ce qu’ils contiennent ». Mais nous sommes toutefois ouverts à des collaborations avec des partenaires industriels sur certaines briques technologiques.

FENS