by Marcela Carvalho, Bertrand Le Saux, Pauline Trouvé, Andrés Almansa, Frédéric Champagnat
Abstract:
L'estimation de la profondeur monoculaire à l'aide de réseaux de neurones profonds a atteint aujourd'hui d'excellentes performances. Cependant, il est difficile d'établir l'influence respective de l'architecture, de la fonction de coût et des conditions d'expérimentations sur ces résultats. Dans cet article, nous présentons une nouvelle architecture, appelée D3-Net, pour l'estimation de profondeur monoculaire. Cette architecture, simple à entraîner et ne reposant pas sur des modèles analytiques de la scène nous permet d'étudier l'influence de différentes fonctions de coûts (standards et proposées dans l'état de l'art) et différentes conditions expérimentales sur les performances d'estimation de profondeur. Cette étude nous a amené à choisir une fonction de coût correspondant à la norme L1, à laquelle on ajoute une fonction de coût adversaire lors qu'un grand nombre de données est disponible. Notre méthode atteint alors les performances de l'état de l'art sur la base NYUv2. De plus les approches d'estimation de profondeur par apprentissage exploitent uniquement les structures géométriques des scènes et ne prennent pas en compte un indice depuis longtemps utilisé pour l'estimation de profondeur : le flou de défocalisation. Nous présentons ici une analyse sur données simulées qui montre le gain en performance lorsque la base contient des images avec du flou de défocalisation. Nous étudions également l'influence du flou dans la prédiction de profondeur en observant l'incertitude du modèle avec une approche de réseau de neurones bayésienne.
Reference:
Estimation de profondeur mono-image par réseaux de neurones et flou de défocalisation (Marcela Carvalho, Bertrand Le Saux, Pauline Trouvé, Andrés Almansa, Frédéric Champagnat), In RFIAP SFPT, 2018.
Bibtex Entry:
@inproceedings{Carvalho2018-RFIA,
Abstract = {L'estimation de la profondeur monoculaire {\`{a}} l'aide de r{\'{e}}seaux de neurones profonds a atteint aujourd'hui d'excellentes performances. Cependant, il est difficile d'{\'{e}}tablir l'influence respective de l'architecture, de la fonction de co{\^{u}}t et des conditions d'exp{\'{e}}rimentations sur ces r{\'{e}}sultats. Dans cet article, nous pr{\'{e}}sentons une nouvelle architecture, appel{\'{e}}e D3-Net, pour l'estimation de profondeur monoculaire. Cette architecture, simple {\`{a}} entra{\^{i}}ner et ne reposant pas sur des mod{\`{e}}les analytiques de la sc{\`{e}}ne nous permet d'{\'{e}}tudier l'influence de diff{\'{e}}rentes fonctions de co{\^{u}}ts (standards et propos{\'{e}}es dans l'{\'{e}}tat de l'art) et diff{\'{e}}rentes conditions exp{\'{e}}rimentales sur les performances d'estimation de profondeur. Cette {\'{e}}tude nous a amen{\'{e}} {\`{a}} choisir une fonction de co{\^{u}}t correspondant {\`{a}} la norme L1, {\`{a}} laquelle on ajoute une fonction de co{\^{u}}t adversaire lors qu'un grand nombre de donn{\'{e}}es est disponible. Notre m{\'{e}}thode atteint alors les performances de l'{\'{e}}tat de l'art sur la base NYUv2. De plus les approches d'estimation de profondeur par apprentissage exploitent uniquement les structures g{\'{e}}om{\'{e}}triques des sc{\`{e}}nes et ne prennent pas en compte un indice depuis longtemps utilis{\'{e}} pour l'estimation de profondeur : le flou de d{\'{e}}focalisation. Nous pr{\'{e}}sentons ici une analyse sur donn{\'{e}}es simul{\'{e}}es qui montre le gain en performance lorsque la base contient des images avec du flou de d{\'{e}}focalisation. Nous {\'{e}}tudions {\'{e}}galement l'influence du flou dans la pr{\'{e}}diction de profondeur en observant l'incertitude du mod{\`{e}}le avec une approche de r{\'{e}}seau de neurones bay{\'{e}}sienne.},
Address = {Marne La Vall{\'{e}}e, France},
Author = {Carvalho, Marcela and Saux, Bertrand Le and Trouv{\'{e}}, Pauline and Almansa, Andr{\'{e}}s and Champagnat, Fr{\'{e}}d{\'{e}}ric},
Booktitle = {RFIAP SFPT},
Keywords = {APPRENTISSAGE PROFOND,DEEP LEARNING,DEPTH FROM DEFOCUS,DFD,ESTIMATION DE LA PROFONDEUR,ESTIMATION DE PROFONDEUR,MACHINE LEARNING,PROFONDEUR PAR LE FLOU DE DEFOCALISATION,REGRESSION},
Month = {jun},
Title = {{Estimation de profondeur mono-image par r{\'{e}}seaux de neurones et flou de d{\'{e}}focalisation}},
Url = {https://hal.archives-ouvertes.fr/hal-01977877/},
Year = {2018},
Bdsk-Url-1 = {https://rfiap2018.ign.fr/sites/default/files/ARTICLES/RFIAP_2018/RFIAP_2018_Carvalho_Estimation.pdf}}