Segmentación semántica bajo paradigma one-shot learning utilizando SAM y CP-CVV

  1. Duque-Domingo, Jaime 1
  2. Gómez-García-Bermejo, Jaime 1
  3. Zalama, Eduardo 1
  4. Gómez-Ramos, Raúl 2
  5. Finzi, Alberto 3
  1. 1 Universidad de Valladolid"
  2. 2 Centro de Automatización Robótica y Tecnologías de la Información y de la Fabricación
    info

    Centro de Automatización Robótica y Tecnologías de la Información y de la Fabricación

    Valladolid, España

  3. 3 Universit`a degli Studi di Napoli Federico II
Revista:
Jornadas de Automática
  1. Cruz Martín, Ana María (coord.)
  2. Arévalo Espejo, V. (coord.)
  3. Fernández Lozano, Juan Jesús (coord.)

ISSN: 3045-4093

Año de publicación: 2024

Número: 45

Tipo: Artículo

DOI: 10.17979/JA-CEA.2024.45.10772 DIALNET GOOGLE SCHOLAR lock_openAcceso abierto editor

Resumen

La detección y segmentación de objetos en escenas complejas se suele llevar a cabo mediante el entrenamiento de modelos de detección y/o segmentación que requieren el etiquetado manual de cientos de imágenes por categoría. Tanto el proceso de etiquetado como el del entrenamiento pueden llegar a ser costosos tanto computacionalmente como a nivel de esfuerzo humano. Las técnicas de segmentación genérica mediante zero-shot learning abren la posibilidad a segmentar objetos nunca antes vistos. Sin embargo, estas técnicas no son semánticas y no nos permiten identificar el objeto que se está segmentando. Nosotros proponemos el uso de un método integrado de segmentación genérica y CP-CVV para detectar y segmentar objetos a partir de una única muestra. Esta técnica permite crear un abanico de posibilidades donde se busca un aprendizaje rápido e incremental y sólo tenemos acceso a una o a un reducido número de imágenes del objeto que deseamos localizar.

Referencias bibliográficas

  • Chen, T., Xie, G.-S., Yao, Y., Wang, Q., Shen, F., Tang, Z., Zhang, J., 2021. Semantically meaningful class prototype learning for one-shot image segmentation. IEEE Transactions on Multimedia 24, 968–980. DOI: https://doi.org/10.1109/TMM.2021.3061816
  • Duque-Domingo, J., Aparicio, R. M., Rodrigo, L. M. G., 2023. One shot learning with class partitioning and cross validation voting (cp-cvv). Pattern Recognition 143, 109797. DOI: https://doi.org/10.1016/j.patcog.2023.109797
  • He, K., Gkioxari, G., Dollár, P., Girshick, R., 2017. Mask r-cnn. In: Proceedings of the IEEE international conference on computer vision. pp. 2961– 2969. DOI: https://doi.org/10.1109/ICCV.2017.322
  • Kirillov, A., Mintun, E., Ravi, N., Mao, H., Rolland, C., Gustafson, L., Xiao, T., Whitehead, S., Berg, A. C., Lo, W.-Y., et al., 2023. Segment anything. arXiv preprint arXiv:2304.02643. DOI: https://doi.org/10.1109/ICCV51070.2023.00371
  • Li, X., Wei, T., Chen, Y. P., Tai, Y.-W., Tang, C.-K., 2020. Fss-1000: A 1000- class dataset for few-shot segmentation. In: Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. pp. 2869–2878. DOI: https://doi.org/10.1109/CVPR42600.2020.00294
  • Liu, W., Anguelov, D., Erhan, D., Szegedy, C., Reed, S., Fu, C.-Y., Berg, A. C., 2016. Ssd: Single shot multibox detector. In: European conference on computer vision. Springer, pp. 21–37. DOI: https://doi.org/10.1007/978-3-319-46448-0_2
  • Liu, Y., Zhang, X., Zhang, S., He, X., 2020. Part-aware prototype network for few-shot semantic segmentation. In: Computer Vision–ECCV 2020: 16th European Conference, Glasgow, UK, August 23–28, 2020, Proceedings, Part IX 16. Springer, pp. 142–158. DOI: https://doi.org/10.1007/978-3-030-58545-7_9
  • Liu, Z., Mao, H., Wu, C.-Y., Feichtenhofer, C., Darrell, T., Xie, S., 2022. A convnet for the 2020s. arXiv preprint arXiv:2201.03545. DOI: https://doi.org/10.1109/CVPR52688.2022.01167
  • Luddecke, T., Ecker, A., 2021. The role of data for one-shot semantic segmentation. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. pp. 2653–2658.
  • Redmon, J., Divvala, S., Girshick, R., Farhadi, A., 2016. You only look once: Unified, real-time object detection. In: Proceedings of the IEEE conference on computer vision and pattern recognition. pp. 779–788. DOI: https://doi.org/10.1109/CVPR.2016.91
  • Shaban, A., Bansal, S., Liu, Z., Essa, I., Boots, B., 2017. One-shot learning for semantic segmentation. arXiv preprint arXiv:1709.03410. DOI: https://doi.org/10.5244/C.31.167
  • Siddique, N., Paheding, S., Elkin, C. P., Devabhaktuni, V., 2021. U-net and its variants for medical image segmentation: A review of theory and applications. IEEE Access 9, 82031–82057. DOI: https://doi.org/10.1109/ACCESS.2021.3086020
  • Wang, K., Liew, J. H., Zou, Y., Zhou, D., Feng, J., 2019. Panet: Few-shot image semantic segmentation with prototype alignment. In: proceedings of the IEEE/CVF international conference on computer vision. pp. 9197–9206. DOI: https://doi.org/10.1109/ICCV.2019.00929
  • Zhang, C., Han, D., Qiao, Y., Kim, J. U., Bae, S.-H., Lee, S., Hong, C. S., 2023. Faster segment anything: Towards lightweight sam for mobile applications. arXiv preprint arXiv:2306.14289.
  • Zhang, C., Lin, G., Liu, F., Guo, J., Wu, Q., Yao, R., 2019. Pyramid graph networks with connection attentions for region-based one-shot semantic segmentation. In: Proceedings of the IEEE/CVF International Conference on Computer Vision. pp. 9587–9595. DOI: https://doi.org/10.1109/ICCV.2019.00968
  • Zhang, X., Wei, Y., Li, Z., Yan, C., Yang, Y., 2021. Rich embedding features for one-shot semantic segmentation. IEEE Transactions on Neural Networks and Learning Systems 33 (11), 6484–6493. DOI: https://doi.org/10.1109/TNNLS.2021.3081693
  • Zhang, X.,Wei, Y., Yang, Y., Huang, T. S., 2020. Sg-one: Similarity guidance network for one-shot semantic segmentation. IEEE transactions on cybernetics 50 (9), 3855–3865. DOI: https://doi.org/10.1109/TCYB.2020.2992433