Evidence-based guidelines for automated conservation assessments of plant species

Conserv Biol. 2023 Feb;37(1):e13992. doi: 10.1111/cobi.13992. Epub 2022 Oct 13.

Abstract

Assessing species' extinction risk is vital to setting conservation priorities. However, assessment endeavors, such as those used to produce the IUCN Red List of Threatened Species, have significant gaps in taxonomic coverage. Automated assessment (AA) methods are gaining popularity to fill these gaps. Choices made in developing, using, and reporting results of AA methods could hinder their successful adoption or lead to poor allocation of conservation resources. We explored how choice of data cleaning type and level, taxonomic group, training sample, and automation method affect performance of threat status predictions for plant species. We used occurrences from the Global Biodiversity Information Facility (GBIF) to generate assessments for species in 3 taxonomic groups based on 6 different occurrence-based AA methods. We measured each method's performance and coverage following increasingly stringent occurrence cleaning. Automatically cleaned data from GBIF performed comparably to occurrence records cleaned manually by experts. However, all types of data cleaning limited the coverage of AAs. Overall, machine-learning-based methods performed well across taxa, even with minimal data cleaning. Results suggest a machine-learning-based method applied to minimally cleaned data offers the best compromise between performance and species coverage. However, optimal data cleaning, training sample, and automation methods depend on the study group, intended applications, and expertise.

La valoración del riesgo de extinción de las especies es vital para el establecimiento de prioridades de conservación. Sin embargo, los esfuerzos de valoración, como los que se usan para generar la Lista Roja de Especies Amenazadas de la UICN, tienen brechas importantes en la cobertura taxonómica. Los métodos de valoración automatizada (VA) están ganando popularidad como reductores de estas brechas. Las elecciones realizadas en el desarrollo, uso y reporte de resultados de los métodos de VA podrían obstaculizar su adopción exitosa o derivar en una asignación deficiente de recursos para la conservación. Exploramos cómo la selección del tipo de limpieza de datos y el nivel, grupo taxonómico, muestra de entrenamiento y el método de automatización afectan el desempeño de las predicciones del estado de amenaza de las especies de plantas. Usamos los registros de la Global Biodiversity Information Facility (GBIF) para generar las valoraciones de las especies de tres grupos taxonómicos con base en seis métodos diferentes de VA basados en la presencia de las especies. Medimos el desempeño de cada método y cobertura después de una limpieza de presencia cada vez más estricta. La información de la GBIF limpiada automáticamente tuvo un desempeño comparable con los registros de presencia limpiados manualmente por expertos. Sin embargo, todos los tipos de limpieza de datos limitaron la cobertura de las valoraciones automatizadas. En general, los métodos basados en el aprendizaje automático tuvieron un buen desempeño en todos los taxones, incluso con una limpieza mínima de datos. Los resultados sugieren que un método basado en el aprendizaje automático aplicado a información con la mínima limpieza ofrece el mejor equilibrio entre el desempeño y la cobertura de la especie. A pesar de esto, la limpieza óptima de datos, la muestra de entrenamiento y los métodos de automatización dependen del grupo de estudio, las aplicaciones deseadas y la experiencia.

Keywords: IUCN Red List; Lista Roja UICN; aprendizaje automático; automation; automatización; biodiversity conservation; conservación de la biodiversidad; machine learning.

Publication types

  • Research Support, Non-U.S. Gov't

MeSH terms

  • Biodiversity
  • Conservation of Natural Resources* / methods
  • Endangered Species*
  • Extinction, Biological
  • Plants