Las inundaciones son el desastre natural que más daños provoca anualmente en el mundo. Valerio Lorini (JRC-UPF), Javier Rando (UPF), Diego Saez-Trumper (Wikimedia), Carlos Castillo (UPF) son los autores de un trabajo que presentarán en la 17ª International Conference on Information Systems for Crisis Response and Management (ISCRAM2020),Virginia Tech in Blacksburg, Virginia (EE.UU.), del 24 al 27 de mayo, con el título: "Uneven Coverage of Natural Disasters in Wikipedia: the Case of Floods".
Un trabajo que corresponde a una línea de investigación que lidera Carlos Castillo, coordinador del Grupo de Ciencia en web y Computación Social (WSSC) en el Departamento de Tecnologías de la Información y las Comunicaciones (DTIC) de la UPF, dentro de una colaboración activa que tiene con el Joint Research Center (JRC), el organismo que asesora en temas científicos y técnicos a la Comisión Europea. El investigador principal de la comunicación es Valerio Lorini (JRC-UPF), estudiante del programa de doctorado en TIC de la UPF, que está siendo supervisado por Carlos Castillo, coautor junto con Javier Rando, estudiante del grado en Ingeniería Matemática en Ciencia de Datos de la UPF.
En la gestión de desastres naturales, el acceso a datos no oficiales ofrece la oportunidad de tener un tipo de información diferente al disponible por otros medios. Puede servir también para detectar sesgos en los contenidos informativos. "Pensamos que Wiquipedia es una valiosa fuente de datos gratuitos, y que podría ser beneficiosa para investigadores que trabajan en la reducción del riesgo de desastres si se identifican, miden y palien los sesgos", afirma Castillo.
En su estudio, los autores, se han centrado en la versión inglesa de Wikipedia, la que consideran, con diferencia, la versión más completa de esta enciclopedia. Wiquipedia, una enciclopedia producida de manera colaborativa, contiene información detallada sobre muchos desastres naturales y humanos, sobre todo cuando los incidentes tienen un gran número de víctimas mortales, y sus editores son especialmente diestros en añadir información a tiempo real, a medida que se va produciendo la crisis.
Como fuente de información relacionada con desastres naturales, los autores muestran que la Wikipedia la tendencia a cubrir los acontecimientos en países desarrollados es mayor que en los países pobres. Efectuando un análisis de contenido automático cuidadoso a gran escala, "mostramos cómo la cobertura de las inundaciones en la Wikipedia se decanta hacia los países ricos de habla inglesa, en particular de EE.UU. y Canadá", afirman en su trabajo. "Observamos igualmente que la cobertura de las inundaciones de los países con ingresos más bajos, así como la de los países de América del Sur, es sustancialmente inferior a la cobertura de las inundaciones de los países de renta media", añaden.
Para esta investigación los autores han estimado la cobertura de las inundaciones en la Wikipedia teniendo en cuenta muchas variables: el producto interior bruto (PIB), la renta nacional bruta (PNB), la ubicación geográfica, el número de hablantes ingleses, las víctimas mortales y varios índices que describen el nivel de vulnerabilidad de un país.
Han identificado un conjunto de referencias fiables sobre inundaciones
Con el apoyo de hidrólogos, una de las aportaciones de este trabajo son un conjunto de referencias validadas de varias organizaciones independientes que recopilan datos sobre inundaciones con diferentes finalidades: aseguradoras, organismos gubernamentales, ONU, etc. Todos ellos recopilan datos sobre inundaciones a escala global y tienen disponibles bancos de datos fiables para trabajar y comparar.
Una vez identificadas las fuentes de información, los autores pasaron a la fase experimental del estudio. Empleando 458 eventos que habían sido calificados de forma fehaciente como inundaciones, según los registros de dos o tres fuentes de datos fiables: la europea Floodlist; The Emergency Events Database (EM-DAT) de las Naciones Unidas, y la Dartmouth Flood Observatory (DFO) de la Universidad de California (EE.UU.), los autores compararon estos datos con las entradas en la Wikipedia para localizar estos eventos y ver si había o no concordancia con las fuentes de datos contrastados en términos de ubicación y referencias temporales.
"Los resultados de nuestro análisis son coherentes a lo largo de varias dimensiones, y dibujan un cuadro en el que la cobertura de Wikipedia está sesgada hacia algunos países, particularmente aquellos que están más industrializados y tienen grandes poblaciones de habla inglesa, y en detrimento de otros países, particularmente con menos ingresos ya la vez más vulnerables", indican los autores.
Los resultados señalan que, las herramientas que utilizan datos de las redes sociales o plataformas colaborativas deben ser evaluadas cuidadosamente para evitar sesgos, y que los editores de Wiquipedia deben hacer un mayor esfuerzo para cubrir los desastres de los países con más necesidades. Estos resultados corresponden sólo a un posible tipo de desastre natural, las inundaciones, pero podrían igualmente considerar para su estudio otros tipos de eventos.
###
Trabajo de referencia:
Valerio Lorini, Javier Rando, Diego Saez-Trumper, Carlos Castillo (2020), "Uneven Coverage of Natural Disasters in Wikipedia: the Case of Floods". Comunicación que se presentará al congreso ISCRAM 2020, 17th International Conference on Information Systems for Crisis Response and Management, Virginia Tech in Blacksburg, Virginia (EE.UU.), del 24 al 27 de mayo.