El catálogo de imágenes LAION-5B utilizado por la empresa Stable Diffusion tiene más de 1.000 imágenes de abuso sexual a menores según un informe del Observatorio de Internet de la Universidad de Stanford. LAION-5B es una base de datos con más de 5.000 millones de imágenes extraídas automáticamente de la red, utilizadas para entrenar inteligencias artificiales generativas. Este catálogo permite que las inteligencias artificiales entrenadas con esta colección de imágenes sean capaces de generar escenas similares si no se implementan barreras que prohíban ciertas palabras. La organización sin fines de lucro alemana LAION es responsable de la creación de esta base de datos. Las inteligencias artificiales generativas como DALL-E o MIDJOURNEY «aprenden» a imaginar objetos y escenas viendo millones de imágenes.
Para entrenar estas inteligencias artificiales generativas, se utilizan colecciones de fotos e ilustraciones con miles de millones de imágenes. Las compañías con más recursos a menudo recurren a colecciones elaboradas y catalogadas internamente. Otras utilizan colecciones públicas compiladas por universidades u organizaciones independientes. El catálogo LION-5B es utilizado por motores populares como Stable Diffusion, creado por la compañía británica Stability AI. Esta compañía incluye controles y listas de palabras prohibidas para evitar que el motor se pueda utilizar para crear imágenes que muestren escenas de abuso sexual a menores.
La colección LAION-5B es tan extensa que es difícil de revisar las imágenes una por una. Sin embargo, LAION tiene herramientas que permiten reportar contenido ilegal. Para detectar las imágenes, los investigadores del Observatorio de Internet de la Universidad de Stanford utilizaron la herramienta PhotoDNA, creada por Microsoft. Esta herramienta permite analizar el contenido de una imagen, asignándole un valor numérico según el contenido que presenta. Los investigadores encontraron 1.008 coincidencias directas de imágenes de abuso sexual a menores presentes en el catálogo de LAION-5B.
Tras conocerse el resultado de la investigación, LAION retiró temporalmente sus catálogos de imágenes. Google también reconoció que los vídeos de su nueva inteligencia artificial, Gemini, estaban editados. Este hallazgo pone de manifiesto la importancia de establecer protocolos y regulaciones que garanticen el uso ético de la inteligencia artificial en todo momento.
Fuente (para controlar el refrito): https://www.elmundo.es/tecnologia/2023/12/20/65836509fdddff66238b459f.html