David Millette, un creador de contenido en YouTube, presentó una demanda colectiva en el Tribunal de Distrito de Estados Unidos para el Distrito Norte de California contra OpenAI, alegando que la compañía utilizó transcripciones de videos de YouTube, incluidas las suyas, para entrenar a sus modelos de inteligencia artificial generativa sin notificar ni compensar a los propietarios de dichos videos.
Millette sostiene que OpenAI habría transcrito de manera subrepticia estos videos, utilizando las transcripciones para desarrollar y mejorar productos de IA como ChatGPT, lo que podría constituir una violación de los derechos de autor y de los términos de servicio de YouTube.
La demanda busca un juicio con jurado y más de 5 millones de dólares por daños para indemnizar a todos los usuarios y creadores de YouTube cuyos datos se habrían utilizado en el entrenamiento de los modelos de OpenAI. Según el libelo, OpenAI habría obtenido un beneficio significativo de estos datos, lo que incrementaría el valor de sus productos para usuarios actuales y potenciales, quienes pagan por suscripciones para acceder a los mismos.
Noticia Relacionada
La demanda destaca que los modelos de IA generativa, como los de OpenAI, se entrenan utilizando grandes cantidades de datos, que incluyen transcripciones de video, extraídos de diversas fuentes en la web. OpenAI, al igual que otras empresas, argumenta que este tipo de uso está protegido bajo la doctrina de «uso legítimo». No obstante, Millette y otros titulares de derechos de autor consideran que esta práctica viola sus derechos, y diversas demandas han sido presentadas en un esfuerzo por frenar esta tendencia.
La transcripción de videos ha adquirido una relevancia creciente como fuente de datos para entrenar modelos de IA, especialmente a medida que otras fuentes de datos se vuelven menos accesibles. Un informe de The New York Times reveló que OpenAI había utilizado su modelo de reconocimiento de voz, Whisper, para transcribir más de un millón de horas de video de YouTube, utilizando estas transcripciones para entrenar GPT-4, un modelo de generación y análisis de texto. Según el mismo informe, algunos empleados de OpenAI reconocieron que esta práctica podría contravenir las normas de YouTube.
Finalmente, la denuncia de Millette se enmarca en un contexto más amplio de preocupación por el uso de datos de creadores de contenido sin su consentimiento, práctica en la que estarían involucradas otras grandes empresas tecnológicas, como Google, que recientemente modificó sus términos de servicio para facilitar el uso de datos de sus usuarios en el entrenamiento de modelos de IA generativos.