“Este trabajo da un paso importante en la dirección correcta”, dice Douwe Kiela, investigador de Hugging Face, una empresa de inteligencia artificial que trabaja en modelos de lenguaje de código abierto. Sugiere que el proceso de entrenamiento basado en la retroalimentación podría repetirse durante muchas rondas, mejorando aún más el modelo. Leike dice que OpenAI podría hacer esto basándose en los comentarios de los clientes.

InstructGPT todavía comete errores simples, a veces produciendo respuestas irrelevantes o sin sentido. Si se le da un aviso que contiene una falsedad, por ejemplo, tomará esa falsedad como verdadera. Y debido a que ha sido entrenado para hacer lo que la gente pide, InstructGPT producirá un lenguaje mucho más tóxico que GPT-3 si se le indica que lo haga.

Ehud Reiter, que trabaja en IA de generación de texto en la Universidad de Aberdeen, Reino Unido, agradece cualquier técnica que reduzca la cantidad de desinformación que producen los modelos de lenguaje. Pero señala que para algunas aplicaciones, como la IA que brinda asesoramiento médico, no se acepta ninguna cantidad de falsedad. Reiter cuestiona si los grandes modelos de lenguaje, basados ​​en redes neuronales de caja negra, podrían garantizar la seguridad del usuario. Por esa razón, favorece una combinación de redes neuronales más IA simbólica, las reglas codificadas limitan lo que un modelo puede y no puede decir.

Sea cual sea el enfoque, queda mucho trabajo por hacer. “Todavía no estamos ni siquiera cerca de resolver este problema”, dice Kiela.

Ir arriba