Jesús Macías

Desarrollador de Software

jesus@siliconvalleyvigo.com

Guía de Inteligencia Artificial Generativa

Curso de IA - Conceptos, Aplicaciones y Futuro

Fichas rápidas de estudio

Glosario de IA

Tarjetas con los términos fundamentales del curso y su definición en formato breve.

Abrir fichas de glosario

Conceptos clave de LLM

Resumen en fichas de las ideas clave para entender límites y capacidades de los modelos.

Abrir fichas de conceptos

Conceptos básicos teóricos sobre Inteligencia Artificial Generativa

Que vamos a aprender:

  • Conceptos básicos e inmutables sobre la IA:
    • Que es la IA
    • Como funciona la IA
    • Que podemos hacer con la IA

    Estos conceptos básicos nos ayudarán a mantenernos actualizados y a entender mejor las aplicaciones de la IA, así como a evitar caer en bulos y mitos que circulan sobre esta tecnología.

  • Operativa práctica con IA:
    • Como "hablamos" con la IA
    • Como implementamos la IA en nuestras tareas diarias ahora y en el futuro

Referentes en redes sociales en el mundo de la IA en español

Precaucion con los Divulgadores de IA no técnicos

  • Los mejores tienden a ser demasiado entusiastas y a veces pueden caer en el sensacionalismo.
  • La mayoría solo buscan likes, seguidores o vender cursos, y no se preocupan por la calidad de la información que ofrecen.
  • Los videos suelen estar cortados y editados, las herramientas no suelen usarse tan fácilmente como se muestra en los videos, y a menudo se omiten los errores y las dificultades que pueden surgir al usar la IA o al configurar opciones.

Curiosidades

Vamos a comenzar mostrando tres curiosidades de los problemas que existen con los LLM que nos servirán como hilo conductor para entender los conceptos básicos de la IA y su funcionamiento, así como sus aplicaciones y el futuro que nos espera con esta tecnología.

El acertijo de Jungla de Cristal

El acertijo de Jungla de Cristal

El misterio del Reloj perdido

El misterio del Reloj perdido

¿Quien es El Perro Santxes?

¿Quien es El Perro Santxes?

Machine Learning

1970 Algoritmos de Machine Learning y primeras redes neuronales

1970 Algoritmos de Machine Learning

Por hacer una analogía el Machine Learning es la IA como las instrucciones de hacer ladrillos son a la construcción de una casa.

1980 Inteligencia Artificial Simbólica gracias a la aparición del PC

1980 IA Simbólica

1993 GPU avanzadas gracias al proceso de miniaturización de los transistores

1993 GPU Avanzadas

2000 Proyecto Genome@home - 2005 Algoritmo Rosetta

Algoritmo Rosetta

U. de Stanford / U. de Washington

2005 Transformers (Google paper de 5 páginas)

Transformers

Los Transformers son la arquitectura que permite a los LLM entender el contexto y generar texto de manera coherente basándose en la atención a los tokens relevantes en el texto de entrada, lo que les permite generar respuestas más precisas.

Tokens

Tokens

Los tokens son las unidades básicas de texto que un modelo de lenguaje utiliza para procesar y generar texto.

LLMs (Modelos de Lenguaje a gran escala)

LLMs

Los LLMs son modelos de lenguaje que tienen millones o incluso miles de millones de parámetros y han sido entrenados con grandes cantidades de texto para aprender a generar texto coherente y relevante.

2012 Google añade IA a algunos de sus productos

Google añade IA

Por ejemplo al sistema de recomendaciones de Youtube o al reconocimiento de imágenes.

2017 Primer LLM funcional (GPT-2)

GPT-2

¿Porqué no se hizo antes el primer LLM funcional? Porque no se tenían los datos ni la potencia computacional necesaria para entrenar un modelo de lenguaje a gran escala. La primera ronda de inversión de OpenAI fue por valor de 250 millones de dólares.

Conclusión

La IA no es algo nuevo, ni es alta tecnología sofisticada e inalcanzable, si no que fue creada por fuerza bruta, gracias a la inversión masiva en hardware y miles de testers.

Preguntas frecuentes sobre la IA en entornos laborales

No, salvo que quieras gastar millones de dolares.

No, una vez un modelo está compilado no se puede modificar ni reentrenar.

Sí, pero con el límite de la ventana de contexto de la IA.

La cantidad de texto que una IA puede leer y tener en cuenta al generar una respuesta, cuanto mayor sea la ventana de contexto, más información podrá utilizar la IA para generar respuestas coherentes y relevantes.

Depende del programa, la IA puede crear texto, y eso incluye código informático y datos estructurados, si el programa puede ser ejectutado con comandos de texto la IA puede manejarlo, pero si el programa requiere de una interfaz gráfica o de comandos específicos que no sean texto, la IA no podrá manejarlo o necesitará de herramientas adicionales para hacerlo.

¿Que se le da bien a la IA?

  • Redactar textos
  • Resolución de problemas algoritmicos
  • Manejo de datos estructurados
  • Reconocimiento de patrones
  • Traducción de idiomas

¿Que se le da mal a la IA?

  • Razonamiento filosófico o abstracto
  • Tareas que requieren una escepción a la regla general
  • Capacidad para emocionar a las personas
  • Contar o enumerar cosas
  • Crear contenido nuevo en base a mucho contenido previo y futuro (Escribir un libro, una película, un software que haga muchas cosas...)
¿Que son las alucinaciones en IA? Las alucinaciones en IA se refieren a la generación de información falsa o inexacta por parte de un modelo, esto suele ocurrir por incapacidad del modelo, por entrenamiento con información contradictoria o por que se ha superado la capacidad de contexto adicional del modelo.

¿Por qué hay que implementar la IA en el trabajo en todo donde se pueda?

Sin argumentos tópicos

  • Si la empresa no implementa la IA en su flujo de trabajo, aparecerá una empresa que sí lo haga y se comerá su mercado porque será más rápida y barata. Esto ya está sucediendo en pequeñas empresas como agencias y consultoras.
  • Porque los recursos humanos sigan siendo estratégicos en el futuro, un equipo de personas aconstumbradas a trabajar e implementar tecnología es mucho más valioso que un simple equipo de operarios.

¿Cuales son las barreras para implementar la IA en el trabajo?

  • Muros de pago de las empresas de IA.
    • Servicios de IA que requieren un coste mensual
    • Servicios de APIs de IA que requieren un coste por uso
  • Software obsoleto, codificado o con bases de datos inaccesibles.
  • Frustración por la burocracia de las empresas tecnológicas por seguridad y privacidad.
  • Frustración durante el proceso de testeo tras la implementación de procesos de IA.
  • Falta de tiempo específico para implementarla en el trabajo.

Tipos de modelos

Modelos de Texto Modelos de Visión Modelos de Voz

Modelos de Texto

Los modelos de texto están especializados en mostrar las siguientes palabras más probables a partir de un texto dado.

  • Prompts: los prompts son las instrucciones que le damos a un modelo de lenguaje, no son solo preguntas, sino instrucciones claras y específicas que le indican al modelo lo que queremos que haga. Un buen prompt es fundamental para obtener resultados precisos y relevantes de un modelo de lenguaje.
  • Ventana de contexto: la ventana de contexto es la cantidad de texto que un modelo de lenguaje puede procesar y tener en cuenta al generar una respuesta. Cuanto mayor sea la ventana de contexto, más información podrá utilizar el modelo para generar respuestas coherentes y relevantes.

Esquema LLM + (Ventana de contexto + Prompt) = Resultado

Esquema LLM

Modelos de Visión y de Voz

1- Entrenamiento de modelos con ejemplos

Entrenamiento con ejemplos

2- Reconocer una imagen

Reconocer una imagen

3- Mostrar ruido en una imagen

Mostrar ruido

4- Reconocer una imagen dentro de Ruido

Reconocer en ruido

5- Dibujar la imagen

Dibujar la imagen

Video para profundizar sobre los modelos de visión y voz desde el punto de vista ético:

¿Como mejoramos los modelos?

Sistemas de Razonamiento

Sistemas de Razonamiento

Entrenamiento de modelos Especializados

DeepSeek por solo 5 millones de dolares

¿Porqué DeepSeek fue tan barato de desarrollar?

  • Usando como base modelos gratuitos y la API de OPEN AI para entrenamiento
  • Adquiriendo GPUs especializadas que no existían cuando OPEN AI comenzó
  • Dividiendo los LLM en partes más pequeñas dirigidas por otro pequeño LLM
DeepSeek

Herramientas y Agentes

  • Conexión a Internet
  • Busqueda en diccionarios
  • Ejecución de código informático

Entrenamiento por Expertos avanzados

  • Revisión de resultados por expertos humanos
  • Discriminación de articulos científicos desfasados o de baja calidad
  • Replicación de procesos de razonamiento humano experto por pasos

Bulos y mitos de la IA

Dos IAs hablando entre ellas se inventaron un idioma secreto y hubo que apagarlas

Hay un robot cirujano que opera a pacientes con éxito usando IA

Robot Cirujano

La IA es... Machista / Feminista Radical, Racista / Woke...

Sesgos IA

Gobierno Chino Usando IA para Realizar Ciberataques

Ciberataques China

Benchmarks

Los benchmarks son pruebas estandarizadas que se utilizan para evaluar el rendimiento de los modelos de inteligencia artificial en diferentes tareas y dominios.

Ejemplo de benchmarks

Ejemplo de benchmarks

Las empresas de IA suelen usar benchmarks para demostrar la superioridad de sus modelos, pero a menudo se centran en tareas específicas que favorecen a su modelo y no reflejan el rendimiento general o la utilidad práctica de la IA en situaciones del mundo real.

Ventana de contexto

La ventana de contexto es la cantidad de información (texto, instrucciones y datos) que un modelo puede tener en cuenta al mismo tiempo para generar una respuesta. Cuanto mayor es, mejor mantiene la coherencia en tareas largas y complejas.

Comparativa de ventana de contexto

Comparativa de ventana de contexto entre modelos

Evolución de la ventana de contexto

Comparativa de la evolución de la ventana de contexto

El Futuro

LLM vs AGI

  • LLM (Modelos de Lenguaje a gran escala): Diseñados para tareas específicas de procesamiento de lenguaje natural con conocimientos estáticos y no pueden aprender en tiempo real.
  • AGI (Inteligencia Artificial General): Puede realizar cualquier tarea intelectual que un ser humano pueda realizar pues pueden aprender en tiempo real.
LLM vs AGI

¿Podrán los LLM alcanzar la AGI?

¿Cuanto falta para Terminator, Blade Runner o Matrix?

Terminator

El dilema de las ratas que traducen al chino

Ratas que traducen

La tecnología de los LLMs NO ES UN PRIMER PASO HACIA LA AGI

Para alcanzar la AGI necesitamos una tecnología que hoy por hoy no existe, pero que se está investigando, como la computación cuántica, la neuromórfica o la inteligencia artificial basada en el cerebro humano.

¿Que podríamos tener en un futuro a medio plazo?

  • LLMs con más capacidad de contexto y memoria
  • Vehiculos autónomos Vehiculos autonomos
  • Robots dentro de entornos controlados
  • Asistentes virtuales con conectividad avanzada (Muy inseguros)

Aplicaciones

Conexiones

  • ¿Que es una API? Una API (Interfaz de Programación de Aplicaciones) es un conjunto de reglas y protocolos que permiten que diferentes programas o sistemas se comuniquen entre sí.
  • API externa: Conectar un modelo de lenguaje a una API externa, requiere de conexión a internet, autenticación y comunicación bidireccional.
  • API local: Conectar un modelo de lenguaje a una API local, requiere de equipo local con capacidad de procesamiento (RAM y GPU), instalación de software y comunicación bidireccional.

Agentes

Los agentes son un conjunto de Herramientas que permiten a un modelo de lenguaje realizar tareas específicas, como buscar información en internet, ejecutar código, o interactuar con otras aplicaciones.

Ciclo de uso de herramientas de agentes

Ciclo de Agentes

Seguridad, el problema del prompt injection

El prompt injection es una técnica de ataque que consiste en insertar código malicioso o instrucciones no deseadas en el prompt que se le da a un modelo de lenguaje, con el objetivo de manipular su comportamiento o obtener información sensible.

Construcción y optimización de Prompts (Prompt Engineering)

Construcción básica de prompts

Un mal prompt:

"Informe empresa"

  • Hablar a la IA como si fuera una persona.
  • Contexto: Describe el escenario o situación en la que se enmarca la solicitud y proporciona información relevante.
  • Tarea: Define la tarea específica que se está solicitando.
  • Instrucción: Explica cómo se espera que el modelo realice la tarea.
  • Clarificación: Si es necesario, proporciona detalles adicionales o aclaraciones para asegurar que el modelo entienda completamente la solicitud.
  • Refinamiento: Añade información extra o restricciones adicionales.

Optimización

  • Ser asertivo e imperativo en la instrucción.
  • Integra la audiencia / target / buyer persona en el Prompt
  • Divide las tareas
  • Propinas / Amenazas / Empatía

Tipos

  • Construcción estructural por tareas
  • Optimización avanzada para comunicación entre IAs

Guía de Patrones de Arquitectura de Prompts

Consulta la página completa con los 13 apartados, ejemplos y respuestas simuladas de IA.

Abrir la guía de patrones de prompts

Servicios de IA

Comparativa rápida de los principales servicios de IA comerciales.

Open AI

Puntos a favor

  • Referente en el mercado de LLMs con modelos y servicios avanzados
  • Amplia comunidad de usuarios
  • Entrenamiento generalista con gran cantidad de datos filtrados

Puntos en contra

  • Precios elevados para uso profesional
  • No sigue bien las instrucciones al crear imágenes
  • La búsqueda en internet es más limitada que otros servicios

Gemini

Puntos a favor

  • Gran capacidad de contexto y memoria
  • Mejor seguimiento de instrucciones para creación de imágenes
  • Mejor capacidad de búsqueda en internet

Puntos en contra

  • La resolución de problemas algorítmicos
  • La generación de código informático
  • La generación de datos estructurados

Claude

Puntos a favor

  • Mejor capacidad de razonamiento de problemas algorítmicos
  • Mejor capacidad de generación de código informático
  • Mejor capacidad de generación de datos estructurados

Puntos en contra

  • La capacidad de contexto y memoria
  • No genera imágenes
  • La capacidad de búsqueda en internet

Grok

Puntos a favor

  • Gran capacidad de contexto y memoria incluso en versiones livianas
  • Uso de lenguaje informal y cercano con menos limitaciones
  • Mejor capacidad de búsqueda en internet alternativa a Google

Puntos en contra

  • La capacidad de razonamiento de problemas algorítmicos
  • La generación de código informático
  • La generación de datos estructurados