La mayoría de las empresas que ofrecen soluciones de IA tienen la opción de chat “gratis”. ¿Lo hacen? ¿Quieren que la gente tenga acceso a esta tecnología? ¿Es realmente gratis?
“A caballo regalado, no se le miran los dientes”, esta es una expresión muy utilizada en el campo argentino, puesto que se puede determinar la edad de un caballo por su dentadura, siendo muy difícil poder determinarla por su apariencia física. Los caballos viven entre 25 y 30 años, a partir de los 3 o 4 años se los amansa y luego tiene una de vida útil para trabajo de entre 12 y 15 años. Es por ello que es muy importante poder determinar su edad para saber cuánto tiempo de vida y vida útil le quedará cuando lo adquirimos. Pero si te regalan un caballo, esto ya no es tan relevante, porque si bien puede estar llegando al fin de su vida útil para trabajar, aún servirá para paseo o transporte.
Llevando esta expresión a este ámbito podemos decir que como estas empresas nos permiten utilizar sus modelos en forma “gratuita” no es significativo leer o comprende la letra chica sobre el uso de la información que estamos compartiendo. Entendamos entonces que es un modelo y que necesita para funcionar en criollo.
Los modelos de Inteligencia Artificial tienen distintas estructuras acordes a las funcionalidades y según las necesidades para los que fueron creados, por nombrar algunos doy dos de los ejemplos más conocidos y utilizados:
GPT (Generative Pre-trained Transformer):
Ejemplo: GPT-3.5, GPT-4o, etc.
Descripción: Modelos pre-entrenados que generan texto y responden preguntas.
GAN (Generative Adversarial Networks):
Ejemplo: StyleGAN
Descripción: Utilizado para la generación de imágenes de alta calidad. Consisten en dos redes neuronales que compiten entre sí, una generadora y otra discriminadora, para crear datos que parecen reales.
Hay modelos que solo interpretan texto, otros solo imágenes o video o solo audio y los multimodales distintas combinaciones de datos. Pero todos tienen algo en común en cómo fueron creados y su funcionamiento y es que su origen se soporta sobre 3 ejes o patas:
El primer eje incluye los denominados “datasets” que corresponde a los datos con los que fueron entrenados estos modelos, a partir de ellos puedan aprender y cumplir las tareas. Algunos modelos son entrenados con información general y otros con información específica. Para simplificarlo pensémoslo como el proceso de aprendizaje que tenemos los seres humanos, que se compone de leer, escuchar, tocar, oler, ver y degustar para aprender y repetir este proceso varias veces hasta comprenderlo y recordarlo. Los modelos pueden hoy solo “leer”, “ver” y “escuchar” millones de datos en un período muy corto, comprenderlos y retenerlos en forma automática, almacenándolos en parámetros e hiperparámetros.
Estos “datasets” entonces están compuestos por textos, imágenes, audios y videos según el entrenamiento del modelo y sus capacidades. Sobre este punto hay mucha polémica, ya que gran parte de esos “datos” según las mismas empresas creadoras de los modelos fueron obtenidos inicialmente de internet, y algunos tendrían derechos de autor. Por eso las empresas creadoras de contenido en internet se están preguntando si su contenido fue utilizado y porque a ellos no se les pagaron las regalías. El año pasado The New York Times demando a OpenAI y Microsoft por usar sus artículos protegidos sin permiso. Hay empresas como Lionbridge AI, Scale AI y Appen que se dedican a armar esos datasets y se los venden a las empresas que quieren desarrollar un modelo de IA y acá está la clave de lo que voy a desarrollar enseguida.
El segundo eje se encarga del procesamiento de esta gran cantidad de datos, tanto para realizar el “entrenamiento” inicial de los modelos y el procesamiento de todas las consultas que se le realizan, que son millones por minuto, para ello se necesita mucha GPU y hardware en grandes data centers y esto es muy muy caro. En ese proceso interviene empresas como Microsoft, AWS, Google, NVIDIA y muchas más. Es por eso que muchas de las empresas de hardware comienzan a realizar sus propios modelos de IA, ya que cuentan con gran poder de computación propio.
El tercer eje es el algoritmo que le permite a un modelo IA comprender, aprender, retener y generar respuestas sobre toda la información sobre la que fue entrenado. Aquí lo necesario son equipos de ingenieros y desarrolladores que generan los algoritmos que le permiten al modelo funcionar, determinando su comportamiento. Estas son algunas de las empresas: OpenAI, Google, Meta, Anthopic, Mistral por nombrar las más competitivas.
Como verás es un trípode y ninguna de estas patas puede faltar para crear un modelo y hacerlo funcionar.
Ahora te voy a explicar cómo ganan las empresas creadoras de los modelos:
Entendamos cómo funcionan los modelos de lenguaje. Estos procesan el texto dividiéndolo en unidades mínimas conocidas como tokens. Estos tokens son secuencias comunes de caracteres encontradas en un conjunto de datos de texto.
OpenAI propone pensar en un token como una cadena de aproximadamente 4 caracteres de texto en el idioma inglés, esto puede variar según el idioma utilizado.
Sin embargo, un token puede representar una palabra completa, una parte de una palabra o, incluso, un solo carácter. Cada token se convierte en un vector numérico único e irrepetible (TokenID) que permite al modelo procesar y representar la información contenida en el texto de manera efectiva, almacenándolo en una base de datos. De esta forma, el modelo puede analizar y comprender el significado y el contexto de las secuencias de tokens que conforman el texto de entrada, y realizar una comparación en la base de datos sobre el que se lo entreno. Con las imágenes, videos y audios ocurre algo similar, ya que los modelos transforman siempre todo a tokens.
En este ejemplo vemos como se realiza la asignación de tokens:
En esta imagen se ven en distintos colores la representación de cada token sobre el texto ingresado.
Esta imagen asigna los (TokenID) correspondiente a cada token, este cálculo se puede realizar en una aplicación que tiene Openai
Cuando escribimos una consulta (prompt en inglés) en un chat el modelo transforma nuestra pregunta en tokens y por comparación busca en su base de datos aquello que responda a nuestro pedido, está muy simplificado el proceso, pero básicamente funciona así. Todo esto tiene un costo de procesamiento, para lo cual se utiliza mucho Hardware para que la respuesta sea casi instantánea. Además, debemos computar todos los costos iniciales de entrenamiento del modelo.
Entonces, las empresas cobran por la utilización de sus modelos un importe por token, en general un precio por los tokens de entrada, que son los que corresponde a la consulta realizada, y otro precio por los tokens de salida, que corresponde a la respuesta que el modelo nos da. Hoy se ofrecen paquetes con precios por 1 millón de tokens de entrada y 1 millón de tokens de salida, qué es equivalente aproximadamente a 750.000 palabras, considerando 500 palabras por hoja serían 1500 hojas de texto.
El modelo más barato lama-3-8b provisto por Gorq cobra Input U$D/1M: $ 0.05 Output U$D/1M: $ 0.1
El modelo más caro gpt-4-32k provisto por OpenAI cobra Input U$D/1M: $ 60 Output U$D/1M: $ 120
En este portal podrás chequear precios de referencia: Compare LLM Precios Check
Es por esta causa que es muy importante conocer el arte de escribir un prompt, ya que hay un costo por cada palabra en la pregunta que enviamos y por cada palabra la respuesta que nos da el modelo. La especialidad que se dedica a poder optimizar los prompts y poder obtener muy buenas respuestas, se llama Prompt Engineer, y está siendo muy considerada por las empresas a la hora de contratar actualmente, y que quien tiene este conocimiento tiene un mejor manejo de la IA optimizando su costo de uso.
Ahora es donde “ver los dientes del caballo” toman sentido. Gran parte de estas empresas manifiestan que ellos pueden utilizar los textos, imágenes, videos, audios que tenemos en nuestro historial de sus plataformas cuando hacemos consultas para entrenar a sus modelos, como vimos, el primer costo que tienen es la compra de los “datasets”. Meta ya cambio sus condiciones de uso, en las cuales informó que podrá utilizar las imágenes y videos personales de nuestros perfiles para entrenar a sus modelos si no manifestamos lo contrario, otra plataforma que hice lo mismo es OpenAI en ChatGPT, y se puede ver desde la configuración de tu cuenta y por default está activada la opción compartir.
En conclusión: Hay tres ejes necesarios que hacen posible la construcción y o comercialización de los modelos de IA. Los datasets para entrenar al modelo, la capacidad de procesamientos de esa información e infraestructura para hacer que el modelo funcione y por último el algoritmo que permite entrenar al modelo que le brinda su funcionalidad. Todo esto son costos ineludibles que las empresas tienen, por lo tanto, una forma de mitigar el primer costo es utilizar nuestros datos que los ayudan a entrenar a sus modelos y por ello nos permiten utilizar “gratis” sus soluciones a cambio de nuestros datos. Segundo, es importante aprender las técnicas de prompting para poder optimizar el uso y no pagar de más por el uso adicional de los modelos. La gran incógnita que cada uno debe resolver en forma individual es si lo que nos están pagando por nuestros datos es equivalente al precio de los tokens que ellos nos otorgan, todo esto aplica a modelos de imagen, video o audio. Unas recomendaciones finales, en todos los casos, es fundamental revisar las bases y condiciones de uso y nunca subir información confidencial o sensible en estas plataformas, sobre todo en planes gratuitos. En planes de pago también controlar las condiciones, ya que todas están sedientas de datos, que son finitos, para entrenar sus nuevos modelos.