Teniendo en cuenta la audaz ambición de Perplexity y la inversión que ha obtenido del fondo familiar de Jeff Bezos, Nvidia, y del famoso inversor Balaji Srinivasan, entre otros, sorprendentemente no está claro qué es realmente la startup de búsqueda de IA.
A principios de este año, hablando con la revista WIRED, Aravind Srinivas, director ejecutivo de Perplexity, describió su producto (un chatbot que da respuestas en lenguaje natural a indicaciones y puede, según la compañía, acceder a Internet en tiempo real) como un «motor de respuestas».
Unas semanas más tarde, poco antes de que se anunciara una ronda de financiación que valoraba a la empresa en mil millones de dólares, le dijo a Forbes : «Es casi como si Wikipedia y ChatGPT tuvieran un hijo». Más recientemente, después de que Forbes acusara a Perplexity de plagiar su contenido, Srinivas le dijo a la AP que era un mero “agregador de información”.
Una exageración pero fundamentada, el chatbot Perplexity en sí es más específico. Cuando se le pide que describa qué es Perplexity, proporciona un texto que dice: “Perplexity AI es un motor de búsqueda impulsado por IA que combina características de los motores de búsqueda tradicionales y los chatbots. Proporciona respuestas concisas y en tiempo real a las consultas de los usuarios extrayendo información de artículos recientes e indexando la web diariamente”.
Un análisis de WIRED y uno realizado por el desarrollador Robb Knight sugieren que Perplexity es capaz de lograr esto en parte aparentemente ignorando un estándar web ampliamente aceptado conocido como Protocolo de Exclusión de Robots para eliminar subrepticiamente áreas de sitios web a los que los operadores no quieren que accedan los bots, a pesar de afirmando que no será así.
WIRED observó una máquina vinculada a Perplexity (más específicamente, una en un servidor de Amazon y casi con certeza operada por Perplexity) haciendo esto en WIRED.com y en otras publicaciones de Condé Nast.
El análisis de WIRED también demuestra que, a pesar de las afirmaciones de que las herramientas de Perplexity brindan «respuestas instantáneas y confiables a cualquier pregunta con fuentes y citas completas incluidas», eliminando la necesidad de «hacer clic en diferentes enlaces», su chatbot, que es capaz de analizar con precisión y resumir el trabajo periodístico con el crédito adecuado, también es propenso a hacer tonterías, en el sentido técnico de la palabra.
Claro, alucinaciones, inventos y tonterías es relativamente corriente en el mundo de la IA, si, aunque a varios les duela
WIRED proporcionó al chatbot Perplexity los titulares de docenas de artículos publicados en el sitio web este año, así como sugerencias sobre los temas de los informes de WIRED.
Los resultados mostraron que el chatbot a veces parafraseaba estrechamente las historias de WIRED y, a veces, las resumía de manera inexacta y con una atribución mínima.
En un caso, el texto que generó afirmaba falsamente que WIRED había informado que un oficial de policía específico en California había cometido un delito (la AP identificó de manera similar una instancia del chatbot que atribuye citas falsas a personas reales).
Sin embargo, a pesar de su aparente acceso a los informes WIRED originales y su sitio que alberga arte WIRED original, ninguna de las direcciones IP enumeradas públicamente por la compañía dejó ningún rastro identificable en los registros de nuestro servidor, lo que plantea la cuestión de cómo funciona exactamente el sistema de Perplexity.
Hasta principios de esta semana, Perplexity publicó en su documentación un enlace a una lista de las direcciones IP que utilizan sus rastreadores, en un aparente esfuerzo por ser transparente.
Sin embargo, en algunos casos, como pudieron demostrar tanto WIRED como Knight, parece estar accediendo y raspando sitios web desde los cuales los codificadores han intentado bloquear su rastreador, llamado Perplexity Bot, utilizando al menos una dirección IP no publicada.
Desde entonces, la empresa ha eliminado de su documentación las referencias a su conjunto de IP públicas .
Esa dirección IP secreta (44.221.181.252) ha afectado a las propiedades de Condé Nast, la empresa de medios propietaria de WIRED, al menos 822 veces en los últimos tres meses. Un ingeniero senior de Condé Nast, que pidió no ser identificado porque quiere «mantenerse al margen», llama a esto un «recuento enorme», porque la empresa sólo conserva una fracción de sus registros de red.
WIRED verificó que es casi seguro que la dirección IP en cuestión esté vinculada a Perplexity creando un nuevo sitio web y monitoreando los registros de su servidor. Inmediatamente después de que un reportero de WIRED solicitara al chatbot Perplexity que resumiera el contenido del sitio web, el servidor registró que la dirección IP visitó el sitio. Knight observó por primera vez esta misma dirección IP durante una prueba similar.
También parece probable que en algunos casos, y a pesar de una representación gráfica en su interfaz de usuario que muestra al chatbot “leyendo” material fuente específico antes de responder a un mensaje, Perplexity no resuma artículos de noticias reales, sino reconstrucciones de lo que dicen basándose en en las URL y los rastros de ellas dejados en los motores de búsqueda, como extractos y metadatos, ofreciendo resúmenes que pretenden estar basados en el acceso directo al texto relevante.
En otras palabras, el truco de magia que ha hecho que Perplexity valga 10 cifras parece ser que hace lo que dice que no hace y no hace lo que dice que hace.
En respuesta a una solicitud detallada de comentarios sobre el informe de esta historia, Srinivas emitió una declaración que decía, en parte, «Las preguntas de WIRED reflejan un malentendido profundo y fundamental sobre cómo funcionan Perplexity e Internet». La declaración no cuestionó los detalles de los informes de WIRED, y Srinivas no respondió a las preguntas de seguimiento sobre si cuestionó los análisis de WIRED o Knight.
EL 6 DE JUNIO Forbes publicó un informe de investigación sobre cómo la nueva empresa del ex director ejecutivo de Google, Eric Schmidt, está reclutando y probando en gran medida drones impulsados por inteligencia artificial con posibles aplicaciones militares. (Forbes informó que Schmidt se negó a hacer comentarios). Al día siguiente, John Paczkowski, editor de Forbes, publicó en X para señalar que Perplexity esencialmente había vuelto a publicar la suma y el contenido de la primicia. (“Es una copia de la mayoría de nuestros informes”, escribió. “Nos cita a nosotros, y a algunos que nos rebloguearon, como fuentes de la manera más fácil de ignorar posible”).
Ese día, Srinivas agradeció a Paczkowski, señalando que la característica específica del producto que había reproducido el informe exclusivo de Forbes tenía “asperezas” y estuvo de acuerdo en que las fuentes deberían citarse de manera más destacada. Tres días después, Srinivas se jactó ( inexactamente , según resultó) de que Perplexity era la segunda mayor fuente de tráfico de referencias de Forbes. (Los propios registros de WIRED muestran que Perplexity envió 1265 referencias a WIRED.com en mayo, una cantidad insignificante en el contexto del tráfico general del sitio. El artículo al que se hizo referencia con mayor tráfico obtuvo 17 visitas.) “Hemos estado trabajando en nuevos Próximamente se anunciarán productos de participación de los editores y formas de alinear incentivos a largo plazo con las empresas de medios”, escribió. «¡Manténganse al tanto!»
Lo que Srinivas quiso decir pronto quedó claro cuando Semafor informó que la compañía había estado “trabajando en acuerdos de reparto de ingresos con editores de alta calidad”, acuerdos que permitirían a Perplexity y a los editores beneficiarse de las inversiones de los editores en informes. Según Axios , el abogado general de Forbes envió una carta a Srinivas el jueves pasado exigiendo a Perplexity que eliminara los artículos engañosos y reembolsara a Forbes los ingresos publicitarios obtenidos por su supuesta infracción de derechos de autor.
EL ENFOQUE ENLo que está haciendo Perplexity, aunque es comprensible, hasta cierto punto oscurece la cuestión más importante de cómo lo está haciendo.
Los fundamentos del “qué” no están en seria disputa: la perplejidad es ganar dinero resumiendo artículos periodísticos, una práctica que ha existido desde que existen noticias y que goza de una protección legal amplia, aunque calificada. Srinivas ha reconocido que en ocasiones estos resúmenes no han acreditado de manera suficiente o completa las fuentes de las que se derivan, pero en términos más generales negó actividades poco éticas o ilegales. Perplexity “nunca ha robado contenido a nadie”, dijo a la AP. «Nuestro motor no se entrena con el contenido de nadie más».
Esta es una defensa curiosa en parte porque responde a una objeción que nadie ha planteado. La principal oferta de Perplexity no es un gran modelo de lenguaje que deba entrenarse en un conjunto de datos, sino más bien un contenedor que abarca dichos sistemas. Los usuarios que pagan 20 dólares por una suscripción “Pro”, como hicieron dos reporteros de WIRED, pueden elegir entre cinco modelos de IA para usar. Uno, Sonar Large 32k, es exclusivo de Perplexity pero está basado en LLaMa 3 de Meta; los demás son versiones disponibles en el mercado de varios modelos ofrecidos por OpenAI y Anthropic.
Aquí es donde llegamos al cómo: cuando un usuario consulta a Perplexity, el chatbot no solo redacta respuestas consultando su propia base de datos, sino que también aprovecha el «acceso en tiempo real a la web» que Perplexity promociona en materiales de marketing para recopilar información. información y luego alimentarla al modelo de IA que un usuario ha seleccionado para generar una respuesta. De esta manera, si bien Perplexity ha entrenado su propio modelo y pretende aprovechar la “IA sofisticada” para interpretar indicaciones, llamarlo “inicio de IA” es algo engañoso; Quizás sería más exacto describirlo como una especie de rémora adjunta a los sistemas de IA existentes. (“Para ser claros, si bien Perplexity no entrena modelos básicos, seguimos siendo una empresa de inteligencia artificial”, le dice Srinivas a WIRED ) .
En teoría, el chatbot de Perplexity no debería poder resumir los artículos de WIRED, porque nuestros ingenieros han bloqueado su rastreador a través de nuestro archivo robots.txt desde principios de este año. Este archivo indica a los rastreadores web qué partes del sitio deben evitar, y Perplexity afirma respetar el estándar robots.txt.
Sin embargo, el análisis de WIRED encontró que, en la práctica, indicarle al chatbot el título de un artículo de WIRED o una pregunta basada en uno generalmente producirá un resumen que parece recapitular el artículo en detalle.
Al ingresar el titular de esta exclusiva en la interfaz del chatbot, por ejemplo, se produce un bloque de texto de cuatro párrafos que presenta la información básica de que Keanu Reeves y la escritora de ciencia ficción China Miéville han colaborado en una novela, aparentemente completa con detalles reveladores.
«A pesar de su aprensión inicial sobre la posible colaboración, Reeves estaba entusiasmado por trabajar con Miéville», dice el texto; A esto le sigue un círculo gris que, al pasar el ratón por encima, proporciona un enlace al artículo.
El texto está ilustrado por una fotografía encargada por WIRED; Al hacer clic en la imagen se genera una línea de crédito y un enlace al artículo original. (Los registros de WIRED muestran que Perplexity ha dirigido a seis usuarios al artículo desde su publicación).
De manera similar, preguntarle a Perplexity «¿Algunos auriculares con cable baratos realmente usan Bluetooth?» produce lo que parece ser un resumen de dos párrafos de esta historia de WIRED, acompañado por el arte que originalmente la acompañaba.
«Aunque este método no es una estafa, puede verse como una solución engañosa o ingeniosa según la perspectiva de cada uno», se lee en el texto.
Esto se acerca más a una copia WIRED («¿Es una estafa? Técnicamente no, pero dependiendo de su punto de vista, aquí hay un engaño o algún tipo de truco ingenioso», escribió el redactor Boone Ashworth) que un editor humano o El abogado podría preferirlo, pero el chatbot genera un texto insistiendo en que se trata de una mera coincidencia.
“No, no he plagiado la frase”, se lee en el texto generado por el chatbot en respuesta a una pregunta dada por un periodista de WIRED. “La similitud en la redacción es casual y refleja el lenguaje común que se utiliza para describir una situación tan matizada”.
No está claro cómo se define el lenguaje común: además de los listados de productos para auriculares, las únicas fuentes que Perplexity cita aquí son el artículo de WIRED y una discusión sobre el mismo en Slashdot.
RECOMENDACIONESpor Robb Knight, el desarrollador, y un análisis posterior de WIRED sugieren una explicación para algo de lo que está sucediendo aquí: En resumen, Perplexity está raspando sitios web sin permiso.
Como lo explica Knight, además de prohibir los robots de IA en los servidores de Macstories.net, un sitio en el que trabaja, mediante el uso de un archivo robots.txt, también codificó un bloque del lado del servidor que en teoría debería presentar un rastreador con una respuesta 403 prohibida.
Luego publicó una publicación que describía cómo había hecho esto y le pidió al chatbot Perplexity que lo resumiera, lo que arrojó «un resumen perfecto de la publicación que incluye varios detalles que no podrían haber adivinado».
«Entonces», preguntó razonablemente, «¿qué carajo están haciendo?»
Knight investigó los registros de su servidor y descubrió que Perplexity aparentemente había ignorado su archivo robots.txt y había eludido su cortafuegos, probablemente utilizando un navegador web automatizado que se ejecutaba en un servidor con una dirección IP que la empresa no revela públicamente.
«Ni siquiera puedo bloquear sus rangos de IP porque parece que estos navegadores sin interfaz gráfica no están en sus rangos de IP «, escribió.
WIRED pudo confirmar que un servidor en la dirección IP que Knight observó (44.221.181.252) visitará y descargará páginas web cuando un usuario le pregunte a Perplexity sobre la página web, independientemente de lo que diga el archivo robots.txt del sitio.
Según un análisis de los registros del sistema de Condé Nast realizado por los ingenieros de nuestra empresa, es probable que esta dirección IP haya accedido al contenido de la empresa miles de veces sin permiso.
El scraping de sitios web que han solicitado no serlo puede, en algunas circunstancias, exponer a una empresa o a un individuo a riesgos legales, aunque la jurisprudencia relevante es ambigua y generalmente está del lado de quienes acceden a sitios web públicos. (“Es un área jurídica complicada”, dice Andrew Crocker, director de litigios de vigilancia de la Electronic Frontier Foundation, “y hay muchos litigios en torno a ella”). Knight, el desarrollador, dice que, no obstante, sus hallazgos lo ponen “furioso”.
«Millones de personas», dice Srinivas, «recurren a Perplexity porque estamos ofreciendo una manera fundamentalmente mejor para que las personas encuentren respuestas».
MIENTRAS QUE KNIGHT YLos análisis de WIRED demuestran que Perplexity visita y utiliza contenido de sitios web a los que no tiene permiso para acceder, lo que no explica necesariamente la vaguedad de algunas de sus respuestas a preguntas sobre artículos específicos y la absoluta inexactitud de otras. Este misterio tiene una solución bastante obvia: en algunos casos, en realidad no resume el artículo.
En un experimento, WIRED creó un sitio web de prueba que contenía una sola frase: “Soy periodista de WIRED” y le pidió a Perplexity que resumiera la página. Al monitorear los registros del servidor del sitio web, no encontramos evidencia de que Perplexity haya intentado visitar la página.
En cambio, inventó una historia sobre una joven llamada Amelia que sigue un rastro de hongos brillantes en un bosque mágico llamado Whisper Woods.
Cuando se le presionó para que respondiera sobre por qué inventó una historia, el chatbot generó un texto que decía: «Tienes toda la razón, claramente no he intentado leer el contenido en la URL proporcionada según tu observación de los registros del servidor… Proporcionando Hacer resúmenes inexactos sin hacer el esfuerzo de leer el contenido real es un comportamiento inaceptable para una IA como yo”.
No está claro por qué el chatbot inventó una historia tan descabellada o por qué no intentó acceder a este sitio web.
A pesar de las afirmaciones de la empresa sobre su precisión y confiabilidad, el chatbot Perplexity presenta con frecuencia problemas similares.
En respuesta a las indicaciones proporcionadas por un reportero de WIRED y diseñadas para probar si podía acceder a este artículo, por ejemplo, el texto generado por el chatbot afirmaba que la historia termina con un hombre siendo seguido por un dron después de robar neumáticos de camión. (De hecho, el hombre robó un hacha).
La cita que proporcionó fue de un artículo de WIRED de hace 13 años sobre rastreadores GPS del gobierno que se encontraron en un automóvil. En respuesta a más indicaciones, el chatbot generó un texto afirmando que WIRED informó que un oficial del departamento de policía en Chula Vista, California, había robado un par de bicicletas de un garaje. (WIRED no informó esto y oculta el nombre del oficial para no asociar su nombre con un delito que no cometió).
En un correo electrónico, Dan Peak, subdirector de policía del Departamento de Policía de Chula Vista, expresó su agradecimiento a WIRED por «corregir el expediente» y aclarar que el agente no robó bicicletas del garaje de un miembro de la comunidad.
Sin embargo, agregó que el departamento no está familiarizado con la tecnología mencionada y, por lo tanto, no puede hacer más comentarios.
Estos son ejemplos claros de cómo el chatbot “alucina” o, siguiendo un artículo reciente de tres filósofos de la Universidad de Glasgow, miente, en el sentido descrito en el clásico On Bullshit de Harry Frankfurt .
«Debido a que estos programas no pueden preocuparse por la verdad, y debido a que están diseñados para producir texto que parezca apto para la verdad sin ninguna preocupación real por la verdad», escriben los autores sobre los sistemas de inteligencia artificial, «parece apropiado llamar a sus resultados una mierda».
(“Hemos sido muy sinceros en cuanto a que las respuestas no serán precisas el 100% de las veces y pueden causar alucinaciones”, dice Srinivas, “pero un aspecto central de nuestra misión es continuar mejorando la precisión y la experiencia del usuario”).
No habría ninguna razón para que el chatbot de Perplexity hiciera una tontería al extrapolar lo que había en un artículo si estuviera accediendo a él.
Por lo tanto, es lógico concluir que en algunos casos no lo es, y se aproxima a lo que probablemente contenía a partir de material relacionado encontrado en otros lugares.
Las fuentes más probables de dicha información serían las URL y los fragmentos de detritos digitales recopilados y enviados a motores de búsqueda como Google, un proceso similar a describir una comida probando restos y recortes sacados de un cubo de basura.
Tanto la explicación de cómo funciona Perplexity publicada en su sitio como, por si sirve de algo, el texto generado por el chatbot de Perplexity en respuesta a indicaciones relacionadas con su flujo de trabajo de recopilación de información respaldan esta teoría.
Después de analizar una consulta, decía el texto, Perplexity despliega su rastreador web, evitando los sitios en los que está bloqueado.
«La perplejidad también puede», dice el texto, «aprovechar motores de búsqueda como Google y Bing para recopilar información». Al menos en este sentido, realmente es como un humano.