¿Cuál es la mejor IA? Chatbot Arena determina el resultado basado en millones de votos humanos

Con empresas como OpenAI, Google y Meta lanzando productos de inteligencia artificial cada vez más sofisticados, las clasificaciones colaborativas han surgido como la principal forma de determinar qué herramienta funciona mejor. Chatbot Arena de LMSYS se ha establecido como uno de los indicadores en tiempo real más influyentes en este sentido.

HECHOS CLAVE

En un contexto donde las nuevas herramientas de IA como ChatGPT, Claude, Gemini y Mistral están en constante aumento, han surgido tableros de clasificación comunitaria que utilizan el conocimiento humano para evaluar estos modelos. Uno de los más destacados es Chatbot Arena, un proyecto de código abierto creado por el grupo de investigación LMSYS y el Sky Computing Lab de la Universidad de California en Berkeley. Este sitio ha ganado popularidad al permitir a los visitantes comparar y votar por los mejores modelos de IA en diversas categorías, basándose en casi 1.5 millones de votos humanos hasta la fecha. Las categorías incluyen consultas largas, codificación, seguimiento de instrucciones, matemáticas, «indicaciones difíciles» y múltiples idiomas como inglés, francés, chino, japonés y coreano.

¿CUÁL ES EL MEJOR MODELO DE IA EN CHATBOT ARENA?

Los cinco mejores modelos de IA en la clasificación general de Chatbot Arena son:

GPT-4o
Soneto Claude 3.5
Géminis avanzado
Géminis 1.5 Pro
Turbo GPT-4

QUÉ TENER EN CUENTA

Es crucial desarrollar métodos efectivos para evaluar modelos de IA a medida que estas herramientas se integran más en la sociedad. Aunque los puntos de referencia actuales son importantes, Vanessa Parli, directora de investigación del Instituto de IA centrada en el ser humano de la Universidad de Stanford, subraya que también deben servir como metas para los investigadores al desarrollar modelos. Además, destaca la importancia de evaluar características humanas no cuantificables como el sesgo, la toxicidad y la veracidad en los modelos de IA, especialmente en sectores sensibles como la atención médica.

CITA CRUCIAL

«Los puntos de referencia no son perfectos, pero por ahora son el principal mecanismo que tenemos para evaluar los modelos», advierte Parli. Destaca la necesidad de ser creativos en la creación de nuevas formas de evaluación, dado que los modelos de IA pueden manipular fácilmente los puntos de referencia existentes debido a su rápida saturación.

LO QUE NO SABEMOS

La medición de la inteligencia artificial es compleja, especialmente cuando aún no hay consenso sobre cómo definir y medir la inteligencia humana. A medida que los investigadores avanzan hacia la creación de una inteligencia artificial general (IAG), que podría igualar o superar las capacidades humanas en múltiples dominios, se requerirán evaluaciones más amplias y generales de los modelos de IA.

¿QUÉ TAN ÚTIL ES CHATBOT ARENA PARA EVALUAR MODELOS DE IA?

Según Jesse Dodge, Chatbot Arena es una clasificación confiable porque utiliza la evaluación humana directa para determinar las preferencias entre modelos. Sin embargo, Vanessa Parli enfatiza que este tipo de evaluaciones no deben ser el único método utilizado, ya que hay muchos otros factores importantes que las organizaciones deben considerar al evaluar modelos de IA.

¿Cuál es la mejor IA? Chatbot Arena determina el resultado basado en millones de votos humanos

Te puede interesar...

Juicio a Google por monopolio en publicidad digital en septiembre

Google aclara rumores sobre el fin de Gmail: ¡No te despidas aún!

UIT solicita regulación de la IA para su avance sin restricciones

Apple multada con 1,950 mdd por monopolio en caso Spotify

Robots: sirviendo copas y haciendo paellas perfectas

¡Cuidado! Ofertas de empleo por WhatsApp podrían ser estafas