Grandes modelos de lenguaje: más allá de Chatgpt

José Miguel Bolarín Científico de datos en Centic

9 de octubre de 2023, 16:58

Varias compañías han contribuido al meteórico desarrollo de esta tecnología en los últimos años, pero entre todas ellas destaca OpenAI, que se ha consolidado como líder indiscutible del sector gracias al popularísimo ChatGPT. Sin embargo, los rivales de OpenAI no pierden el paso, pese a la tremenda desventaja con la que cuentan, y están creando herramientas que están en posición de plantar cara a la empresa liderada por Sam Altman. Entre estas compañías se encuentran tanto gigantes tecnológicos (Gooogle, Meta o Salesforce), como firmas más pequeñas especializadas en la tecnología del lenguaje natural (Anthropic o Cohere).

En este artículo se describen las empresas y productos más destacados del panorama actual de los LLMs, un mercado que evoluciona rápidamente y que está destinado a ser clave en el proceso de digitalización de las empresas.

OpenAI

OpenAI lleva años liderando el desarrollo de la IA en múltiples ámbitos, aunque durante el último año ChatGPT se ha convertido en su producto estrella. Se basa en los modelos de lenguaje GPT-3.5 turbo y GPT-4, que han sido entrenados tanto con información de internet como con feedback humano, y a los que se puede acceder directamente usando una API, facilitando su integración en desarrollos propios. Además, permite realizar un re-
entrenamiento de los modelos usando datos específicos para optimizarlos en casos de uso concretos, y también ajustar parámetros como la temperatura o el número de tokens para controlar el estilo y la longitud de las respuestas. Aceptan entradas de entre 8k y 32k tokens, y en términos de velocidad y calidad de las respuestas, GPT-3.5 turbo y GPT-4 se encuentran en posición de liderazgo en casi todas las comparativas.

Anthropic

Anthropic, fundada por antiguos miembros de OpenAI, pretende contribuir al desarrollo de la IA desde una perspectiva ética, centrándose en la robustez y la seguridad de sus soluciones. Claude 2, lanzado en julio de este año, es la última versión de su modelo de lenguaje y aunque aún está algún escalón por debajo, es una seria alternativa a los GPT tanto por su rapidez como por la calidad de las respuestas. Está publicado bajo una licencia Open Source, y también se puede utilizar usando una API, permitiendo utilizar entradas de hasta 100k tokens. Según Anthropic, Claude 2 utiliza procesos exclusivos de entrenamiento e inferencia que minimizan el riesgo de generar respuestas inmorales y faltas de ética, permitiendo controlar de manera precisa su comportamiento.

Cohere

Cohere es una empresa canadiense fundada por antiguos ingenieros de Google Brain, que participaron en los trabajos pioneros sobre transformers que mas tarde derivaron en el desarrollo de los LLMs. Sus modelos de lenguaje, command-xlarge y command-medium, están específicamente diseñados para interpretar instrucciones de manera rápida además de precisa, por lo que son ideales para desarrollar chatbots. Cohere se centra en el rendimiento y la seguridad, y aunque por su relativamente pequeño tamaño la calidad de sus respuestas no es comparable a las de los GPT o Claude, los supera en velocidad y capacidad de proceso masivo de datos. También se pueden utilizar usando una API.

Google

Google, uno de los mayores gigantes tecnológicos globales, es además pionero en el desarrollo de los transformers, una arquitectura que ha servido de base para todos los posteriores LLMs. Tras los lanzamientos de BERT y T5, su modelo más avanzado actualmente es PaLM 2, anunciado en mayo de 2023, en el que basa el asistente conversacional Bard de Google.

PaLM2 rivaliza en tamaño con los modelos de OpenAI, aunque está aún a la zaga en términos de velocidad y calidad de las respuestas. Sin embargo, nadie duda de la capacidad de Google para mantener el ritmo de los desarrollos en los LLMs, por lo que seguirá siendo un actor importante en los próximos años.

Meta.AI

La división de IA de Meta es otro de los grandes protagonistas en el panorama de los LLMs actuales, con su familia de modelos LLaMA, cuya última versión es LLaMA 2, lanzada en julio de este año. Poseen tanto versiones generalistas como específicas para chatbots, y aceptan entradas con un tamaño de entre 2k y 4k tokens. Pese a ser modelos significativamente más ligeros que los de OpenAI o Google, rivalizan con estos en calidad de las respuestas gracias al gran volumen de datos con los que han sido entrenados, al tiempo que mantienen una alta
velocidad.

Salesforce

Una de las compañías líderes en CRMs y ventas a nivel mundial, Salesforce ha desarrollado su propio LLM denominado CTRL, que pese a ser uno de los más ligeros, muestra un sorprendente desempeño en las comparativas. Gracias a más de 50 códigos de control, permite al usuario controlar de manera precisa el estilo de las respuestas, además de proporcionar información sobre las fuentes usadas en su generación. También permite realizar re-entrenamientos para ajustar el modelo a aplicaciones específicas.

DataBricks

Dolly es el LLM de DataBricks, uno de los líderes mundiales en Cloud Computing, fundada por los creadores de Apache Spark. Su última versión, Dolly 2, está basado en la familia de modelos Pythia de Eleuther.IA, y aunque no está diseñado para competir a corto plazo directamente con los modelos de OpenAI, es una alternativa a la que merece la pena hacer un seguimiento por su sorprendente buen rendimiento.

En resumen, OpenAI están un escalón por encima de todos sus competidores y debe ser siempre la primera opción al considerar un proyecto que implique NLP, y no hay expectativas de que su liderazgo se vea amenazado a corto plazo. Por el momento, sus competidores tan solo pueden ser una alternativa cuando la velocidad de la respuesta sea clave, o si existen consideraciones de privacidad y seguridad que imposibiliten el uso de la nube. Pese a ello,
conviene seguir de cerca la evolución del panorama de los LLMs, tanto de los gigantes tecnológicos como de las pequeñas empresas especialistas de NLP, que poco a poco van recortando la desventaja con la que cuentan, y a medio y largo plazo comenzarán a ganar cuota de mercado en este floreciente mercado.

opinión

Grandes modelos de lenguaje: más allá de Chatgpt

26/7/24

26/7/24

26/7/24

26/7/24

24/7/24

16/7/24

24/7/24

24/7/24