Resumen
Los Modelos de Lenguaje de Gran Escala (LLMs) están siendo cada vez más utilizados en tareas que requieren un razonamiento estratégico sofisticado. Realizamos una revisión sistemática de los benchmarks recientes desarrollados para evaluar las capacidades estratégicas de los LLMs en contextos cooperativos, adversariales y orientados a políticas. Siguiendo una estrategia de búsqueda reproducible, identificamos 7 benchmarks principales a partir de un total de 573 artículos. Estos benchmarks miden diversas dimensiones, como la planificación en múltiples pasos, la inferencia de información oculta, el comportamiento cooperativo y las tácticas de engaño. Sus metodologías incluyen competencias multiagente, juegos de tablero, entornos de negociación y escenarios de bienes públicos, cada uno con métricas específicas—desde calificaciones Elo hasta modelos Bradley-Terry—que ofrecen información crucial sobre el desempeño de los LLMs. Destacamos las limitaciones actuales, incluyendo la falta de métricas estandarizadas y la aplicabilidad limitada al mundo real, y proponemos líneas de investigación futura, como evaluaciones con humanos en el bucle y simulaciones a nivel de políticas. Nuestro estudio busca informar a investigadores y profesionales interesados en marcos sólidos para evaluar las competencias de razonamiento estratégico de los LLMs.
Citas
Duan, J., Zhang, R., Diffenderfer, J., Kailkhura, B., Sun, L., Stengel-Eskin, E., Bansal, M., Chen, T., & Xu, K. (2024). GTBench: Uncovering the Strategic Reasoning Limitations of LLMs via Game-Theoretic Evaluations. arXiv preprint arXiv:2402.12348.
Gandhi, K., Sadigh, D., & Goodman, N. D. (2023). Strategic reasoning with language models. arXiv. https://arxiv.org/abs/2305.19165
Huang, J.-t., Li, E. J., Lam, M. H., Liang, T., Wang, W., Yuan, Y., Jiao, W., Wang, X., Tu, Z., & Lyu, M. R. (2024). How far are we on the decision-making of LLMs? Evaluating LLMs’ gaming ability in multi-agent environments. Artificial Intelligence. arXiv. https://arxiv.org/abs/2403.11807
Jiang, B., Xie, Y., Wang, X., Su, W. J., Taylor, C. J., & Mallick, T. (2024). Multi-modal and multi-agent systems meet rationality: A survey. https://openreview.net/forum?id=9Rtm2gAVjo
Qiao, D., Wu, C., Liang, Y., Li, J., & Duan, N. (2023). GameEval: Evaluating LLMs on Conversational Games. arXiv preprint arXiv:2308.10032.
Shapira, E., Madmon, O., Reichart, R., & Tennenholtz, M. (2024). Can LLMs replace economic choice prediction labs? The case of language-based persuasion games (v4). arXiv:2401.17435. https://arxiv.org/abs/2401.17435
Xu, L., Hu, Z., Zhou, D., Ren, H., Dong, Z., Keutzer, K., Ng, S. K., & Feng, J. (2024). MAgIC: Investigation of large language model powered multi-agent in cognition, adaptability, rationality and collaboration. arXiv. https://arxiv.org/abs/2311.08562
Zhang, Y., Mao, S., Ge, T., Wang, X., de Wynter, A., Xia, Y., Wu, W., Song, T., Lan, M., & Wei, F. (2024). LLM as a mastermind: A survey of strategic reasoning with large language models. arXiv:2404.01230. https://arxiv.org/abs/2404.01230

Esta obra está bajo licencia internacional Creative Commons Reconocimiento-NoComercial-CompartirIgual 4.0.