Juego digital: Un estudio de los parámetros de razonamiento estratégico para modelos lingüísticos de gran escala
PDF (English)
DOI (English)

Palabras clave

Modelos lingüísticos de gran escala
Razonamiento estratégico
, Parámetros de referencia
Sistemas multiagente

Cómo citar

Boza Muñoz, D. (2025). Juego digital: Un estudio de los parámetros de razonamiento estratégico para modelos lingüísticos de gran escala. Revista Latinoamericana De Difusión Científica, 7(13), 54-78. https://doi.org/10.5281/zenodo.15832279

Resumen

Los Modelos de Lenguaje de Gran Escala (LLMs) están siendo cada vez más utilizados en tareas que requieren un razonamiento estratégico sofisticado. Realizamos una revisión sistemática de los benchmarks recientes desarrollados para evaluar las capacidades estratégicas de los LLMs en contextos cooperativos, adversariales y orientados a políticas. Siguiendo una estrategia de búsqueda reproducible, identificamos 7 benchmarks principales a partir de un total de 573 artículos. Estos benchmarks miden diversas dimensiones, como la planificación en múltiples pasos, la inferencia de información oculta, el comportamiento cooperativo y las tácticas de engaño. Sus metodologías incluyen competencias multiagente, juegos de tablero, entornos de negociación y escenarios de bienes públicos, cada uno con métricas específicas—desde calificaciones Elo hasta modelos Bradley-Terry—que ofrecen información crucial sobre el desempeño de los LLMs. Destacamos las limitaciones actuales, incluyendo la falta de métricas estandarizadas y la aplicabilidad limitada al mundo real, y proponemos líneas de investigación futura, como evaluaciones con humanos en el bucle y simulaciones a nivel de políticas. Nuestro estudio busca informar a investigadores y profesionales interesados en marcos sólidos para evaluar las competencias de razonamiento estratégico de los LLMs.

https://doi.org/10.5281/zenodo.15832279
PDF (English)
DOI (English)

Citas

Abdelnabi, S., Gomaa, A., Sivaprasad, S., Schönherr, L., & Fritz, M. (2024). Cooperation, competition, and maliciousness: LLM-stakeholders interactive negotiation [Preprint]. arXiv. https://arxiv.org/abs/2309.17234

Duan, J., Zhang, R., Diffenderfer, J., Kailkhura, B., Sun, L., Stengel-Eskin, E., Bansal, M., Chen, T., & Xu, K. (2024). GTBench: Uncovering the Strategic Reasoning Limitations of LLMs via Game-Theoretic Evaluations. arXiv preprint arXiv:2402.12348.

Gandhi, K., Sadigh, D., & Goodman, N. D. (2023). Strategic reasoning with language models. arXiv. https://arxiv.org/abs/2305.19165

Huang, J.-t., Li, E. J., Lam, M. H., Liang, T., Wang, W., Yuan, Y., Jiao, W., Wang, X., Tu, Z., & Lyu, M. R. (2024). How far are we on the decision-making of LLMs? Evaluating LLMs’ gaming ability in multi-agent environments. Artificial Intelligence. arXiv. https://arxiv.org/abs/2403.11807

Jiang, B., Xie, Y., Wang, X., Su, W. J., Taylor, C. J., & Mallick, T. (2024). Multi-modal and multi-agent systems meet rationality: A survey. https://openreview.net/forum?id=9Rtm2gAVjo

Qiao, D., Wu, C., Liang, Y., Li, J., & Duan, N. (2023). GameEval: Evaluating LLMs on Conversational Games. arXiv preprint arXiv:2308.10032.

Shapira, E., Madmon, O., Reichart, R., & Tennenholtz, M. (2024). Can LLMs replace economic choice prediction labs? The case of language-based persuasion games (v4). arXiv:2401.17435. https://arxiv.org/abs/2401.17435

Xu, L., Hu, Z., Zhou, D., Ren, H., Dong, Z., Keutzer, K., Ng, S. K., & Feng, J. (2024). MAgIC: Investigation of large language model powered multi-agent in cognition, adaptability, rationality and collaboration. arXiv. https://arxiv.org/abs/2311.08562

Zhang, Y., Mao, S., Ge, T., Wang, X., de Wynter, A., Xia, Y., Wu, W., Song, T., Lan, M., & Wei, F. (2024). LLM as a mastermind: A survey of strategic reasoning with large language models. arXiv:2404.01230. https://arxiv.org/abs/2404.01230
Creative Commons License
Esta obra está bajo licencia internacional Creative Commons Reconocimiento-NoComercial-CompartirIgual 4.0.

Descargas

La descarga de datos todavía no está disponible.