Homonimia y sinonimia, los dos males de la ciencia del management que impide a la IA dar resultado útiles

(contenido creado a finales de 2025, no sé lo bien o mal que envejecerá este post)

Con frecuencia, mis colegas investigadores me preguntan sobre qué plataforma de IA les recomiendo que pueda dar buenas respuestas a preguntas científicas/profesionales. Me ponen por ejemplo que los profesionales de medicina usan cosas como OpenEvidence ; Search – Consensus: AI Search Engine for Research ; Elicit: AI for scientific research

Mi opinión en estos momentos, basada en los experimentos que llevo haciendo desde hace un par de años (experimentos informales, no del todo sistemáticos, y sobre todo centrados en los temas o asuntos que me interesan a mí en mi día a día como investigador, docente y consultor), es que no hay nada en nuestro campo que aporte resultados “decentes” (que sean útiles, ciertos o que no tengan un sesgo tremendo en la respuesta).

Tanto OpenEvidence como Consensus, Elicit y similares solo aciertan (cuando aciertan) con literatura de ciencias de la salud.

Los motivos son claros para mí. Primero el modo que esas comunidades difunden su ciencia:

    • El tipo de artículos e investigaciones que hacen
    • Lo específicos que son al emplear términos y la estricta nomenclatura que usan (nunca emplean el término “dolor de cabeza”, usan, por ejemplo, cefalea tensional, neuralgia o migraña…, y cada uno es diferente de los otros)
    • El consenso en la reutilización de instrumentos de medida que se han demostrado válidos y fiables
    • y la tradición en “medicina basada en evidencia” que tienen (que igual es el origen de todo lo anterior)

Eso les permite que la IA pueda sacar resultados interesantes.

Además, aunque ya más tangencialmente, el conjunto de documentos con el que se ha entrenado el modelo (que claramente está sesgado a esas ciencias, porque entiendo que es donde más negocio pueden hacer los que venden esas plataformas).

Sin embargo, en el caótico mundo de la investigación en Management, donde cada uno pone el nombre que le da la gana a las “cosas” y midiéndolo cada vez de una forma distinta, el resultado es que una misma palabra significa cosas distintas en distintos artículos (homonimia) y, al mismo tiempo, las mismas cosas se nombran con palabras completamente diferentes (sinonimia).

No sé si resolviendo esto resolveríamos completamente el problema, pero habríamos dado un paso de gigantes para poder hacer una extracción sistemática a gran escala del enorme conocimiento que se ha ido generando en el área y que, de momento, está enmarañado.

Visitas: 23

DECIDE – Design and Evaluation of Collaborative Intervention for Decision Enhancement

Extended Title: Action research on designing materials, protocol, and feasibility of a complex intervention to foster critical thinking and apply the triple diamond framework in group decision-making.

This project aims to enhance students’ critical thinking and decision-making skills by developing, testing, and refining a structured group decision-making framework called the triple diamond. It focuses on identifying misconceptions that hinder students’ use of this framework and improving pedagogical interventions through active, collaborative learning and evidence-based methodologies.

  • Project scope and participants: The innovation will be implemented across multiple courses in engineering, logistics, and business master’s programs, involving diverse student groups facing recurring difficulties in applying structured decision-making methods.
  • Problem identification: Students consistently rely on intuitive rather than structured approaches in group decisions, struggling to apply the triple diamond framework despite repeated instruction and practice. This issue is persistent and mirrors challenges observed in professional settings.
  • Theoretical foundations: The project integrates concepts of misconceptions, knowledge elicitation, threshold concepts, and decoding the discipline to reveal and address barriers to expert-like thinking in decision processes. It emphasizes the reorganization of knowledge fragments rather than the mere replacement of incorrect ideas.  
  • Learning objectives: Students will learn to manage group decision processes using the triple diamond, define tasks and prioritization criteria explicitly, analyze innovation competencies, and develop reasoned, evidence-based reports, all enhancing critical thinking skills.
  • Methodology: The project employs active and collaborative learning through structured three-hour classroom dynamics complemented by autonomous preparatory work. It incorporates innovative visual case representations, reflective learning journals, and think-aloud protocols to elicit student thinking and identify misconceptions.
  • Expected outcomes: These include identifying common misconceptions, adapting and developing rubrics for assessment, quantifying students’ valuation of innovation competencies, improving decision quality and reducing cognitive biases, and evaluating the impact of different case presentation formats on engagement and critical thinking.
  • Work plan and tools: The two-year plan details tasks such as material development, rubric adaptation, protocol design, experimental validation, and dissemination through academic articles and conferences. Project management uses O365 tools with regular team meetings and quality control processes.
  • Evaluation strategy: Evaluation includes measuring the number and categorization of misconceptions, rubric validation, analysis of student preferences and clusters, transferability assessments, pre-post intervention comparisons, and engagement metrics using established models. Data collection involves think-aloud sessions, forum analyses, and observations.
  • Impact and dissemination: The project aims to improve teaching and learning by making decision-making processes transparent and evidence-based, enabling transfer across disciplines and formats, including MOOCs. Results will be shared via conferences, indexed publications, online platforms, and social media, ensuring broad accessibility and adoption.

#PI-DECIDE

Visitas: 20

Significativo, pero no relevante

Esta es mi conclusión, contraría a la de las personas que han escrito este artículo. Para mí, 0.4 puntos de diferencia en una escala de 1 a 7 sobre algo complicado de medir y con mucha subjetividad, me parece que es más bien lo contrario, un nivel de acuerdo excepcional.
Tsirkas, K., Chytiri, A. P., & Bouranta, N. (2020). The gap in soft skills perceptions: A dyadic analysis. Education and Training, 62(4), 357–377. https://doi.org/10.1108/ET-03-2019-0060 

Luego hay un “temita” que normalmente me desespera un poco y es el de los gráficos falsos (si, vale no son falsos, pero están trucados). Este radar chart es un ejemplo clarísimo. El truco es que no pones el principio y el final de los ejes del gráfico en el nivel mínimo y máximo de la escala respectivamente (que sería un 1 y un 7). Sino que el centro lo pones en un valor arbitrario, por ejemplo, el 4, y el tope de la escala lo pones en 6,5 (otro valor arbitrario). De modo que cada “curva de nivel” ya no representa un punto sino, quizás, 0,2 puntos y entonces las diferencias visuales quedan magnificadas. Por supuesto, si no pones los números el impacto es mayor. Aunque los pongas, el truco sigue funcionando porque el espacio visual impacta más que el hacer una resta entre 5.76 y 5.29 (por ejemplo, para trabajo en equipo).
Si queréis engañar o confundir a la audiencia es la mejor forma de hacerlo, pocas personas se darán cuenta del truco y el impacto es ¡Wohw, vaya diferencia más brutal!

No hay descripción alternativa para esta imagen

Visitas: 11

Estructura de codigos para construir mi 2ndBrain

Uno de los objetivos de agosto es ir avanzando en mi modelo de “second brain”. Estaba reflexionando sobre el proceos que sigo para extraer la información y he tenido que hacer un alto para aclarar términos.

La literatura (ver referencias) suele identificar diferente cantidad de etapas en el proceso de análisis de contenido, y darle nombres distintos a etapas que tienen muchas cosas en común.
Por eso he dedicado toda la mañana integrando la información en una tabla, donde lo relevante es la definición basada en tareas. Que haya estado más o menos acertado en capturar los significados o agrupar los sinónimos creo que es mucho menos relevante.

Term used*Definition (qué se hace)
Chunk (free coding; open coding; free text; annotation; quotation)Extraer fragmentos de información; seleccionar la “quotation/annotation” sin añadir ningún “code” es el equivalente a resaltar o subrayar un fragmento de texto (“chunk” en el lenguaje de IAgen). Representan la voz de la persona informante sin interpretación del investigador-a
Open Coding (1st-order concept, initial coding)Etiquetar los chunks con un código “in-vivo” que identifique el sentido dado sin pervertirlo. Tries to adhere faithfully to informant terms, making little attempt to distill categories. Se hace un parafraseo o resumen del texto libre para que sea manejable y sintetice la esencia del chunk (una frase como mucho)
Focused coding (axial coding, 2nd order themes)Selección y refinamiento de los códigos para que representen los temas principales de los chunks, sus similitudes y diferencias. Interpretación conceptual de los open coding y decidir como agruparlos bajo temas más abstractos. Emergen nuevos conceptos que ayuden a describir, entender los chunks, o a rellenar gaps entre chunks
Aggregate dimensions (selective coding, theoretical coding)Crear una jerarquía o relación entre los focused codes, añadiendo categorías, y creando una integración conceptual a través de las relaciones entre temas y/o conceptos que explica el cómo, el por qué o las causas (que viene siendo una representación gráfica de la teoria)
* incluyo entre paréntesis sinónimos utilizados por diferentes tradiciones

References:

Charmaz, K. (2006). Constructing grounded theory. A practical guide through qualitative analysis. SAGE.

Chiovitti, R. F., & Piran, N. (2003). Rigour and grounded theory research. Journal of Advanced Nursing, 44(4), 427–435. https://doi.org/10.1046/j.0309-2402.2003.02822.x

Friese, S. (2017). Translating the Process of Open / Initial Coding In Grounded Theory. http://atlasti.com/2017/07/01/gt/ 

Glaser, B. G. (2002). Constructivist Grounded Theory? Forum: Qualitative Social Research, 3(3), 1–10.

Goulding, C. (2002). Grounded theory: A practical guide for management, business and market researchers. SAGE.

Locke, K. (2001). Grounded Theory in Management Research. SAGE.

Payne, S. (2007). Grounded theory. In E. Lyons & A. Coyle (Eds.), Analysing Qualitative Data in Psychology (pp. 65–86). SAGE Publications, Ltd. https://doi.org/10.4135/9781446207536.d12

Gioia, D. A., Corley, K. G., & Hamilton, A. L. (2013). Seeking Qualitative Rigor in Inductive Research:Notes on the Gioia Methodology. Organizational Research Methods, 16(1), 15–31. https://doi.org/10.1177/1094428112452151

Magnani, G., & Gioia, D. (2023). Using the Gioia Methodology in international business and entrepreneurship research. International Business Review, 32(2), 102097. https://doi.org/10.1016/j.ibusrev.2022.102097

Visitas: 4

Using AI to Make Literature Reviews Smarter and More Efficient

Marin-Garcia, J. A., Martinez-Tomas, J., Juarez-Tarraga, A., & Santandreu-Mascarell, C. (2024). Protocol paper: From Chaos to Order. Augmenting Manual Article Screening with Sentence Transformers in Management Systematic Reviews. WPOM-Working Papers on Operations Management15, 172–208. https://doi.org/10.4995/wpom.22282

What is it about?

This protocol paper describes a new method to help researchers screen and classify scientific articles more efficiently during systematic literature reviews. The authors propose using AI language models called “sentence transformers” to automatically analyze article titles and abstracts, comparing them to the review’s topic of interest. This helps researchers prioritize which articles to review first, rather than working through them randomly. The method was tested with 14 different AI models on a small set of articles about workplace management practices.

Featured Image

Why is it important?

As scientific publications grow exponentially, researchers struggle to efficiently review all relevant literature. This method could: * Save significant time in the screening process * Reduce researcher fatigue and potential bias * Make systematic reviews more accessible to researchers with limited resources * Help democratize access to advanced AI tools for academic research * Support evidence-based management practices by making literature reviews more feasible The approach is particularly valuable because it’s designed to complement rather than replace human judgment, and can be implemented using free, accessible tools.

Perspectives

This protocol represents an innovative bridge between cutting-edge AI technology and traditional academic research methods. The authors’ commitment to making the tool freely available and easy to use for researchers worldwide, regardless of technical expertise or resources, is particularly noteworthy. The pilot results suggest promising potential, though more testing is needed to validate the approach at larger scales.

Professor Juan A. Marin-Garcia
Universitat Politecnica de Valencia

Read the Original

This page is a summary of: Protocol paper: From Chaos to Order. Augmenting Manual Article Screening with Sentence Transformers in Management Systematic Reviews, WPOM – Working Papers on Operations Management, December 2024, Universitat Politecnica de Valencia,
DOI: 10.4995/wpom.22282.

Visitas: 3

A Three-Step Publishing Model to Support Evidence-Based Management

Marin-Garcia, J. A. (2021). Three-stage publishing to support evidence-based management practice. WPOM-Working Papers on Operations Management12(2), 56–95. https://doi.org/10.4995/wpom.11755 

 

What is it about?

This paper proposes a new model for publishing scientific research in business and management that aims to make studies more transparent and useful for practitioners. The model includes three key stages: 1) Publishing the research protocol/plan before starting, 2) Publishing the collected data, and 3) Publishing the final results and conclusions. This approach helps ensure research is well-planned, data is accessible for verification, and findings can be confidently applied in real-world management practice.

Featured Image

Why is it important?

Currently, there’s a big gap between management research and practice – many research findings never get implemented by actual managers. This model helps bridge that gap by: * Making the research process more transparent and trustworthy * Ensuring data quality through peer review at each stage * Making it easier for practitioners to access and understand findings * Encouraging more systematic, well-planned studies * Supporting evidence-based management decisions The model could significantly improve how management research is conducted and shared, ultimately making it more valuable for both academics and practitioners.

Perspectives

This innovative proposal challenges traditional publishing approaches in management research. While similar models exist in medicine and other fields, this is one of the first attempts to systematically apply such rigorous standards to business research. This offers a practical solution to improve research quality and impact. The detailed guidelines and examples make this a valuable roadmap for researchers wanting to conduct more transparent, reproducible studies.

Professor Juan A. Marin-Garcia
Universitat Politecnica de Valencia

Visitas: 6

¿Cómo afecta el compromiso laboral a las emociones diarias?

En una encuesta reciente de GALLUP,durante el tercer trimestre 2024 en USA, se preguntaba si los participantes experimentaron emociones como estrés, preocupación, enojo o tristeza durante gran parte del día anterior y también con su nivel de “compromiso” (le llaman engagement y la verdad es que es una mezcla o potpurrí de indicadores que no son exactamente ni compromiso, ni implicación, ni ninguna medida específica)

Esta gráfica muestra cómo el promedio de la experiencia de emociones negativas diarias (estrés, preocupación, tristeza y enojo) es diferentes al agrupar a las personas participantes por el nivel de compromiso de los empleados en tres categorías: activamente desconectados-as, no comprometidos-as y comprometidos-as.

Conclusión:

Aparentemente, el compromiso laboral está vinculado a una reducción en las emociones negativas. Los empleados comprometidos muestran niveles mucho más bajos de estrés, preocupación, tristeza y enojo, mientras que los activamente desconectados sufren con mayor intensidad estas emociones negativas. Pero la verdad es que sólo con esta gráfica no sabemos cómo afecta, ni si el compromiso es la causa o la consecuencia de las emociones. Lo que parece, es que tienen alguna relación entre si (o que ambas realmente no tienen relación, pero si la tienen con una tercera variable, correlación espuria). 

Visitas: 3

La implicación y las emociones negativas en USA ¿Spain is different?

En una encuesta reciente de GALLUP, se preguntaba si los participantes experimentaron emociones como estrés, preocupación, enojo o tristeza durante gran parte del día anterior.

  1. El estrés es la emoción negativa más reportada y ha mostrado una tendencia ascendente desde 2008. Aumentó en 2020 (posiblemente debido a la pandemia de COVID-19) y aunque se ha reducido, se mantiene en niveles superiores a pre-pandemia
  2. La preocupación se mantuvo relativamente constante hasta 2020, cuando también aumentó bruscamente. Posteriormente, comenzó a disminuir ligeramente, estabilizándose alrededor del 40% en 2024 (valor superior a pre-pandemia).

  3. La tristeza tuvo un aumento gradual hasta 2020 y luego disminuyó ligeramente. Actualmente se encuentra en 22%.

  4. El enojo es la emoción menos frecuente entre las cuatro, con valores cercanos al 18% en 2024. Ha mostrado una tendencia relativamente estable con leves fluctuaciones.

Conclusión:

La gráfica destaca cómo las emociones negativas (particularmente el estrés y la preocupación) aumentaron durante períodos críticos como la pandemia, aunque algunas han disminuido desde entonces. Sin embargo, el estrés sigue siendo un factor presente en la vida diaria de los empleados en Estados Unidos.

¿Qué valores tendremos para estos indicadores en España? ¿Será una tendencia parecida? Pero, sobre todo, ¿seremos capaces de identificar las causas y no solo de describir un fenómeno?

Visitas: 4

Claude, el mejor copiloto para investigación actualmente

Llevo 4 meses sometiendo a diferentes modelos/plataformas a casos de uso reales que me enfrento en mi tarea como investigador en el área de management. Cada vez que tengo que realizar una tarea susceptible de se copilotada por una Inteligencia Artificial generativa, la pruebo en las 6 alternativas (me he suscrito a la version “pro” de todas ellas para poder compararla en su “mejor versión”).

Mis casos de uso recorren tareas tan diversas como plantear investigaciones nuevas, dar respuesta a criticas de revisores/as a mis envíos a revistas, ver el estado actual de investigación, extraer definiciones contrastadas avaladas por citas “top”, asesor metodológico para análisis complejos, soporte para código python o R para análisis, soporte para creación de páginas web para captura de datos, reformulación de transcripciones de entrevista, anonimización de nombres (entity recognition) en entrevistas o campos abiertos de encuestas,….

Además, los he usado varias veces para cada tarea (mínimo 5 o 6 veces, algunas más de 30 veces durante estos cuatro meses)

En las plataformas como perplexity, consensus, scite o scispace no he sido capaz de saber cual es el modelo que usan de base. Todas ellas lo han “fine-tuneado” pero no se sobre que modelo han partido.

En mi experiencia, el modelo por excelencia para soporte a tareas de investigación es Claude3.5-sonnet. Ninguna de las otras plataformas se acerca en rendimiento.

Puedes acceder desde Anthropic https://claude.ai/login?returnTo=%2F%3F o desde https://poe.com (mi favorita)

Pd: si no tienes dinero para pagar varias suscripciones, mi consejo es que lo inviertas en Poe.com (o, como segunda opción, en Anthropic). Si tines dinero para pagar varias, compra solo la de Poe.com y te gastas el resto tomando algún aperitivo con tus amigos/as.

Pd: mi ranking no puede extrapolarse para otros usos no relacionados con tareas de investigación. También podéis alegar que mis casos de uso son “muy particulares” y no os representan. Si no os convencen mis resultados, comprobadlo aplicando a vuestros casos de uso.

#IAgen #research 

 

Vista previa de la imagen

 

Visitas: 43

Flexibilidad y work-life balance

Aunque este articulo tiene otro enfoque y realmente habla de flexibilidad en general, me ha dado por pensar que si no planificamos las tareas el trabajo remoto igual arregla la vida de quien trabaja remoto, pero estresa y empeora la vida de los que están a la espera (o con la incertidumbre) de cuando estarán las cosas hechas.

Esto no es solo por teletrabajo (no penséis que me opongo el trabajo remoto, todo lo contrario), me la juego a que esa incertidumbre existe en el mismo momento que un proceso pasa de las tareas que hace una unidad a las que hace otra unidad distinta.

Mi intuición es que planificamos poco o nada las tareas en mi contexto cercano y el argumento que soporta mi intuición es que muy, muy pocas personas usan “gestores de tareas” (una simple tabla o Trello, Planner, Asana o similares) y las veces que he intentado convencer a alguien que los use en tareas de equipo, la resistencia ha sido brutal (nunca he conseguido que se usen). De modo que sospecho que, a nivel individual, donde es menos evidente su necesidad, se usarán todavía menos.

Mi sesgo es que dudo que alguien planifique si no divide el trabajo en tareas y asigna fechas y responsables para las mismas. Es un sesgo grande, porque realmente esto es “Programar” tareas y no “Planificar” tareas. Pero yo intuyo (de nuevo es intuición) que cuando el articulo habla de Planificar, realmente se quiere referir a Programar tareas.

(una visión de gestores de tareas: Algunas indicaciones para elegir el gestor de tareas que necesita el equipo remoto | 16/21 | UPV – YouTube)

Spoiled for Choice? When Work Flexibility Improves or Impairs Work–Life Outcomes

Brandon W. Smit https://orcid.org/0000-0003-0586-2091 bsmit@bentley.eduScott L. Boyar, and Carl P. Maertz, Jr.View all authors and affiliations

OnlineFirst

https://doi.org/10.1177/01492063231215018

Abstract

Work flexibility, which reflects employee discretion over where and/or when they complete tasks, has become a pervasive practice designed to reduce stress and enhance work–life balance. Despite its popularity, relatively little is known about its potential drawbacks. Through extending conservation of resources theory using dual process models of decision-making, we develop and test a theoretical model that demonstrates how and for whom perceived flexibility can improve or impair work-life outcomes. Across two studies utilizing panel data collected in three waves, we demonstrate that planning is a key mediating mechanism that allows individuals to translate the discretion afforded by flexibility into enhanced work-life balance and reduced exhaustion. Furthermore, we find that planning among those with a low future temporal focus, who are not inclined to plan by default, was strongly influenced by environmental discontinuities (e.g., disruptions to routines). Specifically, while flexibility increased planning when individuals experienced discontinuities, flexibility reduced planning among individuals in stable and familiar circumstances, which ultimately impaired work-life outcomes. Our model offers a useful theoretical lens to understand how individuals manage, and occasionally mismanage, the expanded discretion offered by flexibility.

Visitas: 64