sábado, 27 de abril de 2024

El Barómetro de sostenibilidad de DIRSE EY: ¿Son confiables los resultados?

 

Es más fácil creer que pensar con espíritu crítico.

Ernst Fischer, 1899-1972

 

A principios de abril, la Asociación de Directivos de Sostenibilidad (ASG), DIRSE, y la consultora EY presentaron los resultados del IV Barómetro de la Sostenibilidad DIRSE-EY donde reportan los resultados de encuestas entre profesionales de la sostenibilidad en España y su comparación los resultados de un análisis de textos de cartas e informes en otros países europeos sobre las prioridades en aspectos de la sostenibilidad empresarial.

 

Advertencia:  Este artículo no pretende analizar ni cuestionar los resultados del Barómetro. El objetivo es alertar al lector/analista sobre los riesgos que conlleva utilizarlos para hacer inferencias o sacar conclusiones para la gestión de la sostenibilidad empresarial, y en el proceso, ofrecer sugerencias para que encuestas de este tipo mejoren su rigor.


 I.                Limitaciones de la metodología.

 1.      Representatividad y tamaño de las muestra.

Este tipo de encuestas, como casi todas, se hace para poder sacar inferencias que sean aplicables a una población que va más allá de la muestra.  Pero la validez de esas inferencias depende de la representatividad y tamaño de la misma muestra. Son válidas en la medida que la población a la cual se quiere hacer la inferencia o extrapolación es semejante a la de la muestra.  Por ello, para sacar inferencias, es importante conocer las características de los encuestados y las metodologías de agregación de las respuestas.

Por ejemplo, no hay problema en decir que el 43,2% de los encuestados opinan algo. Es lo que dijeron.  El problema ocurre cuando queremos extrapolar a decir que el 43,2% de los directivos de sostenibilidad opinarían así. Sería válido si aquellos encuestados fuesen todos directivos de sostenibilidad. La inferencia es válida para un grupo con características semejantes a los encuestados en el tema en estudio.

Para hacerse una idea de la heterogeneidad de la muestra, en este caso incluye 257 profesionales, de los cuales 140 se denominan como dirse (directores de responsabilidad social o sostenibilidad empresarial), pero solo el 54% estos lo son, 17% dicen prestar servicios profesionales, con el resto en actividades relacionadas. El otro grupo de 117 incluye consultores, otros empleados privados, académicos, profesionales del sector sin fines de lucro, entre otros. Sus opiniones no dejar de ser válidas, pero no son representativas de un dirse.  Estrictamente hablando, de los 257, se han calificado a sí mismos como director, o equivalente de sostenibilidad al interior de empresas solo 75. Se debe tener en cuenta estos números a la hora de hacer inferencias de los resultados.

En este caso la muestra representa al colectivo que “tiene interés por la sostenibilidad empresarial” pero dentro de este hay diversidad de experiencias e intereses que los “promedios” enmascaran.

2.     Aritmética versus estadística.

Aritméticamente se puede decir que 5,4 como promedio de prioridad para un tópico (calificadas del 1 al 7), es superior a un 5,3, pero no lo es siempre en términos estadísticos, ya que hay varianzas alrededor de cada promedio reportado y sobre todo en una encuesta con 257 respuestas, de las cuales 140 fueron de supuestos dirses y 117 de profesionales cuya actividad está relacionada con la sostenibilidad.  El promedio da las prioridades son muy cercanos y para todos los aspectos A, S y G y giran alrededor de 5, tanto para los resultados del 2023 como los anteriores. 

Por ello no se puede decir con cierto grado de confianza estadística que las prioridades han cambiado de un año a otro, o que unos aspectos o tópicos son más prioritarios que otros. Por ejemplo, el informe dice, y lo destaca el titular de la presentación del informe, que en el 2023 Gobernanza se ha convertido en el tema más prioritario con un promedio de 5,0 frente al mismo 5,0 de los aspectos sociales, aun habiendo caído del 5,2 en el 2022. [i]¿Cuál es el grado del error estadístico en una muestra como esta?

3.     Priorización bajo restricciones.

Y los resultados que giran alrededor del 5 en una escala de 1 al 7 son de esperar, por la metodología utilizada.   

La encuesta pide calificar del 1 al 7 en cada uno de 4 aspectos de la sostenibilidad empresarial (gobernanza, medio ambiente, social-empleados y social-cadena de valor) para los correspondientes tópicos en cada aspecto (11 en gobernanza, 8 en medio ambiente y social-cadena de valor y 7 en empleados).

Esta metodología permite calificar cada tópico de acuerdo con la “prioridad”.  Hay in sesgo natural por el que el encuestado en este tipo de encuestas no escoge posiciones extremas y suele calificar entre 3 y 6 puntos. ¿Qué no es prioritario en los siete temas de Social-Empleados?



Con esta metodología todo puede ser más o menos prioritario, por ejemplo, calificar todos los tópicos con 5 o 6.  En la realidad diaria, el dirigente empresarial tiene que escoger, no puede ser todo prioritario, enfrenta restricciones financieras y gerenciales y tiene que asignar los escasos recursos por lo que ello sería más representativo si las respuestas lo tomaran en cuenta.

¿Cómo corregir este sesgo? Esto se puede corregir si en la encuesta se pide que los tópicos se jerarquicen por orden de prioridad, primero, segundo, tercero, etc. y asignándoles puntos de acuerdo con su posición relativa, 5, 4, 3, etc. y luego calcular lo que serían promedios ponderados para cada tópico.  Y mejor todavía si se le da al encuestado un “presupuesto de prioridades”, digamos de 21 puntos, para que los distribuya entre los 7 tópicos arriba, de social-empleados. Cada vez que asigna puntos a un tópico tiene menos puntos para asignar a otros. Y de nuevo, el promedio resultaría ponderado por las prioridades.  Cualquiera de estas dos versiones reduciría la inflación de prioridades y las haría más cónsonas con la realidad cotidiana de tener que escoger.

4.     Prioridades por sector industrial.

El informe desglosa las opiniones por 8 sectores industriales, con el objeto de analizar las diferencias o similitudes en las prioridades por tópicos entre los diferentes sectores. Concluye que las diferencias no son muy significativas, lo cual es contraintuitivo.  Sería de esperar que las prioridades del sector hidrocarburos sean diferentes del sector financiero. Según los resultados, aritméticamente son marginalmente diferentes, pero no se puede inferir que lo son estadísticamente.  El problema radica en la representatividad de los resultados y la forma en que han sido obtenidos.

La muestra es muy pequeña para estos propósitos. Si consideramos el grupo denominado dirse, el sector Servicios profesionales y consultoría tiene 24 encuestados, Energía tiene 16 y Minería 4. La opinión de 16 o de 4 no puede considerarse representativa de un sector. No incluimos a los 117 profesionales que no son dirse ya que desempeñan funciones muy variadas, multisectoriales, como mencionamos arriba.

La muestra es muy pequeña para poder hacer inferencias por sector industrial.

II.             ¿Es un análisis de materialidad?

La metodología utilizada no permite determinar la materialidad de los diferentes aspectos y tópicos, como dice el informe.  A lo sumo permite decir, según las respuestas de los encuestados, que hay aspectos y tópicos que les parecen más prioritarios que otros de entre las opciones que dan se para responder. La materialidad es cuestión de cada empresa en el tiempo y contexto en que opera. Un promedio calculado entre todos los encuestados, que trabajan en diferentes empresas y otras instituciones que no son empresas no puede reflejar la prioridad de ninguna de ellas.

Sería un promedio de la importancia que le dan a los temas ambientales una empresa energética, por ejemplo, un 7, con la que le da una institución financiera, por ejemplo, un 3. El promedio para cada aspecto y para cada tópico depende de la composición relativa de los diferentes sectores industriales en la muestra. Si la muestra está dominada por empresas de energía, el tema ambiental subirá en prioridad, si la muestra está dominada por empresas manufactureras, el tema de cadena de valor subirá en prioridad. Y si gran variedad de sectores industriales el promedio tenderá a ser 5.

Esto afecta el análisis de tendencias en el tiempo, si la composición sectorial de la muestra cambia. Los cambios dependen, en efecto, del cambio de prioridades dentro de cada sector, pero también del cambio en las proporciones relativas de los sectores en la muestra, que tienen prioridades muy diferentes.

Los cálculos de promedios parten del supuesto implícito de que la opinión de los encuestados sobre la prioridad de los temas y tópicos no dependen del sector industrial en que se desempeñan.

Promedian, por ejemplo, la prioridad de la reducción de emisiones de los que trabajan en empresas energéticas con la de los que trabajan en instituciones financieras. Promedia, por ejemplo, un 6 de aquellas con un 3 de estas. Y esto explica en parte porque los promedios varían entre 4 y 5, la que es también explicado por el efecto de evitar extremos mencionado arriba por la forma de recopilar las respuestas.

Y de allí que no puedan representar “temas materiales”. [ii]

III.           Comparación de los resultados de España con otros países europeos

El barómetro incluye además la comparación de las declaradas “prioridades” en otros países europeos. A diferencia de múltiples estudios, que comparan aspectos de la gestión de la sostenibilidad en diferentes zonas geográficas, o países, usando la misma metodología, y encuestados con características similares, este estudio no podía replicar las encuestas en otros países y escogió una metodología diferente e indirecta y un colectivo diferente.

En el caso de los resultados a nivel europeo se basa en análisis del contenido textual de 61 cartas de CEO de empresas españolas en informes financieros o integrados y de 1 000 informes financieros de empresas europeas (incluyendo las 61 españolas), sobre los temas de la encuesta hecha en España.

El informe dice que el análisis ha sido llevado a cabo usando programas de Inteligencia Artificial, IA, cuando en realidad lo que han hecho es el tradicional “text mining” o “textual análisis”. El text mining busca palabras comunes en múltiples textos para derivar la frecuencia de uso, en tanto que la AI, si bien parte de una metodología similar, “Natural Language Processing” NLP, busca no solo frecuencia sino interrelaciones, sentimientos, intenciones, aprende a hacer tareas y puede aplicarlas desde producir informes a guiar un avión, por ejemplo. La denominación de la metodología como AI pretende darle mayor credibilidad.[iii]

Del análisis de frecuencia del uso de las palabras se deducen las “prioridades” implícitas por parte de los CEO y de las empresas. ¿Refleja la frecuencia de mención la prioridad para la acción, o prioridad para satisfacer las expectativas de los lectores? Habrá de todo.

De cualquier manera, no son comparables los resultados obtenidos a través de encuestas estructuradas sobre temas muy específicos, entre personas que dedican buena parte de su actividad profesional a temas de sostenibilidad, con las opiniones expresadas en textos generales, redactados por escritores profesionales, que tienen objetivos múltiples de información y posiblemente incluyen el objetivo de persuadir al lector sobre la sostenibilidad de la empresa. ¿Escriben lo que es o lo que les gustaría que fuera? ¿Son comparables las respuestas de aquellos profesionales con la frecuencia de uso de un término en publicaciones para el público?  ¿Expresa la frecuencia de uso de algunas palabras la prioridad que le asignan dentro de la empresa? Seguro que el lector tendrá su propia opinión.

IV.            En resumen.

La encuesta recoge las opiniones de más de 250 profesionales interesados en la sostenibilidad empresarial en España sobre los aspectos y tópicos que consideran de mayor prioridad. Los resultados representan la opinión de esos profesionales y deben interpretarse como tales a la hora de hacer inferencias y extrapolaciones a otros colectivos.

Las limitaciones de la metodología: la heterogeneidad y tamaño de la muestra y la forma de recoger las opiniones y de agregar los resultados limitan su utilidad a efectos de sacar inferencias para la gestión práctica de la sostenibilidad empresarial y para la comparación de las prioridades en España con las de otros países europeos.

El contraste de estas opiniones con los resultados de un análisis de textos sobre términos de sostenibilidad debe tomarse con cautela a la hora de hacer inferencias sobre las importancias relativas de los diferentes aspectos, entre España y otros países europeos, ya que este análisis es sobre una muestra de un colectivo diferente, con metodologías diferentes, analizando textos que tienen objetivos múltiples y no necesariamente el de reflejar las prioridades relativas de los diferentes aspectos.

Y mis disculpas a los autores del Barómetro por este análisis crítico.  Mi objetivo, como el de todos mis artículos, es el de contribuir a mejorar la confiabilidad de la información que se usa para la gestión de la sostenibilidad empresarial......y nobleza obliga: si estoy equivocado lo corregiré.



[ii] La introducción al informe dice que sus objetivos son “¿Qué relevancia han tenido los distintos temas materiales en materia ASG durante el 2023? ¿Cómo ha evolucionado la relevancia de los distintos temas materiales ….”

[iii] Ante la “caja negra” que representa el uso de la AI, existen riesgos de AI-washing.  En EE. UU. se han litigado ya dos casos de ello.

No hay comentarios: