Es más fácil creer que pensar con espíritu
crítico.
Ernst Fischer, 1899-1972
A principios de abril, la Asociación de Directivos de Sostenibilidad (ASG),
DIRSE, y la consultora EY presentaron los resultados del IV Barómetro de la Sostenibilidad DIRSE-EY donde reportan los resultados de
encuestas entre profesionales de la sostenibilidad en España y su comparación
los resultados de un análisis de textos de cartas e informes en otros países
europeos sobre las prioridades en aspectos de la sostenibilidad empresarial.
Advertencia: Este
artículo no pretende analizar ni cuestionar los resultados del Barómetro. El objetivo
es alertar al lector/analista sobre los riesgos que
conlleva utilizarlos para hacer inferencias o sacar conclusiones para la gestión
de la sostenibilidad empresarial, y en el proceso, ofrecer sugerencias para que
encuestas de este tipo mejoren su rigor.
Este tipo de
encuestas, como casi todas, se hace para poder sacar inferencias que sean
aplicables a una población que va más allá de la muestra. Pero la validez de esas inferencias
depende de la representatividad y tamaño de la misma muestra. Son válidas en la
medida que la población a la cual se quiere hacer la inferencia o extrapolación
es semejante a la de la muestra. Por
ello, para sacar inferencias, es importante conocer las características de los
encuestados y las metodologías de agregación de las respuestas.
Por ejemplo, no
hay problema en decir que el 43,2% de los encuestados opinan algo. Es lo que
dijeron. El problema ocurre cuando
queremos extrapolar a decir que el 43,2% de los directivos de sostenibilidad
opinarían así. Sería válido si aquellos encuestados fuesen todos directivos de
sostenibilidad. La inferencia es válida para un grupo con características
semejantes a los encuestados en el tema en estudio.
Para hacerse una
idea de la heterogeneidad de la muestra, en este caso incluye 257
profesionales, de los cuales 140 se denominan como dirse (directores de
responsabilidad social o sostenibilidad empresarial), pero solo el 54% estos lo
son, 17% dicen prestar servicios profesionales, con el resto en actividades
relacionadas. El otro grupo de 117 incluye consultores, otros empleados
privados, académicos, profesionales del sector sin fines de lucro, entre otros.
Sus opiniones no dejar de ser válidas, pero no son representativas de un
dirse. Estrictamente hablando, de los
257, se han calificado a sí mismos como director, o equivalente de
sostenibilidad al interior de empresas solo 75. Se debe tener en cuenta estos
números a la hora de hacer inferencias de los
resultados.
En este caso la muestra representa al colectivo que “tiene interés por la sostenibilidad empresarial” pero
dentro de este hay diversidad de experiencias e intereses que los “promedios”
enmascaran.
2.
Aritmética versus estadística.
Aritméticamente
se puede decir que 5,4 como promedio de prioridad para un tópico (calificadas
del 1 al 7), es superior a un 5,3, pero no lo es siempre en términos
estadísticos, ya que hay varianzas alrededor de cada promedio reportado y sobre
todo en una encuesta con 257 respuestas, de las cuales 140 fueron de supuestos dirses
y 117 de profesionales cuya actividad está relacionada con la sostenibilidad. El promedio da las prioridades son muy
cercanos y para todos los aspectos A, S y G y giran alrededor de 5, tanto para
los resultados del 2023 como los anteriores.
Por ello no se puede decir con cierto grado de confianza
estadística que las prioridades han cambiado de un año a otro, o que unos
aspectos o tópicos son más prioritarios que otros. Por ejemplo, el informe dice, y lo destaca el
titular de la presentación del informe, que en el 2023 Gobernanza se ha
convertido en el tema más prioritario con un promedio de 5,0 frente al mismo
5,0 de los aspectos sociales, aun habiendo caído del 5,2 en el 2022. [i]¿Cuál
es el grado del error estadístico en una muestra como esta?
3.
Priorización bajo restricciones.
Y los resultados
que giran alrededor del 5 en una escala de 1 al 7 son de esperar, por la
metodología utilizada.
La encuesta pide
calificar del 1 al 7 en cada uno de 4 aspectos de la sostenibilidad empresarial
(gobernanza, medio ambiente, social-empleados y social-cadena de valor) para
los correspondientes tópicos en cada aspecto (11 en gobernanza, 8 en medio
ambiente y social-cadena de valor y 7 en empleados).
Esta metodología
permite calificar cada tópico de acuerdo con la “prioridad”. Hay in sesgo natural por el que el encuestado
en este tipo de encuestas no escoge posiciones extremas y suele
calificar entre 3 y 6 puntos. ¿Qué no es prioritario en los siete temas
de Social-Empleados?
Con esta
metodología todo puede ser más o menos prioritario, por ejemplo, calificar todos los tópicos con 5 o 6. En la realidad diaria, el dirigente
empresarial tiene que escoger, no puede ser todo prioritario, enfrenta restricciones financieras y gerenciales y tiene
que asignar los escasos recursos por lo que ello sería más representativo
si las respuestas lo tomaran en cuenta.
¿Cómo corregir este sesgo? Esto se puede corregir si en la encuesta se pide que los tópicos se
jerarquicen por orden de prioridad, primero, segundo, tercero, etc. y asignándoles puntos de acuerdo con su
posición relativa, 5, 4, 3, etc. y luego calcular lo que serían promedios
ponderados para cada tópico. Y mejor
todavía si se le da al encuestado un “presupuesto de prioridades”, digamos
de 21 puntos, para que los distribuya entre los 7 tópicos arriba, de
social-empleados. Cada vez que asigna puntos a un tópico tiene menos puntos
para asignar a otros. Y de nuevo, el promedio resultaría ponderado por las
prioridades. Cualquiera de estas dos
versiones reduciría la inflación de prioridades y
las haría más cónsonas con la realidad cotidiana de tener que escoger.
4.
Prioridades por sector industrial.
El informe
desglosa las opiniones por 8 sectores industriales, con el objeto de analizar
las diferencias o similitudes en las prioridades por tópicos entre los
diferentes sectores. Concluye que las
diferencias no son muy significativas, lo cual es contraintuitivo. Sería de esperar que las prioridades del
sector hidrocarburos sean diferentes del sector financiero. Según los
resultados, aritméticamente son marginalmente diferentes, pero no se puede
inferir que lo son estadísticamente. El
problema radica en la representatividad de los resultados y la forma en que han
sido obtenidos.
La muestra es muy
pequeña para estos propósitos. Si consideramos el grupo denominado dirse, el
sector Servicios profesionales y consultoría tiene 24 encuestados, Energía
tiene 16 y Minería 4. La opinión de 16 o de 4 no puede considerarse
representativa de un sector. No incluimos a los 117 profesionales que no son
dirse ya que desempeñan funciones muy variadas, multisectoriales, como
mencionamos arriba.
La muestra es
muy pequeña para poder hacer inferencias por sector industrial.
II.
¿Es un análisis de materialidad?
La metodología
utilizada no permite determinar la materialidad de los diferentes aspectos y
tópicos, como dice el
informe. A lo sumo permite decir, según
las respuestas de los encuestados, que hay aspectos y tópicos que les parecen
más prioritarios que otros de entre las opciones que dan se para responder. La
materialidad es cuestión de cada empresa en el tiempo y contexto en que opera.
Un promedio calculado entre todos los encuestados, que trabajan en diferentes
empresas y otras instituciones que no son empresas no
puede reflejar la prioridad de ninguna de ellas.
Sería un promedio
de la importancia que le dan a los temas ambientales una empresa energética,
por ejemplo, un 7, con la que le da una institución financiera, por ejemplo, un
3. El promedio para cada aspecto y para cada tópico depende de la
composición relativa de los diferentes sectores industriales en la muestra.
Si la muestra está dominada por empresas de energía, el tema ambiental subirá
en prioridad, si la muestra está dominada por empresas manufactureras, el tema
de cadena de valor subirá en prioridad. Y si gran variedad de sectores industriales
el promedio tenderá a ser 5.
Esto afecta el
análisis de tendencias en el tiempo, si la composición sectorial de la muestra cambia. Los cambios dependen,
en efecto, del cambio de prioridades dentro de cada sector, pero también del
cambio en las proporciones relativas de los sectores en la muestra, que tienen prioridades
muy diferentes.
Los cálculos de promedios parten del supuesto implícito de que la opinión
de los encuestados sobre la prioridad de los temas y tópicos no dependen del
sector industrial en que se desempeñan.
Promedian, por ejemplo, la prioridad de la reducción de emisiones de los
que trabajan en empresas energéticas con la de los que trabajan en
instituciones financieras. Promedia, por ejemplo, un 6 de aquellas con un 3 de estas. Y esto explica
en parte porque los promedios varían entre 4 y 5, la que es también explicado
por el efecto de evitar extremos mencionado arriba por la forma de recopilar
las respuestas.
Y de allí que
no puedan representar “temas materiales”. [ii]
III.
Comparación de los resultados de España con otros países europeos
El barómetro
incluye además la comparación de las declaradas “prioridades” en otros países
europeos. A diferencia de múltiples estudios, que comparan aspectos de la
gestión de la sostenibilidad en diferentes zonas geográficas, o países, usando
la misma metodología, y encuestados con características similares, este estudio
no podía replicar las encuestas en otros países y escogió una metodología
diferente e indirecta y un colectivo diferente.
En el caso de los
resultados a nivel europeo se basa en análisis del contenido textual de 61
cartas de CEO de empresas españolas en informes financieros o integrados y de 1
000 informes financieros de empresas europeas (incluyendo las 61 españolas),
sobre los temas de la encuesta hecha en España.
El informe dice
que el análisis ha sido llevado a cabo usando programas de Inteligencia Artificial,
IA, cuando en realidad lo
que han hecho es el tradicional “text mining” o “textual análisis”.
El text mining busca palabras comunes en múltiples textos para derivar
la frecuencia de uso, en tanto que la AI, si bien parte de una metodología
similar, “Natural Language Processing” NLP, busca no solo frecuencia
sino interrelaciones, sentimientos, intenciones, aprende a hacer tareas y puede
aplicarlas desde producir informes a guiar un avión, por ejemplo. La
denominación de la metodología como AI pretende darle mayor credibilidad.[iii]
Del análisis de
frecuencia del uso de las palabras se deducen las “prioridades” implícitas por
parte de los CEO y de las empresas. ¿Refleja la frecuencia de mención la prioridad
para la acción, o prioridad para satisfacer las expectativas de los lectores?
Habrá de todo.
De cualquier
manera, no son comparables los resultados obtenidos a través de encuestas estructuradas
sobre temas muy específicos, entre personas que dedican buena parte de su
actividad profesional a temas de sostenibilidad, con las opiniones
expresadas en textos generales, redactados por escritores profesionales, que
tienen objetivos múltiples de información y posiblemente incluyen el objetivo
de persuadir al lector sobre la sostenibilidad de la empresa. ¿Escriben lo que es o lo que les gustaría que fuera?
¿Son comparables las respuestas de aquellos profesionales con la frecuencia
de uso de un término en publicaciones para el público? ¿Expresa la frecuencia de uso de algunas
palabras la prioridad que le asignan dentro de la empresa? Seguro que el
lector tendrá su propia opinión.
IV.
En resumen.
La encuesta recoge
las opiniones de más de 250 profesionales interesados en la sostenibilidad empresarial
en España sobre los aspectos y tópicos que consideran de mayor prioridad. Los resultados representan la opinión de esos
profesionales y deben interpretarse como tales a la hora de hacer
inferencias y extrapolaciones a otros colectivos.
Las
limitaciones de la metodología: la heterogeneidad y tamaño de la muestra y la
forma de recoger las opiniones y de agregar los resultados
limitan su utilidad a efectos de sacar inferencias para la gestión práctica
de la sostenibilidad empresarial y para la comparación de las prioridades en
España con las de otros países europeos.
El contraste de
estas opiniones con los resultados de un análisis de textos sobre términos de sostenibilidad
debe tomarse con cautela a la hora de hacer inferencias sobre las importancias
relativas de los diferentes aspectos, entre España y otros países europeos, ya
que este análisis es sobre una muestra de un
colectivo diferente, con metodologías diferentes, analizando textos que tienen
objetivos múltiples y no
necesariamente el de reflejar las prioridades relativas de los diferentes
aspectos.
Y mis disculpas a los autores del Barómetro
por este análisis crítico. Mi objetivo,
como el de todos mis artículos, es el de contribuir a mejorar la confiabilidad
de la información que se usa para la gestión de la sostenibilidad empresarial......y nobleza obliga: si estoy equivocado lo corregiré.
[i] Titular en el periódico El
Economista: La 'G' de ESG saca músculo en el
último Barómetro de la Sostenibilidad de Dirse y EY.
[ii] La introducción al informe dice que sus
objetivos son “¿Qué relevancia han tenido los distintos temas materiales
en materia ASG durante el 2023? ¿Cómo ha evolucionado la relevancia de los
distintos temas materiales ….”
[iii] Ante la “caja negra” que representa
el uso de la AI, existen riesgos de AI-washing. En EE. UU. se han litigado ya dos casos de ello.