Las 3 grandes mentiras de las herramientas de Social Media. Lo que no te puedes creer…

¿Te crees todos los informes que se comparten en redes sociales? ¿Sabes que, muchos de ellos, probablemente no tengan el fundamento que dicen y se basen en mentiras?

Es indudable que las herramientas de Social Media han evolucionado mucho, especialmente aquellas que incluyen criterios de Escucha Activa. De hecho, la Escucha Activa es un concepto que hemos adaptado desde la psicología y convertido en infinidad de herramientas. Y es indudable que la proliferación de las redes sociales, de ese concepto Big Data que tanto nos gusta y está tan de moda, y lo que este tipo de herramientas es capaz de hacer, nos brinda una visión del mundo inimaginable hace tan siquiera unos pocos años.

Mentiras Social Media

 

Pero hoy quiero compartir contigo algo que me preocupa y que creo que los profesionales de Marketing Online no se suelen plantear:

Las grandes mentiras de muchas herramientas de Social Media

Te voy a explicar cuáles creo que son las grandes mentiras que nos cuentan y qué debes tener en cuenta para que, cuando presentes informes a tus clientes o a tus jefes, lo hagas con coherencia y sabiendo de qué datos dispones.

Con estas mentiras no pretendo desilusionarte con respecto a las bondades de la Escucha Activa, ¡todo lo contrario! Con estas mentiras pretendo prevenirte contra infinidad de oportunistas que, en ocasiones por desconocimiento, te pueden vender algo que no es acorde con la realidad.

Y esto siempre es positivo, porque cuando uno conoce los límites de la realidad, está más cerca de ella. Así que vamos allá, te voy a agrupar las distintas mentiras respondiendo a 3 tipos de información que se puede extraer de este tipo de herramientas. ¡Pero ojo, no son las únicas!

# 1. Las mentiras de la información demográfica

Me gusta empezar por la información demográfica porque es el núcleo de mi tesis doctoral, la identificación de la edad y el sexo de un autor en Social Media a partir de sus textos escritos.

Y no es la única investigación en esta línea. Desde 2013 llevamos organizando la tarea internacional de author profiling en el laboratorio del PAN en el marco del foro de evaluación CLEF precisamente por la importancia de la misma.

Y es que, en la mayoría de las redes sociales, la información demográfica no existe o no es cierta, por varias razones:

  • En la mayoría de ellas esta información no se reporta. Por ejemplo, ¿en Twitter puedes informar de tu edad y tu sexo?
  • En otras no es accesible por terceros. Por ejemplo, ¿has probado a informar de tu edad y tu sexo en Facebook, y ver si en el perfil público lo ves?.
  • Y en otras la gente miente descaradamente con propósitos varios: spam de opiniones, promoción y posicionamiento web, ¡¡pedofilia y acoso!!…

Entonces, ¿cómo es posible que la mayoría de herramientas proporcione información demográfica como el sexo o la distribución por edades?

Pues bien, se me ocurren varias aproximaciones:

  • Que descaradamente mientan. Aunque no lo creo, ¡la gente es imaginativa!
  • Que tomen estadísticas oficiales y las apliquen a su muestra de datos dando las cifras correspondientes. Por ejemplo, si el 13% de la población en una determinada red son mujeres adolescentes y la herramienta ha recuperado 100 mil datos, pues 13 mil se corresponderán con mujeres adolescentes.
  • Que utilicen algún heurístico tal como los nombres propios de las cuentas. ¿Qué sucede con nombres ambiguos o con cuentas organizativas?
  • Que apliquen técnicas de author profilining, es decir, procesamiento del lenguaje natural + aprendizaje automático para predecir el rasgo concreto.

Herramientas Información demográfica

 

Pensarás, en cualquier caso, que es un engaño. Pero no, un engaño es que no te digan cómo lo están obteniendo.

Por ejemplo, Google Analytics te da esa información a partir de las visitas a tu web y te explica cómo lo está haciendo. Luego a lo mejor no es verdad, pero por lo menos te da su método.

Una cosa importante que te deberían dar es el porcentaje de fiabilidad del método. No es lo mismo que el método de detección de sexo acierte un 60% de las veces a que lo haga un 85%. Piensa que decirlo de manera aleatoria acertaría un 50%, y que decirlo de manera aleatoria ligeramente ponderada hacia la distribución estadística oficial de la red social, aumentará considerablemente esa tasa de acierto (aunque no acierte a nivel individual en cada autor). Por otro lado piensa que estas técnicas no van a alcanzar nunca un 100%,

No juzgues una herramienta por su tasa de aciertos en una de estas tareas. Júzgala por la transparencia a la hora de indicarla.

# 2. Las mentiras de la información geográfica

Lo de la información geográfica es incluso más divertido, puesto que la mayoría de herramientas la incorporan.

Y aquí hay en juego gran cantidad de mentiras.

a. La mentira del canal

La primera mentira tiene que ver con el canal. Y es que normalmente, cuando se está pintando una distribución geográfica de contenidos, se hace única y exclusivamente de Twitter.

Y eso no está mal. Si realmente es la red de la que podemos pintar esto con cierta fiabilidad, pues adelante. Pero esto tiene que estar claro, porque en una escucha no sólo interviene Twitter; es más, puede ser incluso el canal que menos información válida nos proporcione, por lo que no podemos extrapolar conclusiones geográficas sin tomar esto en consideración.

b. La mentira del porcentaje de tuits

La segunda gran mentira es el porcentaje de tuits que están georeferenciados y que por lo tanto se pueden pintar en un mapa.

Empíricamente te puedo confirmar que, después de haber analizado centenares de millones de tuits, apenas el 2% -¡y con suerte!- de ellos lleva asociadas coordenadas geográficas. ¡¡Eso es insuficiente para extraer conclusiones!! Está bien para hacerse una idea y queda muy bonito un mapa en un informe, pero no es una muestra representativa y hay que sacar conclusiones con cuidado.

Herramientas información geográfica

c. Técnicas alternativas para extraer conclusiones

Existen técnicas alternativas, como por ejemplo:

# 1. Tener en cuenta lo que la gente reporta en el apartado de localización de su cuenta

Lo que con ayuda de un diccionario se puede convertir en localizaciones geográficas representables en un mapa. Por ejemplo, si alguien tiene en su localización la palabra Argentina, o tiene la palabra México, fácilmente lo podremos asignar a esos países (que no a una ubicación concreta). Pero ojo, aquí hay que tener en cuenta todas aquellas ubicaciones ficticias o imaginativas (por ejemplo, la luna, mi casa o Narnia) y aquellas que no se informan porque se dejan en blanco.

Si la herramienta trabaja de esta manera tenemos que conocer un dato: ¿cuál es la proporción entre los datos de los cuales podemos conocer ciertamente su ubicación y de los que no? Por ejemplo, si tenemos recuperados 1 millón de tuits de los cuales la ubicación más frecuente es Argentina con 235 mil tuits, tenemos al menos un 23,5% de la muestra situado en Argentina. Si tomamos las 10 ubicaciones más frecuentes, igual llegamos a algo más del 70%. De este modo las conclusiones geográficas se pueden toman teniendo en consideración la representatividad de la muestra.

Por otro lado, hay que saber qué hace la herramienta con el resto, ¿lo elimina o lo mantiene? Porque esa representatividad de la muestra deberá considerarse dependiendo de lo anterior: en el primer caso podrá estar distorsionada por inclusión, y en el segundo por omisión, pero en ambos casos, por algo menos del 30%

# 2. Utilizar técnicas de author profiling en el campo de la identificación de la variedad lingüística

Y esta es mi segunda pasión y el segundo foco de mi tesis doctoral. Esto significa saber qué variedad regional, dialectal o de lenguaje similar utiliza una determinada persona. Por ejemplo, español de España, de Argentina, de Chile, de México, etcétera. Si sabemos que una persona utiliza español de México, podemos inferir que su ubicación geográfica, con gran seguridad, sería México (si no, siempre se puede echar mano de estadísticas de migración y ponderar).

Pero ojo, si la herramienta trata técnicas de este estilo, es de nuevo muy importante que conozcamos la tasa de acierto/error, porque por ejemplo, en nuestras investigaciones que están al nivel del estado del arte, en medios formales como noticias se ha llegado a obtener porcentajes de acierto superiores al 90%-95% mientras que en medios informales como blogs esta cifra cae por debajo del 70% (curioso porque sería esperable lo contrario, pero ese es otro tema…).

Y repito, no hay que juzgar los resultados como buenos ni como malos, sólo saber la certeza que tenemos para aplicarla en nuestras conclusiones.

Si quieres profundizar más sobre este tema, te dejo un artículo que publiqué recientemente: Dime cómo escribes y te digo de dónde eres.

# 3. Las mentiras de la Reputación Online

Y lo que más me gusta, la reputación entendida común y erróneamente como análisis de sentimiento (#ironyoff).

Son muchos los que se sorprenden con las técnicas de análisis de sentimiento que les muestran que el 30% de los consumidores hablan bien de sus productos, mientras que el 20% habla mal y el 50% restante es neutro (¿¿en serio algo puede ser neutro?? Ya hablaremos otro día de esa falacia…).

Y también son muchos los que se decepcionan cuando entran al detalle y ven la cantidad de errores que estas técnicas comenten. Pues voy a echar un capote a las técnicas: ¡no hay que ser tan extremista: ni son tan maravillosas, ni son tan malas! Son técnicas. Eso sí, con un porcentaje de acierto/error que depende de muchas cosas, y ahí residen las mentiras.

polaridad reputación online

¿Cómo piensas que la mejor de estas técnicas indicaría la polaridad de la siguiente oración? (Es más, ¿qué opinas tú? Puedes dejarlo en los comentarios y abrimos un debate.)

“Este año, de nuevo, no habrá ambulancias en la playa”

Lógicamente la mayoría lo hará en negativo. Porque hay una negación que se corresponde con algo que no debería negarse, como es que haya ambulancias, porque hay un intensificador que es “de nuevo”…

Pues bien, la anterior oración en determinados contextos puede ser muy positiva. ¡¿En qué contexto?! Por ejemplo en el de un regidor municipal que lleve quejándose 10 años a un regidor provincial de que no le manda ambulancias a su playa y este año por fin consigue un titular tan sensacionalista en un periódico regional. ¡¡Por fin se han hecho eco de su problema!!

Hay ciertas mentiras con respecto al análisis de sentimiento que debes conocer cuando se trabaja con una herramienta de este tipo.

Por ejemplo:

a. Si se basa en una heurística de conteo de palabras o si utiliza aprendizaje automático

Muchas de las herramientas existentes simplemente cuentan la aparición de palabras positivas frente a palabras negativas y se deciden por la que más tiene, dejando un margen entre medias para las neutras.

Pero esto tiene un problema, y es que la mayoría de diccionarios tienen un porcentaje mayor de palabras negativas que de palabras positivas, aproximadamente un 70/30, lo que decanta la mayoría de textos, especialmente los largos, hacia lo negativo. Además, dependiendo del rango de diferencia entre positivas y negativas, puede ser mayor o menor el número de resultados neutros.

b. Si la herramienta trata la negación de manera lingüística o estadística

De manera lingüística se tratará de identificar las posibles negaciones con respecto a qué se producen, intentando determinar el sentido real de la oración.

Las estadísticas sin embargo tenderán a cambiar la polaridad de la oración hacia la contraria de la predicción, es decir, si la frase es positiva (por ejemplo, la de arriba, al tener más palabras positivas como nuevo, ambulancia y playa), la tornarán negativa.

c. Si se le puede incorporar contexto

Es decir, que un consultor especializado en ese cliente sea capaz de indicarle reglas al sistema que le den contexto al análisis.

Por ejemplo, decir que la prima de riesgo está en 180 puntos es algo que todos los sistemas dan por neutro. Pero si el contexto del proyecto tiene que ver con las elecciones catalanas, la polaridad de la frase será muy diferente si se produce tras una prima de riesgo de 250 o tras otra de 120.

d. La utilización del lenguaje figurado y extremadamente creativo por parte de los usuarios

Es decir, la utilización de la ironía y el sarcasmo, entre otras. Y, por lo tanto, si la herramienta tiene cierta fortaleza (mejor aún si lo trata) respecto a ellas, es un punto importante sobre todo en proyectos que tengan que ver con personas y no con productos de consumo (especialmente proyectos en el ámbito político).

ironía

Aquí es quizás aún más importante saber el tipo de aproximación que se hace al problema y la tasa de resolución del mismo.

No es malo saber que un determinado porcentaje habla bien de ti y otro mal si tenemos claro que puede haber un error y cuál es aproximadamente ese error. No se invalidan los resultados, al contrario, nos los ponen en perspectiva. Siempre es mejor eso que nada, pero siempre es mejor nada que creer a pies juntillas un resultado y cuando ves el detalle te decepciones porque en ciertos casos falle y no sepas la certeza que tienes.

Conclusión

Mentiras y más mentiras, pero lo más peligroso de las mentiras es saber que existen y creérselas. Así que a partir de ahora espero que, si lo hacías, no te las creas e intentes saber qué está haciendo tu aplicación de Escucha Activa.

Y ten presente que lo importante no es que una herramienta obtenga un 60% de acierto en una tarea mientras que otra obtenga un 85%. Ninguna de ambas va a tener certeza total. Lo importante es que conozcas ese porcentaje para tenerlo en cuenta en tus análisis, porque los harás de manera más acertada (y con mayor fundamento científico).

Así pues, resumiendo todo lo anterior, lo siguiente es lo que debes saber cuando se dispone de un resultado obtenido por una herramienta de Escucha Activa. Concretamente:

  • Qué método sigue para obtener ese dato.
  • Qué porcentaje de fiabilidad (tasa de acierto, tasa de error…) tiene el método.

Sólo en este punto podrás empezar a pensar que tu herramienta de Escucha Activa ha evolucionado, y se ha convertido en una herramienta de Escucha Inteligente. 😉

¿Y tú? ¿Conoces cómo hacen las herramientas que utilizas para darte los datos que te dan? ¿Te parecen suficientes los porcentajes de acierto/error para sacar conclusiones válidas? ¿Dónde crees que las herramientas mienten más? Deja tus comentarios y veámoslo juntos.

 

NOTA: Todas las capturas de pantalla proceden de la herramienta de análisis de social media y escucha activa Cosmos de Autoritas.

Imágenes del post: Shutterstock

Advertisements

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out /  Change )

Google+ photo

You are commenting using your Google+ account. Log Out /  Change )

Twitter picture

You are commenting using your Twitter account. Log Out /  Change )

Facebook photo

You are commenting using your Facebook account. Log Out /  Change )

w

Connecting to %s