Visualización #25s

Tras un tiempo sin actividad en el blog, os traemos una pequeña visualización sobre la conversación acerca de las movilizaciones del 25 de Septiembre en Twitter.

Lo que hemos hecho ha sido capturar y almacenar para su posterior análisis todos los tuits que llevaban el hashtag #25s desde principios de Septiembre hasta hace unos días.

Algunos datos de la cantidad de datos recogidos

  • Semanas anteriores al 25S-> 04/09/2012 al 25/09/2012
    • Tuits: 218889
    • Usuarios: 55222
  • Movilizaciones-> 25/09/2012 al 29/09/2012
    • Tuits: 652682
    • Usuarios: 198600
  • Todo-> 04/09/2012 al 02/10/2012
    • Tuits: 898471
    • Usuarios: 226446

Nuestro análisis nos es demasiado complicado y es una simple muestra de lo que podemos hacer con esta información. Simplemente hemos contado cuantos tuits, retuits, menciones, etc. tiene cada usuario de los que han participado en la conversación. Posteriormente ponemos estos datos en un plano de coordenadas usando estos valores para ver como se distribuyen las cuentas. A continuación podéis ver unos ejemplos:

 

Como cada uno tendrá su opinión sobre cuales son los valores relevantes en el análisis, al final hemos acabado haciendo una sencilla visualización interactiva para que podais combinar vosotros mismos los valores como queráis. Tambien hemos puesto tres intervalos de tiempo para ver la diferencia que existe entre las semanas previas a las movilizaciones y durante la duración de las mismas, así como la captura completa.

Visualización interactiva

Aunque el número de usuarios es bastante alto, mostramos solamente aquellos que tienen el mayor número de retuits en cada periodo. Esto quiere decir, que las cuentas que aparecen en diferentes periodos no tienen porque ser las mismas.

Hemos hecho esta visualización experimentando un poco con la captura de tuits, buscando un forma sencilla de ver cuantitativamente la participación de cada cuenta. Como hemos dicho, es solo un ejemplo de las posibilidades de visualización que hay.

En este sentido recomendamos a todos estar atentos a DatAnalysis15m que también ha estado investigando y presentará sus resultados en los próximos días.

Otras visualizaciones sobre el 25S:

Posted in Uncategorized | Leave a comment

SICAV: Analizando los datos públicos en la CNMV

 

Sociedades de inversión de capital variable, SICAV.

Muchas voces han denunciado las increíbles ventajas fiscales que poseen este tipo de sociedades. Principalmente debido a que el porcentaje con el que tributan sus ingresos es del 1%, ridículo en comparación con el que pagan otras sociedades o los propios ciudadanos con su trabajo diario.

El pueblo está sufriendo recortes casi a diario para reducir (desde el verano pasado obligado por la constitución) el déficit acumulado en los últimos años. Pero, ¿acaso no es el déficit la diferencia entre ingresos y gastos? ¿Por qué no se aumentan los impuestos a este tipo de sociedades para incrementar los ingresos en vez de reducir los gastos? No podemos entenderlo. Creemos que hay conceptos complicados en la economía, pero desde luego, sumar y restar no están entre ellos.

Estas sociedades están controladas por la Comisión Nacional del Mercado de Valores (CNMV). Por tanto, existe cierta información pública sobre estas entidades a la que cualquier persona puede acceder. Para intentar entender la imagen global que presentan las SICAV, hemos extraído toda la información interesante de la página de la CNMV, para analizarla después.

La información que podemos obtener de cada SICAV es:

  • Entidad gestora.
  • Entidad depositaria.
  • Consejo de Administración. También podemos obtenerlo de gestora y depositaria.

Sería mucho más interesante saber las cien personas que ponen su dinero en cada una, pero tristemente esa información no es pública. Entonces, lo que vamos a tener, no es quien está invirtiendo su dinero aquí, sino, quien gestiona las SICAV y sus fondos.

A continuación vamos a mostrar una serie de gráficos para entender esto un poco mejor. No nos vamos a extender mucho en cada uno, como siempre, que cada uno saque sus conclusiones.

Los datos que hemos obtenido a nivel global.

  • 3033 SICAV
  • 8000 nombres
  • 39 depositarias
  • 85 gestoras

Evolución en los últimos años.

A partir del listado de la CNMV y analizando las fechas de fundación, vemos como ha ido creciendo el numero de SICAV en los últimos 20 años. Hay que hacer una puntualización, y es que aquí no se están teniendo en cuenta las SICAV que hayan cerrado, por eso el gráfico siempre crece.

Distribución por gestora y por depositaria

15 primeras gestoras ordenadas según el número de SICAV que tienen a cuenta.

 

15 primeras depositarias ordenadas según el número de SICAV que tienen a cuenta.

Representaciones de la red

El siguiente grafo intenta mostrar la relación que existe entre bancos y gestoras. Vemos que por lo general una SICAV confía en la misma entidad tanto para gestionar como para depositar su capital. Analizando las “comunidades” existentes en la red, se ve que están claramente definidas.


Grafo resultante de añadir los administradores de todas estas entidades. Aunque es una imagen parecida, introducir a las personas en el grafo no aporta mucha información. Si acaso podemos ver como gran cantidad de personas tienen conexiones con más de una entidad.

Relaciones

Aquí hemos usado los administradores para establecer los enlaces entre las SICAV. Es decir, dos SICAV están conectadas si una misma persona pertenece a ambos consejos de administración. De esta manera obtenemos unos 100 000 enlaces entre las 3033 que hay. Este grado de conectividad nos puede dar una idea de como tienen esto montado.


Aplicando un criterio similar, dos administradores estarán conectados si ambos están en el consejo de una misma SICAV.

Salvo por pequeños grupos independientes, casi el 90% de las personas están conectadas entre si formando un único bloque. Si filtramos y analizamos este bloque de manera independiente, un número bastante reducido de nodos predominan sobre los demás.

Buscando Similitudes

Por último, éste es un grafo con aproximadamente 500 administradores. Sólo aparecen los que más importancia tienen. Aplicando algoritmos similares a los que usamos en nuestro grafo sobre la Spanish Revolution, podemos comprobar las grandes diferencias existentes entre ambas redes. Por lo menos en lo referente a sus “cúpulas”.

Grafo SICAV


Grafo Spanish Revolution

Hemos sacado algunos grafos más, pero éstos son los que nos parecen que muestran algo de información ante esta cantidad de datos. Estamos seguros de que habrá otras formas más adecuadas para representar los datos y de esta manera obtener patrones diferentes. Pero como alguien dijo, todo parece un grafo. Nos parece una buena manera de empezar a analizar algo. En un futuro y con herramientas diferentes, quizá podamos retomar esta pequeña investigación.

Conclusión

La conclusión que con nuestro poco conocimiento podemos sacar, es que esto de las SICAV, se trata de un mecanismo más del que disponen las grandes fortunas para hacer un blanqueo legal de dinero. Todos los bancos ofrecen este servicio a través de sus filiales de inversión, y dentro de éstas, un numero muy reducido de personas son las que gestionan toda esta red de sociedades. Como hemos dicho antes, no sabemos quienes son los (mínimo) cien inversores que ponen su dinero para abrir una SICAV. Esto sería lo interesante. Podríamos poner nombre y apellidos a las personas realmente beneficiadas por este “negocio”

Referencia

 

Posted in Uncategorized | 8 Comments

¿A quién seguir esta primavera? Un estudio en Twitter sobre la Spanish Revolution.

Desde ya hace tiempo venimos escuchando en diversos medios de comunicación como se habla del movimiento 15M como una cosa muerta y del pasado. Parece como si el movimiento solo existiera durante el tiempo que ocupa las plazas o actúa usando la desobediencia civil. Resulta curioso ver como cuando esto pasa, se exige que se den soluciones a los problemas actuales, bien desde el voto, bien por medios legales. Sin embargo cuando se ha estado trabajando fuera de las plazas durante meses, generando contenidos y poniendo en común el trabajo de mucha gente y por tanto de muchas opiniones, se dice que es un movimiento diluido. Vamos, que hagamos lo que hagamos, no parece que vayan a entender nunca lo que tengamos que aportar. Pero realmente lo peor no es que tengamos que escucharlo o leerlo, sino la cantidad de gente que atiende a esos medios. Son muchos y no se dan cuenta como están jugando con ellos para empequeñecer al movimiento una otra y otra vez.

Decimos 15M porque es el término que usan en estos medios, es el nombre que ellos eligieron al fin y al cabo. Sin embargo, durante estos meses nos hemos dado cuenta de que poner la etiqueta 15M no gusta a todo el mundo. Por eso preferimos utilizar el termino Spanish Revolution, pues nos parece que une a mucha más gente. Intentad imaginar que hubiera pasado si todos los medios hubieran usado Spanish Revolution en vez de 15M en sus titulares.

Por todo esto, hemos realizado un análisis en Twitter para mostrar de una manera más o menos objetiva y visual cuales podrían ser las cuentas más relevantes en la Spanish Revolution. Basándonos en las conexiones existentes entre una serie de cuentas, obtenemos una red de usuarios sobre la que aplicamos una serie de métodos algorítmicos para de alguna manera ordenar visualmente todas estas cuentas.

Hemos intentado quitar toda subjetividad de la ecuación, porque entendemos que así el resultado es lo más imparcial posible. Más adelante os explicamos como hemos elegido las cuentas. Es importante decir que la veracidad de este resultado depende de la opinión de cada uno para considerar que Twitter representa de una manera más o menos acertada la situación que hay fuera. Así que cada uno le de el valor que crea conveniente y saque sus propias conclusiones

También queriamos recalcar que todas las herramientas que hemos usado son de código libre, así que si creéis que los resultados no son representativos os animamos a que lo hagáis vosotros también por vuestra cuenta y así poder analizar los diferentes resultados.

Hemos puesto a vuestra disposición dos formas de interactuar con el análisis. La primera es la visualización que aparece justo a continuación, y es una imagen en alta resolución en la que podéis hacer zoom para ver los detalles. Os recomendamos que uséis la opción de pantalla completa. También tenéis disponible un sencillo visualizador web de grafos, con un número mas pequeño de cuentas para que podáis ver como están conectada cada una de ellas con las demás.

Aqui tenéis el visualizador web. Las 499 cuentas más importantes de nuestra #SpanishRevolution. Podéis buscar cuentas concretas y si pincháis en cada una de ellas podréis ver las conexiones que tienen, tanto a quienes siguen, como quienes les siguen.

A continuación os explicamos el proceso de selección de las cuentas. Este proceso es un poco más técnico, así que esperamos no aburriros, pero entendemos que es importante contarlo en detalle para mostraros la objetividad del análisis. Decir que estos datos son de hace unas tres semanas, así que es posible que algunas conexiones falten.

Selección de las cuentas

1. Lo primero es elegir unas cuentas que puedan representar los diferentes aspectos de la #SpanishRevolution durante estos meses (semillas). Este es el único momento donde nuestra subjetividad entra en juego, y de hecho no os vamos a decir las cuentas que hemos elegido nosotros, porque no creemos que sea relevante. Si creéis que está muy condicionado por esto, os animamos a que intentéis adivinar cuales son. Son dieciséis cuentas.

2. Una vez elegidas estas cuentas, obtenemos todos los usuarios que están conectados a estas semillas, tanto los que las siguen como las que siguen éstas. El número de usuarios obtenidos es de cerca de medio millón.

3. Para refinar un poco las cuentas a añadir finalmente, lo que hacemos es eliminar todas las que no estén conectadas por lo menos un numero de veces determinado con las semillas. Para obtener una cantidad de cuentas más o menos manejable, el número de conexiones mínimo es ocho. Con esto, al final nos quedamos con unas 2800 cuentas

4. A continuacion obtenemos las conexiones entre todas las cuentas elegidas. Al final son algo más de medio millón de conexiones entre estas 2800 cuentas.

Cuando realizamos el estudio por primera vez y obtuvimos los resultados, nos dimos cuenta que alguna de las semillas utilizadas no era realmente importante y tras una segunda selección de semillas volvimos a realizar el análisis.

Análisis y Visualización

Ahora que ya tenemos toda la información, tenemos nuestra red de usuarios conectados entre si. Hay que entender que los análisis son solo para esta red, no es el análisis de los usuarios dentro de Twitter. Por ejemplo, habrá usuarios que aun teniendo mucha repercusión en Twitter, aparecerán en esta red, pero serán menos relevantes.

Para realizar este paso usamos Gephi, un programa de código abierto para analizar grafos y poder procesar la información a través de diferentes algoritmos matemáticos. Estos métodos no os los vamos a explicar ya que quedan fuera del alcance del análisis. No obstante al final tenéis todas las referencias por si alguien esta interesado en profundizar un poco.

Lo que os vamos a explicar es el significado que tiene cada atributo de los nodos del grafo:

Tamaño de las cuentas: Aplicamos un algoritmo a toda la red para determinar la importancia de cada cuenta. Básicamente, una cuenta es más importante cuanto más importantes sean las cuentas a las que está conectada. El algoritmo se llama centralidad por autovalor  (Eigenvector Centrality)

Color: El color viene determinado por la clase de cuenta que es dentro de la red. El algoritmo para obtener estas clases es quizás el menos preciso de todos, ya que en ocasiones el número de clases puede variar. En esta red la mayoría de las veces salen cuatro clases y algunas veces cinco. Evidentemente solo sabemos a qué clase pertenece cada uno, no qué es cada clase. Es arriesgado intentar clasificar a todos los que aparecen aquí, os pedimos benevolencia, y que simplemente sirva para ver lo acertado que es. El algoritmo es el de Modularidad de la red.

Colocación: Para organizar la red se ha aplicado un algoritmo “por fuerzas”. Una manera sencilla de entender este tipo de algoritmos, es imaginar que los nodos (cuentas) son planetas que ejercen fuerzas entre si (conexiones), que hacen que se repelan o atraigan hasta conseguir colocarse en una situación estable. En concreto el algoritmo usado se llama ARF (Attractive and repulsive forces) y ha sido desarrollado por el Chair of Systems Design of ETH Zurich.

Hay que entender que cada uno de estos algoritmos funciona de una manera independiente. Por ejemplo el algoritmo de colocación no tiene en cuenta el color o el tamaño de los nodos. Sin embargo podemos ver que existe una relación entre las clases asignadas, y la posición de cada una dentro de la red.

Durante todo el tiempo que hemos pasado realizando este análisis, nosotros también hemos ido aclarando algunas opiniones que teníamos. Y realmente hemos empezado a seguir a gente a raíz de esto. Y en la mayoría de las ocasiones creemos que ha sido acertado. Por eso realmente animamos a todos a hacer que esta red crezca y siga haciéndose mucho más grande.

Nosotros no queremos analizar exhaustivamente los datos para sacar las claves de todo esto, simplemente lo ponemos a vuestra disposición para que seáis vosotros mismos los que saquéis conclusiones como lo hicimos nosotros.

Este es nuestro primer artículo, así que, si has llegado hasta aquí te lo agradecemos enormemente. Seguiremos analizando la situación actual por caminos como el que hemos seguido hoy.

Gracias por leernos. ¡Comenta, difunde y comparte!

Referencias

Inspiración

“The VIZoSPHERE” por Moritz Stefaner (http://well-formed-data.net/archives/642/the-vizosphere)

Datos

Twitter API (https://dev.twitter.com/)

Python (http://python.org/)

MongoDB (http://www.mongodb.org/)

PyMongo (https://github.com/mongodb/mongo-python-driver)

Python-Twitter (https://github.com/idangazit/python-twitter)

Neo4j Python (https://github.com/neo4j/python-embedded)

Visualización y Análisis

Gephi (http://gephi.org/)

Visualizar Web (https://github.com/raphv/gexf-js)

Centralidad por autovalor (http://es.wikipedia.org/wiki/Centralidad#Centralidad_por_autovalor)

Modularidad de clase (http://en.wikipedia.org/wiki/Modularity_(networks))

ARF (http://www.sg.ethz.ch/research/graphlayout)

Posted in Uncategorized | 14 Comments

Manifiesto publicado

Tras unos meses de preparación y bastante tiempo invertido nos alegramos de anunciaros que estamos preparados para iniciar nuestra andadura en la blogosfera.

Nos queremos presentar con nuestro manifiesto. De momento expresa los objetivos que nos proponemos ahora, pero no descartamos modificarlo o ampliarlo en un futuro, según vayamos definiendo las temáticas del blog.

También nos hubiera gustado trabajar un poco en el diseño de la web. Pero hemos optado por empezar a sacar contenidos cuanto antes. Esperamos mejorarla poco a poco.

Un saludo a todos y esperamos que os guste.

 

Posted in Uncategorized | Leave a comment