La Ley de Benford y sus aplicaciones

Actualizado: sep 6

La Ley de Benford predice que un conjunto determinado de número, aquellos cuyos primer dígito es 1 aparecerán de forma más frecuente que los número que empiezan por otros dígitos




La Ley de Benford


Una sorprendente teoría matemática llamada Ley de Benford predice que un conjunto determinado de número, aquellos cuyos primer dígito es 1 aparecerán de forma más frecuente que los número que empiezan por otros dígitos. La distribución de los primeros dígitos es bastante asimétrica, la frecuencia esperada para número que empiezan por 1 es casi del 30%, para el 2 es un poco más del 17%, para el 3 algo más del 12% y para el resto disminuye.



Historia


Como en muchas otras ocasiones en matemáticas, la historia de está teoría es fascinante. Todo empezó por 1881 cuando el astrónomo Newcomb observo en un libro de logaritmos que estaba leyendo que las páginas del libro estaban más viejas y usadas cuanto más cercanas estaban del principio. Ten en cuenta que por aquella época, las tablas de logaritmos eran el libro de cabecera de cualquier manipulador de cifras, se empleaban, entre otras cosas para multiplicaciones entre grandes números.


Actualmente equivaldría a examinar el desgaste de la tecla "1" en cajas registradoras o calculadoras ¿A qué se debía? Sólo podía tener una explicación: a lo largo de los años había consultado mucho más el logaritmo de los números que comenzaban por 1 que de los que comenzaban por números más altos.


Nuestro astrónomo dedujo que los dígitos iniciales de los números (al menos los utilizados en su trabajo que provenían de la observación de los astros principalmente) no son equiprobables sino que el 1 aparece como dígito inicial más frecuente seguido del 2 etc. hasta el 9 que es el menos frecuente . Mediante un breve e ingenioso razonamiento, aunque sin presentar realmente un argumento formal ni fórmula matemática, Newcomb enunció verbalmente una relación o ley logarítmica: “la ley de probabilidad de ocurrencia de números es tal que las mantisas de sus logaritmos son equiprobables”.


El asunto fue rápidamente olvidado hasta 1938, cuando Frank Benford, un físico de la compañía General Electric, se dio cuenta del mismo patrón. Entusiasmado por el descubrimiento, estudió 20.229 números provenientes de 20 muestras de todo tipo: constantes y magnitudes físicas, longitudes de ríos, estadísticas de béisbol, direcciones de personas... incluso cifras sacadas de portadas de revistas. A partir de los datos extraídos del mundo real, comprobó que la probabilidad de que un número en una serie de datos comience por el dígito d es de P[d] = log(1 + 1/d) y postuló la llamada "ley de los números anómalos de Benford". Según dicha ley la probabilidad de que en una serie de muchos datos el primer digito de un número sea 1 es del 30%, 17,6% para un 2, 12'5% para el 3 y así va decreciendo...

El análisis de Benford era una prueba de la existencia de la ley, pero tampoco fue capaz de explicar bien por qué era así.


El primer paso para explicar esta curiosa relación lo dio Roger Pinkham en 1961, un matemático de New Jersey. El razonamiento de Pinkham era el siguiente. Supongamos que realmente existe una ley de frecuencias de dígitos. En tal caso dicha ley debería ser universal. Tanto si calculamos los precios en euros, dólares, dinares o dracmas, o si medimos la longitud en pulgadas o metros, las proporciones de frecuencias de dígitos deberían ser las mismas. Es decir, Pinkham afirmaba que la distribución de las frecuencias de dígitos debía ser invariante frente a cambios de escala. Luego demostró que si una ley de frecuencias de dígitos era invariante frente a la escala, entonces se trataba de la Ley de Benford . La prueba aportada iba confirmando que la Ley de Benford realmente existe.


A pesar de que la ley resultaba obvia con sólo hacer algunas comprobaciones sencillas – siempre que el conjunto de datos fuera válido, porque no todos lo son. No fue hasta 1996 que un matemático llamado Ted Hill dio con una demostración matemática satisfactoria. La demostración tiene que ver con algunos teoremas del límite central y su relación con el comportamiento de las mantisas (diferencia entre el número y su parte entera, es decir, su parte fraccionaria) en las multiplicaciones de valores aleatorias.


La Ley de Benford es indudablemente un resultado interesante y sorprendente, pero ¿cuál es su relevancia? Un gran paso lo ha dado el Mark Nigrini, un profesor de contabilidad de Dallas, quien propone a partir de 1994 emplear el análisis de las frecuencias de los dígitos como mecanismo analítico para detectar posibles situaciones de fraude e irregularidades. Inicialmente lo aplico al estudio de datos fiscales y recientemente ha creado un programa en java para detectar en qué medida algunos datos suministrados encajan con la Ley de Benford.



Formulación matemática


La Ley de Benford para el primer dígito establece que la probabilidad de que el primer dígito de una magnitud sea un dígito determinado “n” es P(n)=Log10(1+1/n) = Log10(n+1) - Log10(n) con n = 1,2,3,...9  (El cero no es significativo como primer dígito).

Podemos ver la tabla y gráfica de las probabilidades de ocurrencia de cada dígito en primera posición, y veremos que la unidad ocurre casi un tercio de las ocasiones, y el 9 no llega al 5%. Observamos también que es mucho más probable que el primer dígito sea impar (61%) que par (39%).


¿Se limita este curioso fenómeno al primer dígito?. No, realmente cada dígito tiene, en función de su posición (primero, segundo, ...) una probabilidad de ocurrencia. Esto nos lleva a extender la fórmula dada anteriormente y generalizarla para cualquier conjunto de los “n” primeros dígitos, P (n1n2 ... nn) = log (1 + (1/n1n 2 ... nn)).


Es decir,

La probabilidad de que los dos primeros dígitos sean el par “37” es el log (1+(1/37)) = 1,16%; La probabilidad de que los tres primeros dígitos sean la tríada “280” es log(1+(1/280)) = 0,15%.


Explicación: ¿Porqué funciona la ley de Benford en el mundo real?


A continuación veremos varios ejemplos que expliquen el hecho de que el 1 como primera cifra sea más frecuente que los otros números, sacados de la vida real:

  • Comenzamos a contar desde 1 (1, 2, 3, ...) hasta llegar al 9, momento en que cada cifra tiene la misma probabilidad. Pero de 10 a 19 sólo tenemos como primera cifra el 1, y sólo cuando llegamos al 99 todos las cifras tendrán la misma probabilidad de nuevo

  • Una explicación podría residir en el cambio de escala. Si todo el universo pasará al doble de tamaño del actual, todas las medidas que comiencen ahora por 1, pasarán a empezar por 2 o por 3. Aquellas que comenzaban por 2, por 4 o por 5 y así sucesivamente. Sin embargo, ahora empezarán por uno todos aquellos números que previamente empezaban por 5,6,7,8 y 9!

  • Supongamos que en Correos hacen una estadística sobre los números de portal de los destinatarios de las cartas a nivel nacional, este es un típico conjunto de datos que cumple la ley de benford. Imaginemos que en una ciudad se crea una calle nueva. Esa calle empieza a llenarse de casas por un extremo y, la calle, va creciéndo en longitud con el tiempo, los primeros portales asignados por el ayuntamiento serán el 1, 2, 3, 4 etc. al principio, como se ve, las cifras más bajas tienen una probabilidad mayor de salir que las más altas. cuando llegamos al portal 9 la probabilidad se equilibra pero, en seguida, cuando se construye el edificio 10, la cifra "1" vuelve a tomar ventaja. cuando la calle tenga 19 casas todas las cifras habrán salido 2 veces menos el "1" que habrá salido 12 veces. este sesgo que hace que las cifras más bajas aparezcan más frecuentemente no se compensa nunca por lo que si elegimos una calle al azar, en el número más alto de portal de esa calle, es más probable que aparezcan "unos" que "cincos", en una proporción que tiende a la ley de benford. En una ciudad artificial, que se hubiera construido racionalmente, con calles idénticas de 99 portales esto no ocurriría, pero la realidad es más compleja, y esta complejidad favorece a la ley de Benford.

  • Hay otro motivo matemático, es curiosísimo ver como en distribuciones «normales», como las alturas de la gente o los CI, la ley de benford no es aplicable, aunque «reaparece» de repente si se recombinan con otros valores de forma aleatoria. Podemos decir que si un determinado fenómeno tiene n causas aleatorias y una de ellas sigue la distribución de Benford, la general también. La distribución de Benford es una especie de distribución que contamina a las demás. Así pues, cuanto más batiburrillo haya en la generación del fenómeno y más complejo e intratable sea, más fácil es que aparezca el 1 en primer lugar de los resultados obtenidos.


Ejemplos


¿Todo conjunto de datos (naturales, económicos) es un conjunto de Benford? ¿Serán conjuntos de Benford ...:?

  1. ¿... la talla de los españoles mayores de edad? La talla de los españoles no lo será, porque la mayoría de los españoles miden entre 160 y 200 centímetros, así que habrá muchísimos “1”, muy pocos “2”, y cantidades marginales de “9” y “8”.                                                                                                                                             

  2. ¿... los votos obtenidos por un determinado partido político en cada municipio español en unas elecciones generales? Sí. Todos los datos censales son conjuntos de Benford. De hecho, podrían utilizarse mecanismos de Análisis de Frecuencia Digital para detectar situaciones de riesgo de “pucherazo” en elecciones de todo tipo.                                                                                                                                           

  3. ¿... el volumen diario de acciones compradas y vendidas en las bolsas españolas para cada valor cotizado? Sí. Generalmente cumplirá bastante bien con la Distribución de Benford, aunque puede haber valores de escasa actividad de contratación que se aparten.                                                                                                                                     

  4. ¿... el código postal donde residen todos los ciudadanos españoles mayores de edad que tienen por primer apellido LANZA? No, ningún conjunto de números asignados o códigos lo es. Aquí los números no actúan como tales, sino como caracteres identificativos, y no son generados “naturalmente” sino de forma arbitraria. Pasa lo mismo con los teléfonos, DNI, etc.

  5. ¿... los pagos por siniestro abonados por una compañía de seguros de automóvil? Sí. De hecho es uno de los ejemplos “clásicos” estudiados por Nigrini.

  6. ¿... los pagos por siniestro abonados por una compañía de seguros de automóvil, que tiene una franquicia de 250 Euros? En teoría sí debiera ser. Ahora bien, la franquicia puede actuar desfigurando la distribución de las cantidades inferiores a 1.000 Euros en su primer dígito. El segundo dígito cumplirá sin duda la ley.

  7. ¿... los números de portal (dirección) de cada edificio en Sevilla? En teoría debería ser, pero es un ejemplo delicado. Depende fuertemente de la longitud de las calles, y las calles en las ciudades españolas suelen ser relativamente cortas (no hay muchas de más de 300 números).

  8. ¿... las facturas bimensuales de una empresa de telefonía emitidas a todos sus clientes? Sí, sin duda.

  9. ¿... las facturas individuales satisfechas por cada cliente que ha efectuado una compra en un hipermercado un día cualquiera? Sí. De hecho la Ley de Benford nos permite conocer la probabilidad de que un día cualquiera, en un hipermercado, se haya producido una transacción (venta de uno o más artículos registrada en una sola factura y abonada en un solo acto) de, por ejemplo, 147 euros (Log (1 + 1/147) = 0,29%).

  10. ¿... la lista de los premios del Sorteo de Navidad del 2005? Lamentablemente, la respuesta es negativa. Ni la Lotería Nacional, ni ningún juego de azar cumple benford. No te podría servir para predecir los números de la Lotería, el resultado de la lotería es totalmente aleatorio, de forma que cada número tiene la misma probabilidad de aparecer. A largo plazo, las frecuencias del primer dígito deberían estar, por tanto, en proporción exacta con respecto a la cantidad de números de la lotería que empezaran por ese dígito

  11. ¿... los mandatos, en años, de los políticos mundiales...? No, muy pocos empiezan por 1. Al contrario que la lotería, estos datos no son aleatorios, sino que están muy condicionados. El abanico de posibilidades es muy limitado como para permitir que se cumpla una ley de frecuencias de dígito.

En conclusión, la Ley de Benford necesita datos que no sean totalmente aleatorios ni muy condicionados, sino que estén más o menos en medio. Los datos pueden ser de una gran variedad y suelen ser el resultado típico de diversos procesos, con muchas influencias, como ocurre con la mayoría de datos extraidos de fenómenos naturales, sociales y económicos



El fenómeno de la Ley de Benford en las redes sociales

Jennifer Golbeck ha detectado que la Ley de Benford -tan fascinante como carente de «sentido común»- también se aplica a las redes sociales y que eso puede tener interesantes aplicaciones prácticas. Puede leerse el trabajo completo en Arxiv: Benford's Law Applies To Online Social Networks (La aplicación de la Ley de Benford a las redes sociales online).


Esta «ley fenomenológica» se da en muchos conjuntos de números de la naturaleza y el MundoReal™; simplemente predice que en un conjunto determinado de números aquellos cuyos primer dígito sea «1» aparecerá de forma más frecuente que los que empiezan por otros dígitos (del 2 al 9). Así, por ejemplo, los números del 100 al 199 (que empiezan por 1) aparecerán más frecuentemente que los del 500 al 599 (que empiezan por 5) si consultamos en una enciclopedia las longitudes de los ríos.

Aunque parezca peregrino, funciona: este método se ha usado con éxito para detectar tickets de gastos falsos, valores sesgados o erróneos en algunas investigaciones o declaraciones de renta fraudulentas.

La autora utilizó un método muy directo para realizar la comprobación:

Golbeck empleó los datos de miles de usuarios de las cinco principales redes sociales: Facebook (18.000 usuarios), Twitter (78.000), Google Plus (20.000), Pinterest (40 millones) y LiveJournal (45.000). Su método consistió en mirar el número de amigos y seguidores de cada usuario y contar la distribución de los dígitos. Los resultados fueron interesantes: en todos los conjuntos de datos excepto en uno [Pinterest] la distribución estadística de los primeros dígitos seguía perfectamente la Ley de Benford.

Golbeck también explicó que el hecho de que Pinterest no siga la ley no quería decir que hubiera un alto nivel de fraude necesariamente. Lo que sucedía era que por la forma en que se registran los usuarios -a los que se obliga a elegir cinco «intereses»- los datos quedaban artificialmente sesgados. (Habría que preguntarse por qué esto no sucedía en Twitter, donde un nuevo usuario ha de registrar a 20 «famosos» sugeridos por Google.)

En el caso de Twitter, por ejemplo, esto le sirvió para detectar en unas cuentas cuyos datos seguían una «distribución un tanto extraña» a una serie de bots rusos que habían creado cuentas falsas. Una aplicación interesante para minimizar la lacra de las cuentas falsas de todas las redes sociales.

7 vistas