Inteligencia Colectiva (I): Proyecto reCAPTCHA

2 de marzo de 2014

Una mañana de 1906, Francis Galton, polímata autodidacta que realizaba investigaciones por su cuenta, paseaba por la feria anual de ganado de la ciudad inglesa de Plymouth. Durante su visita, Galton vio que el dueño de un enorme buey estaba ofreciendo a los visitantes la oportunidad de ganar un premio si acertaban el peso de su animal, y se le ocurrió un curioso experimento.

Galton pidió al organizador de la rifa que le dejara consultar las 800 papeletas de los que ya habían hecho su predicción. Las estimaciones variaban enormemente, desde aquellas que se pasaban por mucho hasta otras que se quedaban muy cortas, pasando por unas pocas que no andaban desencaminadas. Pero lo que Galton observó es que la predicción más precisa de todas era la del conjunto de apostantes, ya que la media de las 800 estimaciones apenas difería en medio kilogramo del peso real del buey. Esto le demostró el valor de la sabiduría de la multitud, y es solo un ejemplo de que la unión de muchas inteligencias puede dar lugar a una superior a la que llamaremos Inteligencia Colectiva.

Basándose en este concepto, son muchos los proyectos que han surgido en los últimos años, en los que se toma la colaboración ciudadana como herramienta para solucionar problemas.
Pero, ¿qué tiene que ver todo esto con esas incómodas palabras distorsionadas que nos obligan a escribir antes de registrarnos en alguna página o comprar algo por internet?

CAPTCHAS: ¡NO MÁS SPAM!

Solo una persona que haya navegado muy poco por internet nunca se habrá encontrado con un Captcha. Estas palabras distorsionadas que piden que traduzcas cuando vas a comprar las entradas para un espectáculo, registrarte en una web o descargarte algún archivo no son parte de ningún plan diabólico para provocar el odio y el caos en la población pero las pobres reciben más de un insulto cada vez que aparecen en las pantallas de nuestros ordenadores (lo sabes… yo también lo he hecho).

Pero, ¿Por qué? ¿Qué mente malvada creó estos pequeños generadores de malestar? y sobre todo ¿con qué propósito? Empecemos por el principio…


¿POR QUÉ?

Antiguamente los hackers diseñaban programas que permitían registrar millones de usuarios falsos en diferentes sitios web de forma automática e invasiva, incluso en algunos casos llegaban a saturar los servidores de este.

Debido a esto, necesitaba crearse algún sistema para asegurarse de que la entidad que rellena un formulario fuese un humano y no un cylon uno de estos programas…



¿QUIÉN Y CÓMO?

Luis von Ahn, buscando algo que pudiese hacer la mente humana y que los programas informáticos no pudiesen aun, creó los captcha. Estas letras distorsionadas son fácilmente reconocibles por el ser humano pero los softwares que son capaces de identificar caracteres en una imagen, conocidos como OCR o Reconocimiento óptico de caracteres, no pueden resolverlas a día de hoy. De esta forma, la distinción entre humano y “robot” está servida…



¡Captcha digievoluciona a reCAPTCHA!

Tras su implantación en internet, se llegó a los 200 millones de captchas ingresados diariamente. Luis von Ahn, tras sentirse orgulloso del impacto que había tenido su trabajo, comenzó a plantearse todo el tiempo que se estaba desperdiciando.

Cada vez que se ingresa un captcha, se pierden de media unos 10 segundos, que multiplicados por los 200 millones llegamos a que toda la humanidad estaba perdiendo unas 500 mil horas diarias ingresando captchas en internetEste es el momento en el que Luis von Ahn se cuestiona cómo podría modificarse el proyecto para utilizar todo este esfuerzo y hacer algo beneficioso para la humanidad. La respuesta a esta pregunta se encuentra en el origen del funcionamiento de los captcha: Durante esos diez segundos, la mente está haciendo algo que los ordenadores todavía no pueden hacer…

El planteamiento es buscar un problema que no pueda ser resuelto por un ordenador pero que pueda dividirse en trozos más pequeños y que cada vez que una persona resuelva un captcha, resuelva uno de estos trozos. Afortunadamente, este problema existe y cada vez que una persona resuelve un captcha, no solo está demostrando que es humano, sino que también está ayudando a digitalizar millones de libros.


reCAPTCHA: Digitalizando libros mientras comprueban que no eres una tostadora.

Actualmente, existen numerosos proyectos tratando de transformar todos los libros que han sido escritos a lenguaje digital. En este proceso, se toman fotos digitales de cada una de sus páginas y el OCR, mencionado anteriormente, se encarga de descifrar todas las palabras que hay en cada página escaneada.

El problema es cuando el software se enfrenta a libros antiguos donde parte de la tinta ha desaparecido o cuando el fondo ha amarilleado por el tiempo, entonces la palabra se ve un poco diferente y el programa no lo puede descifrar. El proyecto reCAPTCHA recoge todas estas palabras y hace que alguno de nosotros, al resolver un captcha, estemos descifrando esta palabra para ellos.



¿Cómo funciona todo esto? Mientras que un captcha consiste en una palabra, un recaptcha tiene dos, y esto es porque se necesita verificar de alguna forma que nuestra respuesta es correcta.

Una de las palabras es un problema para el cual el programa ya sabe la solución (antiguo captcha), mientras que la otra es la que es incapaz de resolver. El usuario, sin saber cual es cual, debe introducir ambas y si la respuesta para el “captcha” es correcta, se asume que el usuario es humano pero además se obtiene cierta confianza en que la otra palabra se escribió correctamente también.

Si este proceso es repetido con otras 9 personas y todas ellas coinciden en la resolución de la nueva palabra, el sistema puede estar casi totalmente seguro de que es la solución correcta a la palabra aun no digitalizada.


De esta forma el tiempo empleado en escribir estas dos palabras, que es prácticamente el mismo que el necesario para escribir solo una, es aprovechado para un proyecto a gran escala en el que se están digitalizando unas 100 millones de palabras diariamente, equivalente a 2 millones de libros al año.


Este es solo uno de los proyectos en los que se utiliza la Inteligencia Colectiva pero existen muchísimos más que intentaré acercaros más adelante. Un claro ejemplo es Wikipedia, donde con la ayuda de los usuarios se ha generado una enciclopedia libre, políglota y editada colaborativamente.

Sin duda, si una frase puede resumir el espíritu de la Inteligencia Colectiva, esa sería: 

"La unión hace la fuerza"

Así que la próxima vez que utilices reCAPTCHA, reprime tus ganas de tirar el ordenador por la ventana y piensa en lo que estás ayudando con esa pequeña acción, siendo parte de la Inteligencia Colectiva.


¡Sed felices! ;)


>> ACTUALIZACIÓN 18 - ABRIL -2014 DESARROLLAN UN ALGORITMO CAPAZ DE RESOLVER EL 99.8% DE LOS RECAPTCHAS <<

Y ¿quién habrá sido el desaprensivo de ha dejado indefenso al servicio adquirido por Google para evitar el spam?


Pues sí, él mismo ha sido el responsable...

¿Por qué ha ocurrido esto? Digamos que un efecto colateral. Este proyecto tenía como objetivo desarrollar un algoritmo capaz de leer los números de las calles capturadas en Street View, y ¡lo han conseguido con un 90% de acierto!. Esto nos permite obtener la ubicación exacta de una dirección cuando la introducimos en Google Maps.

Sin embargo, al probar con los reCaptchas han descubierto que el mismo argoritmo los descifra con una tasa de acierto mayor del 99%, dejando "en bragas" la diferenciación entre humanos y robots de este servicio.

Además, por si fuera poco, han publicado el modelo en pdf para que te enteres bien de como montarte tu propio descrifrador casero (si tienes las herramientas, la capacidad y el cerebro para ello).

Así que Luis Von Ahn va a tener que seguir estrujando ese increíble cerebro suyo y seguir desarrollando "Análisis de Riesgo Avanzados" en los que el usuario descifre puzzles que le permitan seguir diferenciándose de la máquina que una vez más le pisa los talones.

6 comentarios:

  1. Que bueno Nuria, no tenía ni idea de que los captcha sirvieran para algo más que para fastidiarnos la vida... ¡El ser humano siempre será más extraordinario que cualquier máquina!

    ResponderEliminar
    Respuestas
    1. ¡Cierto! Tengo que reconocer que desde que me enteré de esta curiosidad miro los captchas con otros ojos ^^.
      Y, desde luego, siempre estamos maravillados de lo que son capaces de hacer las máquinas pero a veces nos olvidamos de que detrás de ellas siempre hay una mente humana ;) Recordarlo nos da alguna esperanza de sobrevivir al holocausto robot en caso de que algo se tuerza con las Tres Leyes de la Robótica (http://es.wikipedia.org/wiki/Tres_leyes_de_la_rob%C3%B3tica) ;P

      Eliminar
  2. Super interesante!!! No tenía ni idea de esto, gracias a este artículo me sentiré mejor cada vez que tenga que introducir uno de estos maravillosos recaptchas :)

    ResponderEliminar
    Respuestas
    1. Y después a pedirle a nuestro ya amigo Señor Google que nos deje consultar el Manual del Ingeniero Químico! ;)

      Eliminar
  3. Me ha gustado mucho :) Ya comenzaba yo a sospechar de los reCAPTCHA.

    ResponderEliminar
    Respuestas
    1. ... OOOh, Luis Von Ahn, mi amo y señor, pronto tus deseos de dominar el mundo se harán realid... que diga... mmmm... siii, ¡los captchas son inofensivos! sigue tecleando e ignora la lucecita roja parpadeante.

      Eliminar

Procura que tu comentario esté relacionado con esta entrada y no olvides revisar la ortografía. Estás en tu perfecto derecho de comentar anónimamente, pero por favor, escribe con respeto y educación. Los comentarios que incumplan estas normas básicas serán eliminados. Gracias por comentar.