Captchas sind diese schlecht leserlichen Dinger, die man auf manchen Webseiten abtippen muss, um zu beweisen, dass man ein Mensch ist. Programme, die automatisch im ganzen Netz Foren, Gästebücher und Kommentare mit Spam füllen, erkennen im Idealfall nicht, was dort steht. So kann man theoretisch Mensch von Maschine unterscheiden - captcha ist daher ein vereinfachter Turing-Test.
Nun ist es stumpfsinnig, diese Dinger ständig abzutippen. Da haben sich clevere Leute von der Carnegie Mellon University was einfallen lassen: Captchas werden benutzt um Bücher zu digitalisieren. Beim Scannen von gedruckten Büchern treten immer wieder Fehler auf, da die OCR-Software nicht alle Buchstaben oder Wörter korrekt erkennt. Die Software meldet dann in der Regel einen Fehler wie „Wort konnte nicht erkannt werden.”
Diese OCR-Software ist recht ausgereift - wenn sie ein Wort nicht korrekt erkennt, tut es ein Spam-Programm wahrscheinlich erst recht nicht. Zudem ist der Vorrat solcher Worte nahezu unerschöpflich, denn Bücher gibt es genug.
Als Captcha wird einem also ein Wort aus einem Buch präsentiert, dass automatisch nicht eindeutig zu identifizerien war - und zusätzlich eins, dessen Lösung bekannt ist, um auch die eigentliche Funktion von Captchas noch zu erfüllen. Man löst das Captcha und bekommt Zugang zur Kommentarfunktion oder was auch immer - gleichzeitig hat man geholfen, ein Buch zu digitalisieren. 🙂
Diese Captchas gibt es auf der Website zum Download, unter anderem für WordPress, was ich gleich einbauen werde - die ganzen Spam-Bots mit ihren p0rn-Links gehen mir langsam auf die Nerven.
Mehr Informationen gibt es auf recaptcha.net.