Сервисы распознования капчи. Сервисы автоматического распознавания капчи Расшифровка капчи онлайн

Приветствую вас, дорогие друзья! Все мы являемся активными пользователями социальных сетей – одни используют их для общения и поиска информации, другие же пытаются использовать эти площадки для заработка . Однако, вне зависимости от того, какие цели преследует каждый из нас, заходя в соцсеть, всем нам так или иначе да приходится сталкиваться с такой неприятной вещью как капча. Согласитесь, иногда этот набор символов настолько мешает работать, что хочется все бросить и просто закрыть браузер. Сегодня мы поговорим о том, как убрать капчу и избавить тем самым себя от необходимости тратить время на расшифровку кодов.

Капча: что это?

Итак, капча – это ни что иное, как специальная картинка, содержащая проверочный код для определения того, кто именно пытается совершить определенное действие в сети, — человек или робот. Чаще всего расшифровать код предлагают в тех случаях, когда происходит многократное выполнение одного и того же запроса на сервисе. К примеру, поисковики вроде Яндекса или Гугла регулярно предлагают нам расшифровать captcha, когда мы задаем им одни и те же вопросы. Нельзя назвать капчу редким гостем и в среде скриптов: парсеров, кликеров, постеров и так далее.

Главная задача captcha – предотвращение автоматического действия роботов . Чтобы отсеять ботов, сервисы предлагают пользователям разгадать код, зашифрованный в витиеватом рисунке. Справиться с поставленной целью способны лишь реальные пользователи, боты, увы, делать это не умеют. Именно поэтому при работе со скриптами капча становится настоящей проблемой, не позволяющей взаимодействовать с большим объемом данных. Однако, не стоит отчаиваться и опускать руки. Всякая проблема разрешима , и ввод captcha – не исключение.

Почему появляется captcha?

Как известно, для того, чтобы избавиться от болезни, нужно знать причину ее возникновения. Это правило работает и в случае с капчей: чтобы избавиться от постоянно всплывающих окон с зашифрованным кодом, нам необходимо понять, почему система так рьяно пытается проверить нас на «человечность».

Все дело в том, что одинаковые действия , выполняемые одно за другим, вызывают у сайтов подозрения. А потому они стремятся отсеять среди них те, что выполняются роботами.

К примеру, ваша попытка разослать своим друзья сообщения, содержащие одну и ту же информацию, расценивается социальной сетью как спам-рассылка. Именно поэтому вконтакте требует от нас выполнить распознавание капчи и подтвердить, что данное действие было выполнено живым человеком. В том случае, если распространение сообщений не прекратится, то система может даже временно заблокировать ваш аккаунт.

Приходится сталкиваться с всплывающими окнами и в тех случаях, когда система защиты соцсети решает проверить, используете ли вы какие-либо запрещенные или продвижения собственной страницы. В данном случае речь идет о специальных софтинах, которые могут производить автоматическую накрутку лайков, рассылку приглашений в друзья и так далее. К числу таких программ относятся и популярные и sobot , которые активно используются для создания популярных сообществ и пабликов. Только представьте себе, какой бы помойкой стал вконтакте, если бы не отсеивал взлом, рекламу и рассылку спама!

Раскрути страницы и паблики VK с помощью Brobot

Учимся убирать captcha

Уверен, что большинство из вас сейчас серьезно озадачились тем, как обойти капчу вконтакте. К сожалению, проигнорировать ввод кода на сегодняшний день невозможно . Технологии, осуществляющие защиту сервиса посредством расшифровки набора символов, — обязательная мера безопасности социальной сети, которую вы не можете скрыть или просто убрать.

Все, что вы можете сделать для того, чтобы сократить частоту встреч с навязчивым кодом, — это предоставить вконтакте максимальную информацию о себе, заполнив соответствующие поля в анкете пользователя. Чем более «человеческой» будет ваша страница, тем реже вам придется производить распознавание captcha. Позаботьтесь о том, чтобы ваша страница в социальной сети была привязана к электронной почте и к реальному номеру мобильного.

Настройка профиля вк

Чтобы обезопасить себя от возможного взлома страницы вконтакте, я бы рекомендовал вам посетить вкладку «Безопасность », которая находится в разделе «Мои настройки ». Здесь вы сможете подключить наиболее сильную и надежную систему защиты, в виде смс-кодов подтверждения, приходящих на указанный вами мобильный телефон. Кроме того, хочу обратить ваше внимание на поле «История активности ».


В случае, если ваш аккаунт окажется в руках мошенников, то вы узнаете об этом, проверив «Историю активности ». Если в перечне адресов вы обнаружите сторонние IP и браузеры, которыми вы никогда не пользовались, это значит, что ваш аккаунт был взломан и, вполне вероятно, был использован для спам-рассылки. Чтобы исправить сложившуюся ситуацию, вам следует «Завершить все сеансы » кроме текущего, в котором вы находитесь, а затем изменить пароль доступа к своему профилю.


Что же касается того, как убрать капчу совсем, то здесь вам не остается ничего другого как разгадать зашифрованный набор символом и ввести его в специальное поле, расположенное рядом с картинкой. Согласитесь, что далеко не всегда у нас есть возможность в режиме реального времени распознавать captcha. Особенно проблематично это в случаях, когда мы запускаем скрипт и выполняем работу большими объемами. Как только поисковики заметят множественные запросы, мы тут же начнем разбираться с капчами, выскакивающими снова и снова.

Такая проблема очень близка вебмастерам и тем, кто ведет активную работу с постерами, спамерами и прочими автоматизированными программами. Чтобы избавиться от назойливых кодов, которые мешают вашей работе, вы можете воспользоваться помощью сервисов распознавания капч.

Популярные сервисы автоматического распознавания капчи

Сегодня в интернете можно найти множество сайтов, которые предлагают свои услуги по вводу капчи за деньги. Одними из наиболее популярных в сегменте рунета являются сервисы rucaptcha и anti-captcha. Предлагаю более детально разобрать каждый из них:

  1. anti-captcha – многие знают этот сайт как антигейт капча. Сервис стабильно работает на протяжении целых 10 лет. Здесь за автоввод капчи приходится платить в долларах . Каждая тысяча разгаданных кодов обойдется вам в 40 центов. О том, как работать с этим сайтом, узнаете немного позже
  2. rucaptcha – популярный сервис, где разгадывание капчи производится вручную. С его помощью вы можете обеспечить автоматический ввод капчи на своих проектах. Чтобы это сделать, необходимо иметь специальный ключ, который будет поступать через сервис к реальным людям, работающим на сайте, для его последующего распознавания. Стоимость такой услуги составляет всего-навсего 40 рублей за каждую разгаданную тысячу картинок. Принцип работы сервиса довольно прост: реальные люди регистрируются на сайте и обеспечивают себя . То есть, в течение суток на сайт приходят все новые и новые заказы на расшифровку кодов, а обычные пользователи интернета разгадывают их и получают за это денежное вознаграждение

Используй топовый сервис anti-captcha

Расшифровываем капчи с anti-captcha.com: инструкция по работе с сервисом

Чтобы раз и навсегда избавить себя от надоедливых всплывающих картинок с зашифрованными символами, просто воспользуйтесь следующей инструкцией по работе с сервисом анти-капчи:


В каких случаях не обойтись без ключей обхода капчи?

Многие пользователи запрещенных программ наивно полагают, что им не нужно пользоваться сервисами для распознавания капчи. Тем не менее, существует ряд программ, эксплуатация который будет просто невозможной без распознавания captcha. К числу таковых можно смело отнести:


Как можно заработать на распознавании captcha?

Многим новичкам интересно, насколько реально заработать на вводе капчи. Могу сказать, что здесь все зависит от того, сколько времени будет уделяться расшифровке кодов. По большому счету, работу на сервисах антикапчи нельзя назвать основным видом деятельности. Даже если вы весь день проведете за компьютером, будете непрерывно расшифровывать одну капчу за другой, то максимум, что вам удастся заработать, — это 2-3 доллара. Согласитесь, это совсем не те деньги, на которые вы сможете прожить целый месяц. Однако, вы вполне можете использовать эту деятельность в качестве подработки . Тех денег, что вы заработаете, вполне хватит для оплаты интернета или пополнения счета мобильного.

Беспроигрышным вариантом увеличения заработка на сайтах по распознаванию капчи станет участие в партнерских программах сервисов. Если вы имеете опыт в продвижении реферальных ссылок, то вы вполне можете сделать площадки антикапчи источником получения пассивного дохода . Все, что от вас требуется, - привлечь к работе на сервисах новых пользователей, которые будут расшифровывать коды, и получать свои реферские отчисления. Более детальную информацию о том, как происходит заработок на партнерских программах, вы можете узнать в моей отдельной статье.

Выводы

В завершение сегодняшнего обзора хочу отметить, что сервисы автоматического ввода капчи – это незаменимые помощники всех вебмастеров. Если вы до сих пор тратите уйму времени на самостоятельную расшифровку captcha, ваша работа то и дело парализуется новыми кодами, вам просто необходимо доверить расшифровку символов специализированным площадкам. В комментариях под этим постом я прошу вас оставлять свои отзывы о сервисах антикапчи, с которыми вам доводилось работать. Делитесь своими впечатлениями и не забывайте подписываться на обновления блога. До скорых встреч!

Если вы нашли ошибку в тексте, пожалуйста, выделите фрагмент текста и нажмите Ctrl+Enter . Спасибо за то, что помогаете моему блогу становиться лучше!

В предыдущих видео мы научились создавать . При этом, капча вводилась вручную. Сейчас мы покажем, как автоматизировать процесс обработки капчи с помощью сервиса Antigate.

Antigate — это сервис для автоматического распознавания капчи. Если мы его подключаем к сценарию, то при нахождении капчи Datacol не будет выдавать ее для ввода пользователю, а отправит в сервис для распознавания. Обычно Antigate обрабатывает изображение от 7 до 15 секунд, после чего возвращает результат обработки.

Не хотите каждый раз вводить капчу вручную? Посмотрев данную видеоинструкцию вы сможете автоматизировать процесс обработки капчи и значительно ускорить скорость парсинга.


Напомним, что в Datacol Вы так-же найдете уже готовые парсера:

    Для интернет магазинов:

    Изменим ранее созданный сценарий, чтобы подключить к нему Antigate. Выбираем действие обработки капчи. Устанавливаем Метод распознавания Antigate. Теперь очень важно задать свойства текущей капчи. Благодаря этому процесс автоматического распознавания будет явно быстрее, а главное корректнее. Капча у нас русская. Кроме того, капча чувствительна к регистру символов.

    Теперь осталось ввести ключ от API сервиса антигейт. Он задается в параметре сценария antigate_key. Напомним, этот параметр, был автоматически создан при добавлении стандартного блока обработки капчи. Ключ от сервиса можно получить в пользовательской панели сервиса.

    Рекомендую увеличить настройку максимальная ставка хотя бы до 10$ за 1000 распознаваний. Подробнее об этой и других настройках сервиса можно почитать в пользовательской панели. Ну и не забудьте пополнить свой баланс.

    Осталось протестировать созданный сценарий. Напомню, что для распознавания каптчи сервису потребуется какое то время. Все отработало отлично! Обратите внимание, что в некоторых случаях сервис может некорректно распознать капчу. Однако благодаря условия повторения, которые мы настроили в сценарии, распознавание для каждой страницы может запускаться до 3 раз.

    Сохраним сценарий. Запустим кампанию. Видим, что капча была автоматически обработана и мы получили нужные данные. Заметим, что на большинстве сайтов после ввода правильной капчи, она не появляется еще длительное время.

  • Распознование капч с помощью сервисов распознования и встроенными инструментами работает и в бесплатной версии программы
  • Цитата Wikipedia
    - CAPTCHA
    (от англ. Completely Automated Public Turing test to tell C omputers and Humans Apart - полностью автоматизированный публичный тест Тьюринга для различия компьютеров и людей) - товарный знак Университета Карнеги - Меллона, в котором разработали компьютерный тест, используемый для того, чтобы определить, кем является пользователь системы: человеком или компьютером.

    Все чаще в интернете при работе по автоматизации,регистрации,добавлении сообщений, комментариев, объявлений и так далее, мы сталкиваемся с тестом распознования, кем является пользователь системы: человеком или компьютером. Данный компьютерный тест называет "CAPTCHA" и зачастую он распространятся с каждым днем все больше и больше, соответственно и алгоритм и сложность данного теста постоянно усовершенствуется, чтобы уменьшить уязвимость обхода теста и его распознования.
  • В итоге на данный момент мы имеем различные виды капч, основные, которые чаще встречаются я опишу ниже:
  • №1 yaCAPTCHA

    Это один из самых первых и распространенных видов защиты от спама. Обычно его ставят для регистрации на форумах и сайтах. Для блогов, я бы не советовал его ставить, так как капча довольно таки сложная, и некоторые пользователи просто из-за лени ее распознавать и вводить, просто не захотят оставлять комментарий. №2 Anti Spam Image


    Очень похожая на первый вид капчи, но здесь рядом с картинкой выводится примечание, например «вводить только красные символы», или «вводить только цифры» или «вводить только буквы». Тем самым если у спамеров есть робот, который умеет распознавать символы с картинки, то он логически введет все символы, а не именно те, что требуются в примечании. №3 SI Captcha Anti-spam


    Так же как и первые 2 вида, данный плагин, выводит капчу в виде цифр и букв, но здесь есть возможность прослушать, то что изображено на картинке.
    №4 reCAPTCHA


    Еще одна разновидность капчи с выводом символов, здесь так же есть возможность воспроизведения символов на картинке. Обычно форма с капчей состоит из двух слов. Этот вид, тоже больше подходит как капча на сайт, где требуется регистрация, чем капча на блог, где нужно просто оставить комментарий. №5 Simple CAPTCHA


    Капча выводит различные символы, их нельзя прослушать, но если они не видны, то нажав на соседнюю кнопочки символы на картинке можно заменить. При этом не обновляя страницу, то есть не теряя написанного комментария в поле. №6 Math Comment Spam Protection


    Здесь на форме с капчей выводятся два числа, но вводить надо не их, а их сумму. Опять же если робот сможет распознать цифры на картинке,то сложить их и вписать в поле их сумму, для робота уже проблематично. №7 WP-NOTCAPTCHA


    Это довольно таки забавная и простая капча для человека, но трудная для робота. Здесь просто надо передвигать ползунок под картинкой так, что бы картинки расположились вертикально. №8 ImHuman


    Тоже довольно таки интересная форма с капчей, и в тоже время очень сложная для роботов. Здесь выводятся несколько картинок, и надо выбрать из них одну, которая написана в примечании. №9 Checkbot



    Этот вид капчи является одним из самых простых и удобных способов защиты от спама. Здесь просто нужно выбрать человечка с поднятой рукой. №10 Dcaptcha – Я не робот(YA-ne-robot)


    Это самая простая капча, для блогов. Здесь, как вы видите, что бы подтвердить то, что вы человек, а не робот, вам просто нужно поставить галочку. Но со всей этой рутиной по разгадыванию каптчи справится наша программа Human Emulator с помощью соответствующих сервисов капч.

    Принцип работы данных сервисов прост. Вы регистрируетесь в любом сервисе удобным для вас, пополняете счет на нужную вам сумму. В своей учетной записи найдете «captcha ключ»
    он же $api_key
    – это ключ сервиса распознания, который нужно указывать в разных программах, в том числе и нашей для подключения соответственного сервиса. Вот как все работает, данный алгоритм аналогичен для большинства сервисов каптч:

    1. Ваше приложение загружает капчу нам на сервер и получает ее уникальный ID . (Через HTTP POST, методами multipart или base64).
    2. Ожидаем 10 секунд (среднее минимальное время, за которое наши работники вводят текст с капчи).
    3. Делаете HTTP GET
    запрос с ID капчи на наш сервер. Получаете либо текст с капчи, либо код CAPCHA_NOT_READY
    , означающий что она еще не готова.
    4. Если получили CAPCHA_NOT_READY , делаете повторную попытку через 5 секунд (шаг 3).
    5. Если получили OK|SOME_TEXT_HERE , то SOME_TEXT_HERE и есть ваш текст с капчи.

  • В Human Emulator есть восемь функций для распознавания капчи, такие как:
    recognize_captcha
    - распознать картинку с диска как капчу.
    recognize_by_anticaptcha
    – распознать капчу картинки через сервис антикапча
    recognize_by_rucaptcha
    – распознать капчу картинки через сервис rucaptcha.com
    recognize_by_captcha24
    – распознать капчу картинки через сервис captcha24.com
    recognize_by_ripcaptcha
    – распознать капчу картинки через сервис ripcaptcha.com
    recognize_by_evecaptcha
    – распознать капчу картинки через сервис eve.cm
    recognize_by_bypasscaptcha
    – распознать капчу картинки через сервис bypasscaptcha.com
    recognize_by_captchabot
    – распознать капчу картинки через сервис captchabot.com
  • Давайте для наглядности рассмотрим пример распознования капчти google с помощью сервиса antigate.com
$xhe_host = "127.0.0.1:7011" ; // The following code is required to properly run XWeb Human Emulator require ("../../Templates/xweb_human_emulator.php" ) ; // Переходим на пример капчи на сайте google $browser -> navigate ("http://google.ru/sorry" ) ; //Распознаем капчу и вводим ваш индивидуальный api_key echo $captcha = $image -> recognize_by_anticaptcha ("/sorry/image?id=" , "C:\T emp\1 .jpg" , "$api_key – это ваш ключ сервиса распознания" , "http://antigate.com" ) ; //Вводим результат капчти в нужное поле $input -> send_keyboard_input_by_name ("captcha" , "$captcha " ) ; // Quit $app -> quit () ;
  • Ниже приведены ссылки на описание объектов содержащих функционал, позволяющий воспользоваться API сервисов для распознования капч.
  • В нынешнем времени сервисы по работе с каптчами все более актульны и востребовательны для использования их в различных интернет ресурсах и сервисах, они стремительно развиваются и наращивают свой функционал, вместе с этим программа HumanEmulator старается идти в ногу со временем и все больше внедряет в свою внутреннюю структуру функционала по работе с данными сервисами. Подведя итоги вышенаписанного, можно с уверенностью сказать, что при работе в тандеме(связке) сервисов каптч и нашего софта, можно легко и с уверенностью разгадывать большинство типов каптч представленных в интернете. Но совершенству нет предела и поэтому мы будем с радостью добавлять и внедрять все новое, что будет связано с данными сервисами и функционалом.

    Доброго времени суток, дамы и господа.

    Сервисы автоматического распознавания капчи могут помочь в самых разнообразных ситуациях. Например, они значительно облегчают работу программ для сбора семантического ядра – Кей Коллектор, СловоЁб и т. д., приложений для проверки текста на уникальность и рерайт – AntiPlagiarism.

    При больших объемах того же текста или запросов, вы можете столкнуться с тем, что запрос на ввод капчи будет вылетать каждые 10 секунд. Не очень удобно, правда? Антикапча лишает вас необходимости вводить эти самые цифры и буквы вручную. Это делают другие люди, которые зарабатывают на их разгадывании. Вам нужно лишь оплатить услуги сервисов, которые предлагают автоввод капчи.

    Большая часть программ, которая сотрудничает с онлайн-сервисами (Вордстат, Гугл Аналитика и т. д.), требует постоянного ввода капчи. Таким онлайн-проектам не выгодно, чтобы с ними работали боты, поэтому они всеми силами пытаются с этим бороться.

    Но как быть простым вебмастерам, которые решили собрать семантику или спарсить данные с сервисов аналитики? Делать вручную? Не очень разумное решение, тем более, что сейчас полным-полно программ для расшифровки капчи, причем бесплатных.

    Капчу разгадывают реальные люди, получая за это вознаграждение. Они работают в специальном окне, скрипт которого перенаправляет капчу из вашей программы прямо к ним. При правильном вводе происходит автозаполнение. Ваше приложение работает без перебоев и вам больше не надо беспокоиться по этому поводу.

    Сайты распознавания капчи предлагают своим работникам фиксированную ставку за капчу. Вам, как клиентам, нужно внести определенную сумму на баланс. Потихоньку она будет убывать.

    Сервисы автоматического ввода не требуют больших вложений. 300 – 400 рублей на несколько месяцев, а то и полгода, будет вполне достаточно. Но это зависит еще и от количества использования.

    С помощью специальных кодов или данных от аккаунта на таком сайте, вы сможете интегрировать нужное приложение с сервисом.

    Список онлайн-сервисов для распознавания капчи

    Если вы тоже хотите, чтобы ваши утилиты работали в режиме “авто”, то вам нужно ознакомиться с этим списком. Здесь я представлю на ваш суд наиболее популярные сайты, которые помогут избавиться от нужды вводить капчу вручную.

    RuCaptcha

    RuCaptcha – популярный проект, который решает проблему работы со многими приложениями. Цены здесь повыше, чем в остальных, на 10 рублей, но зато качество и скорость работы этому соответствует.

    Умеет работать со всеми типами проверки на робота, поэтому вы можете не беспокоиться, если вдруг выскочит новая капча от Гугла, где нужно выбрать какие-то дорожные знаки и т. д., пользователи РуКапчи легко с этим справятся за пару минут.

    В остальном сервис похож на остальные. Легкое API, интеграция почти с любой программой и, что самое главное, – большое количество исполнителей. Многие люди знают, в свободное время, помогая тем самым простым пользователям.

    2Captcha

    Англоязычный ресурс, очень похож на РуКапчу. Средняя цена за 1 000 разгадываний – полбакса. Исходя из этого, можно прийти к выводу, что цены, как на рынке СНГ.

    2Captcha отлично работает с Гуглом. Как правило, там англоговорящие работники, которые специализируются чисто на гугловских капчах. С русскими вариантами (от того же Яндекса) может возникнуть проблема. Но, думаю, свой исполнитель найдется и там.

    Anti Captcha

    Anti Captcha – современный сервис (бывший Антигейт), который предоставляет услуги по автоматическому разгадыванию символов. Проект отличается максимально упрощенным API, большим количеством исполнителей и низкими ценами.

    Сравнительное дешевые расценки и качественное исполнение услуги точно не оставит вас равнодушными. Сайт известен в Рунете, а потому среднее время разгадывания символов составляет всего 10 – 15 секунд. То есть вам вообще почти не придется ждать, пока именно вашу капчу разгадают.

    Проект пригоден для распознавания прямо в браузере. Обоюдно полезный вариант, который может помочь заработать новичкам, и в то же время облегчить работу профессионалам.

    Какой из сервисов выбрать – решайте сами. Каждый обладает своими достоинствами и недостатками. Можно сказать одно: каждый проект работает уже достаточно длительное время. Вы можете не беспокоиться, что вас обманут, украдут ваши деньги или зашлют какие-нибудь вирусы на ПК. Такого точно не будет, однако, этого не скажешь про других.

    Будьте внимательны при выборе сервиса антикапчи. В Рунете полным-полно фейков, которые занимаются мошенничеством. Если вы вдруг решили попробовать более дешевый неизвестный проект, то лучше бы вам перед использованием проверить отзывы о нем. Вполне возможно, что это фишинговый ресурс, который занимается сбором денег с доверчивых пользователей.

    Инструкция по работе с сервисами

    После того, как вы выберете онлайн-сервис антикапчи, вам нужно будет как-то его использовать. Обычно в таких сервисах есть специальные ключи – их вы получаете в своем аккаунте, после чего вводите в специальное поле приложения. В рамках сегодняшнего материала я рассмотрю РуКапчу.

    Переходим в раздел “API вебмастеру”, где видим примерно такую картину.

    Здесь есть поле “captcha KEY” – оно-то нам и нужно. Копируем этот ключик и идем в настройки антикапчи нашей программы.

    Ставим галочку “Использовать сервис антикапчи”, выбираем сервис из выпадающего списка и вставляем ключ. Готово! Теперь наше приложение будет автоматически “разгадывать” капчу при помощи соответствующего сервиса. Больше никаких действий от вас не требуется. Только своевременно пополняйте счет на сайте.

    Настройки во всех этих программах почти не отличаются. И в Кей Коллекторе, и в СловоЁбе, и в любом другом приложении все будет выглядеть примерно так, как я описал.

    Заключение

    Теперь вы знаете, как обойти ввод символов и различные проверки “Вы не робот?” с помощью онлайн-сервисов. Удобная практика и простая реализация. Вы можете навсегда убрать капчу из своей жизни, лишь изредка пополняя баланс. Как правило, на такие проекты уходит очень мало денег, но зато сколько пользы.

    В том же Кей Коллекторе эта капча может очень часто вылетать, мешая вам выполнять свою работу. А так, подключили программу к сервису, запустили сбор семантического ядра и можно заняться своими делами. То же касается и других утилит, которые требуют постоянного ввода символов.

    Эти приемы я буду демонстрировать на подопытной капче. В качестве подопытной я выбрал капчу некоего Rafontes на которую я набрел когда искал материалы для предыдущей статьи .

    Пример сгенерированной капчи:

    Фон мне пришлось использовать другой, так как автор не выложил оригинальный (или я не нашел), но это не повлияет на результат.

    Препроцесс

    В результате этого действия мы получим масимально обрезанный участок монохромного изображения с текстом.

    В первую очередь нам надо отделить фон от текста . Анализируем картинку и код генерации изображения. Налицо первые ошибки:

    • Используется один цвет для всего теста с кодом
    • Цвет для текста генерируется в диапазоне rand(0, 200), 0, rand(0, 200), для R G B соответственно (достаточно выделить цвета только в этом диапазоне)
    • Фон с большим количеством разных цветов (не сможет повлиять на статистику самого часто используемого цвета)

    Теперь на основе этих фактов анализируем цвет каждого пикселя во всем изображении и выделяем самый часто-используемый. Получился 8C0074 (в hex-виде). Задаем от него небольшую погрешность и выделяем этот цвет и немного похожие на него с учетом погрешности. Все выделенные закрашиваем черным, остальные белым. Получается такая картинка:

    Как видите, мы получили текст, практически без искажений. Правда осталась одна линия, но у нас хитрый алгоритм обрезки (о нем ниже), на который эта линия повлиять не сможет.

    Теперь выделяем участок с кодом .
    Так как наш текст это самое темное пятно, то и пытаемся алгоритмически найти это пятно. Сначала определяем границы по горизонтали:

    Теперь определяем границы по вертикали:

    Линия осталась тут потому что то тот участок до сих пор воспринимается функцией как очень темный участок. Но теперь на основе этих границ уточняем их по второму кругу, по горизонтали:

    А почему теперь эта линия убралась спросите вы? Потому что теперь анализировалось меньше «столбцов пикселей» и при анализе алгоритмом выявилось что в данном участке слишком много столбцов с одним черным пикселем, а следовательно это шум. Теперь уточняем границу по вертикали:

    Так как область определения стала меньше то, теперь тот та линия что была шумом стала недостаточно темным пятном и была удаленна совсем. Вот мы и получили участок с текстом. Конечно этот алгоритм иногда не совсем верно выделяет нужную область. Но по моим тестам число НЕверных определений не превышает 5%, чем собственно можно пренебречь.

    Сегментация

    Теперь наша задача разбить полученное изображение на отдельные участки с символами.

    Конечно можно расчитывать, искать границы символов, и тд. Но если опять проанализировать код генерации, то можно найти еще одну ошибку.

    • Отступ между каждым символом всегда равен 15 пикселям

    Конечно иногда из за размера символов они выходять за рамки пятнадцати пикселей, тогда приходится откусывать от соседнего символа еще один-два пикселя. Но это не критично. Вообщем разбиваем картинку:

    Теперь как мы видим вокруг некоторых символов есть пустая область. А нам все таки нужен именно сам символ. Применяем функцию обрезки для каждого символа, и полученные изображения вписываем в прямоугольники размером 17×27:

    Именно такие изображения по отдельности будут подаваться на распознавание.

    Распознавание

    Распознавание мы будет производить БЕЗ всяких новомодных нейронных сетей. Почему? Решающую роль сыграло то что, нет ни одной достойной библиотеки под винду. Пользоваться будем обычным распознаванием по маскам символов.

    Для этого мы, имея доступ к исходным кодам, нагенерируем кучу черно-белых картинок для каждого символа с разными углами поворотов (от двух до четырех градусов), и разными размерами шрифта (от 20pt до 30pt). Каждую полученную картинку, как вы догадались, вписываем в прямоугольник размером 17×27. Каждое полученное изображение называется маской.

    Для каждой буквы я нагенерировал по 10-15 масок. Впринципе этого достаточно, но если увеличить количество масок, то можно увеличить процент распознавания.

    Вообщем все изображения подающиеся на вход, сравниваются с масками, и алгоритм определяет какая маска больше всего соответствует нашему изображению, на основе этого делая вывод о том какой символ написан на картинке.

    Результаты

    Для теста я получил с помощью генерации картинки и ее разбиения на символы 200 зашумленных символов. И програмно запустил тест. И внимание!
    Итог: Удачных: 172 Ошибок: 28 Процент: 86%
    То есть каждый символ на капче будет распознан успешно с вероятностью в 86% !

    Немного математики. Посчитаем процент вероятности успешного распознавания капчи:
    Для 4-символьных капч: 0.86^4=54%
    Для 5-символьных капч: 0.86^5=47%

    В среднем каждая вторая капча будет успешно распознанна.

    Если учесть что на каждую капчу приходится около 1 секунды, а 2 секунды в среднем будет приходится на успешное распознавание. То это очень отличный результат.

    Исходники

    Скрипт сам генерирует, и сам же распознает капчу. Пример работы скрипта на картинке приведенной в качестве примера автором капчи:

    (Картинка кликабельна)