Компания Google организовала очередной проект, получивший кодовое название OCRopus. Данная инициатива предполагает разработку системы оптического распознавания символов (OCR) с расширенными возможностями.
Как отмечают в блоге сотрудники Google, в основу продукта OCRopus будут положены инновационные методики анализа, а также высокопроизводительная система распознавания рукописного текста, использующаяся американским Бюро переписи населения. В новом проекте, рассчитанном на три года, будут задействованы специалисты, имеющие богатый опыт в области технологий OCR.
Предполагается, что в рамках инициативы OCRopus будет создана мощная многофункциональная система, которую можно будет использовать для распознавания обычных и исторических документов, рукописного текста и так далее. Комплекс OCRopus смогут применять различные научные организации, археологи, историки, а также рядовые владельцы ПК.
Распространяться пакет OCRopus будет по условиям лицензии Apache 2.0. Дополнительную информацию о проекте можно найти на этой странице.
Стоит отметить, что не так давно Google выпустила специализированную программу Pinyin IME, предназначенную для ввода китайских иероглифов путем набора на QWERTY-клавиатуре их эквивалентов в системе пиньин. Однако вскоре после появления Pinyin IME выяснилось, что данная программа использует базу данных продукта Sogou от китайской компании Sohu. Руководство Sohu заявило о возможности подачи иска против Google, после чего поисковый гигант внес изменения в Pinyin IME и принес китайской компании извинения.