Compressimo показывает один из лучших результатов в мире по сжатию изображений, при этом улучшая их визуальное качество.
Известно, что сегодня в мире, в среднем, сканируется более 3 триллионов страниц документов в год, и это количество продолжает расти даже при всех активно использующихся в настоящий момент системах электронного документооборота. Эксперты выражают опасения, что современные технологии хранения не в силах справиться с обработкой информации, не говоря уже об организации эффективного доступа и поиска данных.
При этом необходимо отметить, что существует две основные проблемы при работе с оцифрованными документами. Во-первых, требуется получить их приемлемое визуальное качество. Однако известно, что качественное изображение практически всегда занимает чрезмерные объемы дискового пространства. С громоздкими оцифрованными документами неудобно работать, дорого хранить, при их передаче по сетям связи генерируется значительный трафик. Во-вторых, необходимо улучшать качество изображения для лучших результатов распознавания символов под различного рода помехами, искажениями — следами маркера, каплями чернил, следами некачественной печати. Да и исходный документ может быть ветхим, напечатанным на плохой бумаге, или быть плохой копией оригинала.
Компания Cognitive Technologies объявляет о выходе нового программного продукта для сканирования, сжатия и отправки документов по электронной почте — «Compressimo». Программа рассчитана на массового пользователя. Compressimo предназначен для обработки широкого класса бизнес-документов (накладные, таблицы, факсы, договоры, деловые письма, счета, и т. д.), доля которых в отечественном документообороте составляет более 90 %. Compressimo способен распознавать, где в документе находится основной контент, а где вспомогательный, таким образом, исключая возможность потери полезных данных при обработке таких элементов изображения, как рецензии, подписи, печати, распоряжения и т. д.
Использование Compressimo позволяет автоматизировать процесс сканирования и обработки документов и получать компактные и одновременно качественные оцифрованные документы, пригодные как для полнотекстового поиска по их содержимому, так и для долговременного хранения. Благодаря Compressimo пользователь может получать более высокое качество содержательных разделов документа, чем на бумажном оригинале.
Ее создание стало возможно благодаря новым алгоритмам анализа и обработки изображений, разработка которых стала очередным этапом в решении задачи понимания документов. Несколько лет назад специалисты Cognitive Technologies высказывали идею о возможности выделения на изображении документа его структурных компонентов: текста, иллюстраций, графики, декоративных элементов. К каждому такому компоненту, назовём его слоем, можно применить эффективный алгоритм сжатия, делающий компонент более компактным без потери информации. При этом текст на изображении можно распознать и «запомнить», для того чтобы в дальнейшем была возможность выполнять поиск и обработку информации. Подготовленные таким образом слои исходного изображения упаковываются в отдельный файл, в результате чего получается «читабельный документ», с которым удобно и просто производить любые необходимые действия. При этом размер файла такого документа является максимально компактным при сохранении высокого качества изображения.
В Compressimo реализован некий аналог экспертной системы — система сама умеет «понимать» тип и структуру документа и автоматически подбирает наиболее подходящий режим обработки. После удаления искажений и помех изображение автоматически разделяется на слои (текст, иллюстрации, печати, подписи и т. п.). При этом система сама принимает разумное решение — выбирает для каждого слоя свой, оптимальный алгоритм сжатия. В Compressimo предусмотрена возможность распознавания текста на 23-х языках при помощи встроенного и доработанного ядра OCR-системы CuneiForm (OpenOCR).
После обработки и сжатия все слои (включая слой с распознанным текстом) собираются в одностраничный или многостраничный файл в формате PDF/A (стандарт для долговременного хранения документов ISO 19005-1:2005).
Данный подход позволяет снизить объем оцифрованных документов в среднем до 20 раз. Например, одна страница накладной ТОРГ-12 или счета-фактуры при сохранении в формате JPEG (разрешение 300 dpi, цветной режим сканирования, jpeg-компрессия отключена) будет иметь объем файла 2,42 МБ. (Приведено среднее значение. Размер итогового файла может зависеть от марки и модели сканирующего устройства, а также от программного продукта, используемого для сканирования). Сжатие того же документа с помощью Compressimo даст файл объемом 96 КБ при аналогичном (в некоторых случаях и более лучшем) качестве результата.
Compressimo базируется на ключевой технологии Cognitive PDF/A, представленной Cognitive Technologies в апреле 2011 года. На разработку этой технологии разработчиками было затрачено три года (около 45 000 человеко-часов).
Начиная с июня 2011 года продукт Cognitive PDF/A успешно представлен на мировом рынке и составляет конкуренцию ведущим мировым разработчикам, таким как:
- Luratech Ltd. (Германия) и программный продукт LuraDocument PDF Compressor. Компания является признанным лидером на рынке ЕС. Руководство компании входит в совет директоров PDF Association и является признанными экспертами международного класса в области создания электронных архивов;
- CVISION Technologies Inc. (США) и программный продукт PDF Compressor. Имеет достаточно прочные позиции на рынке Северной Америки. Компания предлагает полный спектр продуктов, направленных на автоматизацию потокового ввода и обработки документов.
Cognitive Technologies также анонсировала такие амбициозные и интересные разработки на базе этих технологий, как конвертация в формат PDF/A с полнотекстовым распознаванием фотографий документов, сделанных на iPhone 4S.
Мы прогнозируем, что доля Cognitive Technologies на мировом рынке через три года может составить порядка 7 — 10%.
Мировой рынок продуктов, подобных Compressimo, еще не сформирован. При многообразии программ, предлагающих пользователю конвертацию скан-копии в PDF/A документ, большинство разработчиков либо не приводит в полное соответствие стандарту ISO результирующий PDF/A документ, либо стараются своим продуктом угодить как обычному пользователю, так и «продвинутому» ИТ-шнику. Compressimo же спроектирован таким образом, что все возможные и действительно необходимые пользователю операции производятся нажатием не более двух-трех клавиш. Результирующий PDF/A документ, созданный в Compressimo, полностью соответствует стандарту ISO 19005-1:2005.
По мнению президента Cognitive Technologies О. А. Усковой, «по предварительным оценкам объем мирового рынка таких продуктов уже в ближайшие два-три года может составить до двадцати миллиардов долларов, а его российский сегмент — до одного миллиарда долларов; востребованность таких программ в мире чрезвычайно велика».
© Издание 12NEWS (ИП Маринин А.Л.) 12news.ru, 2012