Лента новостей 2022

Компания Cognitive Technologies представляет новую технологию Cognitive ScanPack

Компания Cognitive Technologies обладает более чем 35-летним опытом разработки и внедрения программного обеспечения (ПО).

Cognitive ScanPack показывает один из лучших результатов в мире по сжатию изображений, при этом улучшая их визуальное качество

Компания Cognitive Technologies объявляет о выходе новой технологии, предназначенной для пакетного сканирования, обработки и сжатия документов — Cognitive ScanPack. Ее создание стало возможно благодаря новым алгоритмам анализа изображений, разработка которых является очередным этапом в решении задачи понимания документов.  Технология предназначена для широкого класса бизнес-документов (факсы, договоры, деловые письма, счета, накладные, таблицы и т.д.), доля которых в отечественном документообороте составляют более 90%. В настоящее время технология Cognitive ScanPack уже применяется в системах ввода документов мощностью 10000 – 100000 страниц в день, созданных специалистами CognitiveTechnologies.

При работе с оцифрованными документами, книгами и журналами и т.д. существует две основные проблемы. Во-первых, требуется получить их приемлемое визуальное качество. Однако, известно, что качественное изображение практически всегда занимает чрезмерные объемы дискового пространства. С громоздкими оцифрованными документами неудобно работать, дорого хранить, при их передаче по сетям связи генерируется значительный трафик.

Во-вторых, существует необходимость улучшения качества изображения (например, для его дальнейшего распознавания) — очищения от различного рода помех и искажений: следов маркера, капель чернил, следов некачественной печати, следов от дырокола. Да и исходный документ может быть ветхим, напечатанным на плохой бумаге, или быть плохой копией оригинала.

Разработанная в компании Cognitive Technologies технология CognitiveScanPack позволяет решить обе эти проблемы и автоматизировать весь процесс оцифровки бумажных документов — от сканирования до сжатия и упаковки в файлы.

Главным отличием технологии Cognitive ScanPack от существующего программного обеспечения для пакетного сканирования и ввода документов является реализация возможностей эффективного сжатия изображений документов. Данный результат был получен за счет реализации в технологии некоего подобия экспертной системы — Cognitive ScanPack умеет понимать тип и структуру документа и автоматически подбирает наиболее подходящий режим обработки. После удаления искажений и помех изображение автоматически разделяется на так называемые слои (текст, иллюстрации, печати, подписи и т. п.). При этом система сама принимает разумное решение — выбирает для каждого слоя свой — наиболее оптимальный алгоритм сжатия с целью получения наиболее качественное и одновременно компактного изображения. В CognitiveScanPack предусмотрена возможность распознавания текстовых слоев при помощи встроенного ядра OCR-системы CuneiForm (OpenOCR).

После обработки и сжатия все слои (включая слой с распознанным текстом) собираются в одностраничный или многостраничный файл в формате PDF/A (стандарт для долговременного хранения документов ISO 19005-1:2005).

Данный подход позволяет снизить объем оцифрованных документов в среднем до 10 раз. Например, страховой полис ОСАГО при сохранении в формате JPEG с качеством, пригодным для работы, будет занимать объем 2,42 МБ. Сжатие того же документа с помощью CognitiveScanPackдаст файл объемом 408 КБ, при аналогичном (в некоторых случаях и более лучшем) качестве результата.

На разработку технологии CognitiveScanPack разработчиками было затрачено два года (около 10 000 человеко-часов). Технология имеет значительный потенциал для наращивания качества обработки и сжатия изображений за счет развития алгоритмов понимания структуры документа и анализа изображений. Также в ближайших планах разработчиков расширение набора типов обрабатываемых документов цветными печатными изданиями: газетами, журналами и т.п.

Мировой рынок технологий и систем, подобных Cognitive ScanPack, еще не сформирован, но по предварительным оценкам только в российском сегменте его потенциальный объем составит порядка одного миллиарда долларов США.

Использование технологии Cognitive ScanPack позволяет автоматизировать процесс сканирования и обработки документов и получать компактные и одновременно качественные оцифрованные документы для долговременного хранения, пригодные для полнотекстового поиска по ним.


© Издание 12NEWS (ИП Маринин А.Л.) 12news.ru, 2011

Опубликовано 13.04.11 14:46
Просмотров 727
Разместил xbox