Корпорация Oracle выпускает открытый API-интерфейс и комплект инструментов разработки для ускорителя Data Analytics Accelerator (DAX) в процессорах SPARC M7.
Эти ресурсы, доступные бесплатно в рамках программы Software in Silicon Developer Program, предоставляют разработчикам возможность создавать платформы нового поколения для анализа данных. Кроме того, программа позволяет разработчикам изучать примеры сценариев использования и программный код, а также тестировать и проверять возможности DAX по ускорению аналитических приложений, с помощью технологии Software in Silicon.
«Высокопроизводительный анализ данных критически важен для различных ключевых сценариев использования, таких как анализ посещаемости сайтов, мнений в социальных сетях, поведения покупателей и т.д., — отметил Джон Фаулер (John Fowler), исполнительный вице-президент по направлению Oracle Systems. — Участвуя в нашей программе “Software in Silicon Developer Program”, разработчики могут теперь применять технологию DAX к широкому спектру прежде неразрешимых проблем в аналитических системах, поскольку мы интегрировали ускорение анализа данных внутрь процессоров, обеспечив беспрецедентную скорость сканирования данных, достигающую 170 млрд строк в секунду».
Oracle внесла ряд функциональных возможностей класса “Software in Silicon” в свой 32-ядерный, 256-поточный процессор SPARC M7, встроив в дизайн процессора программные функции более высокого уровня. Одной из самых впечатляющих новых возможностей, реализованных в рамках инноваций Software in Silicon в SPARC M7, является технология DAX, которая обеспечивает непревзойденную эффективность анализа.
Data Analytics Accelerator в SPARC M7
Технология DAX добавляет средства обработки, позволяющие с невероятно высокой скоростью выполнять функции, выбирающие данные, — такие как Scan, Extract, Select и Translate. SPARC M7 DAX обеспечивает ускорение этих аналитических примитивов на выделенном физическом сопроцессоре, отдельном от стандартных вычислительных ядер процессора. Первоначально технология DAX была реализована для Oracle Database 12c и всех приложений, которые на ней работают. Это позволило ускорить анализ на всех приложениях Oracle, независимых поставщиков (ISV) и приложений собственной разработки клиентов. Cейчас технология DAX доступна для любых приложений.
Операции масштабного сканирования и фильтрации упрощаются благодаря прозрачному использованию 32-х выделенных сопроцессоров DAX в микропроцессоре SPARC, которые оперируют с памятью напрямую - на скоростях шины памяти, достигающих 160 Гбит/с между кэшем и DRAM. Эти ускорители, впервые реализованные в процессоре для обеспечения высочайших уровней производительности и эффективности, теперь могут использоваться разработчиками через API-интерфейсы в Oracle Solaris 11 и применяться в различных сценариях использования.
В качестве значимого примера интеграции Data Analytics Accelerator в сценарии машинного обучения и использования больших данных, разработчики Oracle продемонстрировали, как DAX позволяет значительно ускорить Apache Spark, ставший одним из самых популярных проектов по обработке наборов больших данных. В рамках этого проекта инженеры использовали DAX с Apache Spark, чтобы отфильтровать миллиард строк данных в оперативной памяти в 3D-куб так быстро, что стал возможен интерактивный анализ данных.
Конструктивные преимущества SPARC M7 и DAX:
Лучшая в отрасли пропускная способность оперативной памяти: благодаря пропускной способности памяти в 160 Гбит/с, процессор SPARC M7 имеет возможность быстро снабжать данными как сопроцессоры DAX, так и процессорные ядра.
Перемещение нагрузки на DAX: процессорные ядра освобождаются для выполнения других задач.
Эффективная декомпрессия в сочетании с обработкой в оперативной памяти: декомпрессия в сопроцессоре DAX выполняется значительно быстрее, чем в программных реализациях. Декомпрессия со сканированием, выполняется за одну операцию, исключает ненужные операции передачи данных в оперативную память и обратно. Результаты из DAX поступают в кэш процессора для повышения эффективности вычислительной обработки.
Сравнение по диапазонам (range scan) с использованием DAX: многие реальные аналитические запросы к базам данных написаны для поиска данных между конкретными датами, по различным ценовым диапазонам товаров и т.д. DAX выполняет сравнение по диапазонам за одну операцию, с той же скоростью, что и отдельные сравнения. При использовании других процессоров требуется дополнительное вычислительное время для каждого сравнения.
Исключение «вымывания» кэша процессора: DAX выполняет большинство вычислений без необходимости хранить промежуточные данные в кэше, освобождая кэш процессора для других задач.
Сотрудничество с сообществом разработчиков и вузами
Oracle продолжает внедрять в процессоры усовершенствования для повышения производительности распространенных типов нагрузки, что подтверждается мировыми рекордами в более, чем 20 тестах. Технология Software in Silicon позволяет реализовать прежде недостижимые функциональные усовершенствования, необходимые в таких областях, как обеспечение безопасности и анализ больших данных, встраивая в процессор конкретные алгоритмы, для более высокой производительности и эффективности.
Кроме того, Oracle опубликовала несколько сценариев использования с примерами кода, чтобы обеспечить максимальную продуктивность разработчиков и ускорение проектов, а также подробный пример интеграции DAX с Apache Spark. Теперь разработчики и исследователи могут использовать бесплатную облачную платформу Oracle Software in Silicon Cloud, предоставляющую непосредственный доступ к этой технологии. Oracle также сотрудничает с ведущими учреждениями высшего образования, такими как Брауновский университет (Brown University), для реализации инновационных исследовательских проектов с использованием технологии Software in Silicon.
«В настоящее время мы работаем над определением эффективности DAX для набора современных схем размещения данных в оперативной памяти. После завершения этого исследования, мы будем работать над оптимальным применением DAX для ускорения интерактивного исследования и визуализации данных с использованием системы управления базами данных в оперативной памяти Tupleware и системы потоковой обработки в реальном времени S-Store, — отметил Угур Сентименел (Ugur Centimenel), заведующий отделением компьютерных технологий Брауновского университета. — В рамках этих исследований мы будем оценивать производительность и масштабируемость SPARC M7 и DAX для реальной нагрузки, включая сложный поиск и машинное обучение с использованием больших наборов данных».
Открытые API-интерфейсы для Oracle Data Analytics Accelerator теперь доступны бесплатно через облачную платформу Software in Silicon Cloud. Разработчики могут присоединиться к этому сообществу, чтобы приступить к созданию аналитических приложений нового поколения для работы с большими данными.
© Издание 12NEWS (ИП Маринин А.Л.) 12news.ru, 2016