Новости
Текущие проекты
Исследование и разработка методов распределенной обработки больших баз графовых данных
Начало проекта – 2013 год.В настоящее время в области хранения и обработки данных наблюдается тенденция перехода от традиционной реляционной модели к использованию специализированных систем (NOSQL), позволяющих оптимизировать решение для заранее определенного класса приложений. В этой области ведутся активные разработки и уже существуют коммерческие системы разрабатываемые и используемые такими компаниями как Google, Microsoft, Facebook, HP и т.д.
Talisman. Технология анализа социальных медиа-сервисов
Для анализа социальных медиа в ИСП РАН был разработан ряд оригинальных методов, которые были объединены в технологию, получившую название TALISMAN. В отличие от большинства существующих решений для социальной аналитики, технология TALISMAN изначально была нацелена на работу с большими данными, и использует наиболее перспективные открытые решения из стека технологий Big Data: Apache Spark, GraphX, MLLib и др.
Texterra. Технология автоматического построения онтологий и семантического анализа текста
Основной сложностью семантического анализа текстов является многозначность естественного языка: одни и те же слова могут иметь различные значения в зависимости от контекста. В общем случае понимание контекста предполагает наличие базы знаний о реальном мире. При этом конструирование таких баз знаний или онтологий экспертами является чрезвычайно трудоемкой задачей. Технология Texterra представляет инструменты для автоматического извлечения баз знаний из частично структурированных ресурсов таких, как Википедия и Викиданные, и инструменты семантического анализа текстов, использующие эти знания.
Система исследовательского поиска SciNoon
SciNoon – инновационная система, созданная с целью оптимизации длительной командной работы с научными публикациями. Статьи в SciNoon можно добавлять как из широко известных поисковых систем и электронных библиотек (Google Scholar, arxiv.org, Semantic Scholar, PubMed), так и с помощью загрузки PDF-файлов. Уникальная особенность – графические карты исследований, на которые все члены группы могут добавлять найденные ими статьи.
Docmarking: система маркирования текстовых документов
Docmarking – уникальная система внедрения цифровых водяных знаков (меток) в текстовые документы. Позволяет создавать едва отличимые от оригинала цифровые и физические копии документов, однозначно идентифицирующие пользователей и их устройства.
DEDOC: Система извлечения структуры документов
Dedoc – универсальная открытая система для приведения документов к единому формату. Автоматически извлекает логическую структуру, таблицы и метаинформацию. Содержимое документов представляется в виде дерева, кодирующего заголовки и списки различного уровня вложенности. Dedoc может встраиваться как отдельный компонент в системы анализа структуры и содержимого документов.
Развертывание собственных приватных облачных сред является трудоемкой операцией, сопряженной со множеством технических сложностей. Особую сложность представляет совместное развертывание на общем наборе физических ресурсов сложного системного программного обеспечения, обеспечивающего предоставление виртуальных машин и контейнерных окружений с использованием надежной распределенной файловой системы. В основе разработанного в ИСП РАН подхода к развертыванию облачной среды, лежит упрощение процесса подготовки к планированию развертывания. Подход реализован в виде подготовленной заранее виртуальной машины, обладающей всеми необходимыми инструментами развертывания облачной среды, набора сценариев для инициализации процесса развертывания и человекочитаемых планов развертывания, позволяющих заполнить данные о планируемых к использованию физических серверах и запустить процесс развертывания облачной среды. Схема работы пошагово выглядит следующим образом.
Завершенные проекты
В 2017 году, на первом этапе проекта, было проведено исследование существующих In-Memory Computing систем и их аналитическое сравнение. На данный момент исследуются заявленные свойства программных систем Apache Ignite и VoltDB. В частности, в рамках исследований проверяется устойчивость данных на высоких нагрузках, корректность исполнения операций, масштабируемость систем и поведение систем в случае потери узлов. Также исследуются возможности прозрачной интеграции упомянутых систем для совместного использования с классическими реляционными системами.
Тестирование решений класса In-Memory Data Grid для задач Core banking.
Начало проекта – 2014 год. Окончание проекта - 2014 год.Проект посвящен тестированию решений класса In-Memory Data Grid в применении к области базовых банковских операций. В качестве решений тестировались GridGain, RedHat Infinispan и Hazelcast.
Стремительный рост потребностей современного общества в решении задач обработки больших объёмов данных (Big Data) толкает сообщество учёных и разработчиков на поиски новых подходов обработки данных. В последние годы сформировался стек технологий, подходящий для эффективного решения многих задач Big Data, но эти технологии очень разнообразны по своим возможностям и назначениям. Кроме того, эффективность технологий распределённых вычислений напрямую зависит от эффективности механизмов масштабирования.
Visontia - сервис для визуализации базы знаний системы Texterra
Начало проекта – 2014 год. Окончание проекта - 2014 год.Инструмент VizOntia предназначен для визуализации базы знаний системы Texterra.
Создание инфраструктуры для обработки генетических данных является перспективным направлением для развития биоинформатики. В настоящее время для решения стандартной задачи исследователь-экспериментатор должен полностью пройти путь расчётов на том вычислительном оборудовании, которое есть у него в наличии; это может отнять у конкретного исследователя несколько недель ожидания подсчёта результатов. Кроме того, вычислительных мощностей может и вовсе не хватить - вычислительная сложность генетических задач может быть очень велика.
Проект посвящен разработке инструмента для построения онтологии, или базы знаний, системы Texterra на основе анализа текстовых документов определенных предметных областей. Необходимость подобного инструмента вызвана тем, что наиболее распространенным, а иногда и единственным, способом представления знаний во многих предметных областях являются обычные текстовые документы.
Annotame - сервис для автоматизации процесса разметки текстовых документов
Начало проекта – 2013 год. Окончание проекта - 2014 год.В рамках проекта разработан сервис для автоматизации процесса разметки текстовых документов различными аннотациями, такими как части речи, термины, соответствующие терминам понятия, ключевые понятия и т. п. Интеграция с системой Texterra и удобный Веб-интерфейс значительно упрощают работу пользователей, позволяя за короткое время получать достаточные объемы данных для обучения и тестирования разрабатываемых в отделе алгоритмов, в том числе алгоритмов определения терминов и разрешения лексической многозначности.
Данный проект предоставляет возможность совершать запросы к Википедии на языке XQuery. Содержимое Википедии было представлено в правильно структурированном XML-формате и загружено в XML-базу данных Sedna. Для запросов на языке XQuery был реализован веб-интерфейс.
Инфраструктура управления контентом и знаниями
Начало проекта – 2008 год. Окончание проекта - 2009 год. Заказчик - Научное издательство "Большая Российская энциклопедия".Данная инфраструктура предоставляет службы управления полным жизненным циклом знаний и контента, которые используются для разработки современных информационных продуктов, основанных на энциклопедиях и ссылках. XML-СУБД Sedna является главным компонентом инфраструктуры. Она позволяет использовать один и тот же контент в разных документах и форматах, обеспечивает повторное использование контента, превосходные поиск и навигацию, а также значительную гибкость и удобство модификации информационных продуктов.
Микроблогосфера обладает уникальными характеристиками: это источник крайне актуальной информации о событиях, происходящих во всем мире. Twitter является наиболее популярным средством ведения микроблогов, поэтому мы разработали систему анализа сообщения Twitter, которую назвали TweetSieve.
BizQuery — виртуальная система интеграции данных, основанная на XML
Начало проекта – 2000 год. Окончание проекта - 2003 год.BizQuery — это пакет серверов и инструментов для разработки приложений, оперирующих разнородными источниками данных. Главным компонентом пакета является Сервер интеграции BizQuery Integration Server, который предназначен для совершения запросов на языке XQuery к разнородным базам данных. Сервер интеграции BizQuery Integration Server поддерживает концепцию глобальной схемы данных, определенную в XML.
ISP C++ ORB — бесплатное инструментальное средство для разработки распределенного программного обеспечения. Брокер объектных запросов (ORB) играет роль коммуникатора между различными компонентами распределенных приложений, которые могут выполняться на разных платформах.
GNU SQL Server — это бесплатная переносимая многопользовательская реляционная система управления базами данных. Она поддерживает полную версию диалекта SQL89 и имеет некоторые расширения относительно SQL92. GNU SQL Server реализует высокий уровень изолированности транзакций и статическую и динамическую компиляцию запросов. И серверная, и клиентская стороны системы работают на Unix-подобных системах. Клиент-серверное взаимодействие основано на механизме RPC. Взаимодействие серверных процессов основано на механизмах посылки сообщений и разделяемой памяти.