Научные базы данных и проект SciDB
У ученых разных специальностей (физиков, химиков, астрономов, социологов и т.д.) исторически существуют сложные взаимоотношения с миром баз данных. Это видно, например, при анализе проектов Российского фонда фундаментальных исследований, связанных с созданием научных информационных систем. Им неудобны главенствующие в мире SQL-ориентированные СУБД, предназначенные, главным образом, для поддержки разных видов бизнеса.
В свое время об этом много думал и писал Джим Грей (см. например, статью «Управление научными данными в следующем десятилетии» (оригинал: Jim Gray, David T. Liu, Maria Nieto-Santisteban, Alex Szalay, David J. DeWitt, Gerd Heber. Scientific Data Management in the Coming Decade, SIGMOD Record, Vol. 34, No. 4, Dec. 2005). В его честь по инициативе, прежде всего, Майкла Стоунбрейкера и Дэвида Девитта в начале 2009 г. образован проект SciDB. К настоящему времени (начало декабря 2009 г.) по поводу этого проекта опубликованы две статьи: «Requirements for Science Data Bases and SciDB» (Proceedings of the Fourth Biennial Conference on Innovative Data Systems Research, Asilomar, CA, USA, January 4-7, 2009) и «A Demonstration of SciDB: A Science-Oriented DBMS» (Proceedings of the VLDB ‘09, August 2428, 2009, Lyon, France). На русский язык эти статьи не переводились.
В число основных проектировщиков SciDB, помимо Стоунбрейкера и Девитта, входят, в частности, такие известные в мире баз данных люди, как Сэм Мэдден (Sam Madden), Дэвид Дайер (David Maier), Дженнифер Вайдом (Jennifer Widom) и Стэн Здоник (Stan Zdonik). Разработчиков пока на вид меньше, чем проектировщиков, но среди них российские программисты Павел Велихов и Роман Симаков. Проект выполняется в стиле open source (хотя никаких исходных текстов на сайте проекта пока нет) и рассчитан на два года. Проект поддерживается спонсорами, включая компании Vertica и eBay. Других источников финансирования, похоже, пока нет, хотя в начале проекта говорилось о возможной финансовой поддержке со стороны National Science Foundation.
Как отмечалось в разд. 2, проекту SciDB предшествовал университетский проект ASAP, из которого заимствуются многие идеи. Среди основных характеристик ожидаемой системы на текущий момент можно выделить следующее:
- Используется модель данных, основанная на популярных среди ученых разных специальностей вложенных многомерных массивах.
- Поддерживаются примитивные операции, ориентированные на научные расчеты, такие как смещение координатной сетки.
- Для всех хранимых данных обеспечивается информация об их происхождении, т.е. из какого источника данных они взяты.
- Обеспечивается возможность хранения, выборки и обработки неточных данных.
- Имеется возможность обработки данных без их загрузки в базу данных.
Как видно, проект SciDB вполне соответствует идеям Стоунбрейкера: быстро реализуется специализированная система. Предполагается возможность использования SciDB в облачной инфраструктуре. Насколько этот проект будет успешным, покажет ближайший год (второй, завершающий год выполнения проекта).