Научный журнал

ISSN 1814-2400

ИНФОРМАТИКА И СИСТЕМЫ УПРАВЛЕНИЯ

Григорьев Ю. А., Плутенко А. Д.

АНАЛИЗ ВРЕМЕНИ СОЕДИНЕНИЯ ТАБЛИЦ В СТРОЧНОЙ ПАРАЛЛЕЛЬНОЙ СИСТЕМЕ БАЗ ДАННЫХ И ПО ТЕХНОЛОГИИ MAPREDUCE

Анализ публикаций показал, что для реализации запросов к структурированным данным преимущество отдается параллельным СУБД. Технология MapReduce (MR) рассматривается как дополнение к технологии СУБД. В статье на примере задачи Join мы попытались выяснить, как поведут себя строчная параллельная СУБД и MR-система Hadoop, если варьировать параметры, которые в проведенных другими авторами экспериментах оставались постоянными или были другими. Ранее были разработаны детальные модели процессов соединения таблиц в строчной параллельной СУБД и MR-системе. В статье приведены результаты вычислительных экспериментов на этих моделях. Модели были настроены на разные схемы масштабирования для MR (число узлов), СУБД (объем данных в узле) и фрагментацию соединяемых таблиц по первичному ключу. Варьировались следующие параметры: селективность выбираемых данных, число сортируемых результирующих записей, мощность атрибута группирования. Результаты моделирования показали, что при увеличении объема хранимых данных параллельная СУБД проигрывает MR-системе по производительности, начиная с некоторых пороговых значений.

Ключевые слова: СУБД, SQL, технология MapReduce, запрос на соединение таблиц, оценка времени выполнения запроса, сравнение времени