Научный журнал

ISSN 1814-2400

ИНФОРМАТИКА И СИСТЕМЫ УПРАВЛЕНИЯ

Григорьев Ю. А., Пролетарская В. А.

МОДЕЛЬ ПРОЦЕССОВ ВЫПОЛНЕНИЯ ЗАПРОСОВ К ХРАНИЛИЩУ ДАННЫХ НА ПЛАТФОРМЕ ПАРАЛЛЕЛЬНЫХ ВЫЧИСЛЕНИЙ SPARK

Осуществлен анализ процессов выполнения SQL-запросов Q3, Q17 из те-ста TPC-H в среде Spark. По результатам анализа разработана математическая модель этих процессов с целью оценки времени выполнения запросов к хранилищу данных для метода с каскадным использованием фильтра Блума (КИФБ). По результатам натурных экспериментов выполнена калибровка параметров разработанной модели и проанализирована ее адекватность.

Ключевые слова: SQL, Apache Spark, фильтр Блума, тест TPC-H, Big Data, моделирование