{"title":"THE FIRST STAGE OF THE EXPERIMENT TO EVALUATE THE PERFORMANCE OF MULTI-PARADIGM DATA LAKES","authors":"А.А. Сухобоков, Р.А. Афанасьев, А.Г. Балабас, А.А. Ветошкин, А.С. Зенгер, С.А. Коноваликова, М.А. Кучеренко, А.П. Ларионова, А. Миронова, С.В. Очеретная, А.Д. Рыбина","doi":"10.25633/etn.2023.07.08","DOIUrl":null,"url":null,"abstract":"В статье описывается выполненная первая стадия эксперимента по тестированию производительности мультипарадигмальных озёр данных. Мультипарадигмальным называется озеро данных, содержащее данные, представленные в разных моделях. В проводимом эксперименте участвуют данные, организованные в соответствии с реляционной, графовой и многомерной моделями. Цель эксперимента состоит в оценке целесообразности использования единой интегрированной платформы для построения мультипарадигмального озера данных. Одни и те же данные представлены в трёх моделях и были размещены на интегрированной платформе Apache Spark и на трёх специализированных СУБД: PostgreSQL, Neo4j и Pentaho BI. В каждом случае выполнялись попарно эквивалентные запросы трёх уровней сложности и замерялось время их выполнения с целью сопоставления производительности озера, организованного на единой платформе и на комплексе специализированных СУБД.\n The article describes the completed first stage of the experiment on testing the performance of multi-paradigm data lakes. A multi-paradigm data lake is a data lake that contains data presented in different models. The experiment involves data organized in accordance with relational, graph and multidimensional models. The purpose of the experiment is to evaluate the worthwhileness of using a single integrated platform for building a multi-paradigm data lake. The same data is presented in three models and was placed on the integrated Apache Spark platform and on three specialized DBMS: PostgreSQL, Neo4j and Pentaho BI. In each case, pairwise equivalent requests of three levels of complexity were executed and their execution time was measured to compare the performance of a lake organized on a single platform and on a complex of specialized DBMS.","PeriodicalId":425015,"journal":{"name":"Естественные и технические науки","volume":"57 1","pages":"0"},"PeriodicalIF":0.0000,"publicationDate":"2023-08-02","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"0","resultStr":null,"platform":"Semanticscholar","paperid":null,"PeriodicalName":"Естественные и технические науки","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.25633/etn.2023.07.08","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"","JCRName":"","Score":null,"Total":0}
引用次数: 0
Abstract
В статье описывается выполненная первая стадия эксперимента по тестированию производительности мультипарадигмальных озёр данных. Мультипарадигмальным называется озеро данных, содержащее данные, представленные в разных моделях. В проводимом эксперименте участвуют данные, организованные в соответствии с реляционной, графовой и многомерной моделями. Цель эксперимента состоит в оценке целесообразности использования единой интегрированной платформы для построения мультипарадигмального озера данных. Одни и те же данные представлены в трёх моделях и были размещены на интегрированной платформе Apache Spark и на трёх специализированных СУБД: PostgreSQL, Neo4j и Pentaho BI. В каждом случае выполнялись попарно эквивалентные запросы трёх уровней сложности и замерялось время их выполнения с целью сопоставления производительности озера, организованного на единой платформе и на комплексе специализированных СУБД.
The article describes the completed first stage of the experiment on testing the performance of multi-paradigm data lakes. A multi-paradigm data lake is a data lake that contains data presented in different models. The experiment involves data organized in accordance with relational, graph and multidimensional models. The purpose of the experiment is to evaluate the worthwhileness of using a single integrated platform for building a multi-paradigm data lake. The same data is presented in three models and was placed on the integrated Apache Spark platform and on three specialized DBMS: PostgreSQL, Neo4j and Pentaho BI. In each case, pairwise equivalent requests of three levels of complexity were executed and their execution time was measured to compare the performance of a lake organized on a single platform and on a complex of specialized DBMS.