Chao Zhang väittelee aiheesta Suorituskyvyn vertailu ja kyselyn optimointi monimallitietokannoille

29.3.2021
M.Sc. Chao Zhang väittelee maanantaina 19.4.2021 klo 13 aiheesta Suorituskyvyn vertailu ja kyselyn optimointi monimallitietokannoille. Väitöskirjatyö on osa Helsingin yliopiston tietojenkäsittelytieteen osastolla ja Unified Database Management Systems -ryhmässä tehtävää tutkimusta.

M.Sc. Chao Zhang väittelee maanantaina 19.4.2021 klo 13 Helsingin yliopiston Exactum-rakennuksen auditoriossa B123 (Pietari Kalmin katu 5, 1. krs) aiheesta Performance Benchmarking and Query Optimization for Multi-Model Databases. Vastaväittäjänä toimii apulaisprofessori Konstantinos Stefanidis (Tampereen yliopisto) ja kustoksena professori Jiaheng Lu (Helsingin yliopisto). Väitöstilaisuus pidetään englanniksi. Väitöstilaisuutta voi seurata suorana verkkolähetyksenä osoitteessa https://helsinki.zoom.us/j/66764680740.

Chao Zhangin väitöskirja on osa Helsingin yliopiston tietojenkäsittelytieteen osastolla ja Unified Database Management Systems -ryhmässä tehtävää tutkimusta. Väitöskirjatyön ohjaajana on toiminut professori Jiaheng Lu (Helsingin yliopisto).

Suorituskyvyn vertailu ja kyselyn optimointi monimallitietokannoille

Usean mallin tietokannat (MMDB) ovat tietokannan hallintajärjestelmiä, jotka käyttävät yhtä alustaa tietojen tallentamiseen, käsittelyyn ja kyselyihin erilaisissa tietomalleissa, esimerkiksi relaatio-, puu- ja verkkomalleissa. Lukuisia MMDB-tietokantoja on kehitetty helpottamaan monimalleihin perustuvaa tiedonhallintaa, mutta nämä tietokannat eroavat toisistaan ​​perusteellisesti tietojen tallennuksen, kyselykielen ja kyselyjen käsittelyn suhteen. Olemassa olevat työkalut eivät sovellu MMDB-tietokantojen vertailuanalyysiin, koska ne eivät ota huomioon usean yhtäaikaisen mallin vaatimuksia ja niiden aiheuttamia kuormituksia. Siksi on ensiarvoisen tärkeää tarjota uusia vertailuarvoja MMDB-tietokantojen suorituskyvyn arvioimiseksi. Lisäksi MMDB-tietokannat tuottavat uusia haasteita kyselyjen optimoinnille, koska perinteiset tekniikat eivät pysty optimoimaan kyselyjä kunnolla, ja monimalliset operaattorit ja tallennustila eivät ole riittävän tarkkoja. Näiden syiden vuoksi MMDB-tietokannat vaativat uusia lähestymistapoja monimallikyselyjen optimoimiseksi.

Tämä opinnäytetyö jakautuu kahteen osaan vastaavasti kahden edellä mainitun tavoitteen saavuttamiseksi. Ensimmäisessä osassa kehitämme uuden vertailujärjestelmän MMDB-tietokannoille sosiaalisen kaupankäynnin skenaariossa, jossa on käytössä viisi datamallia, eli relaatio-, JSON-, XML-, verkko- ja avainarvomallit. Lisäksi hyödynnämme kehittämäämme järjestelmää suorittaaksemme kokonaisvaltaisen, kokeellisen arvioinnin huipputason MMDB-tietokannoista, jotta voimme verrata niiden suorituskykyjä sekä tunnistaa suorituskyvyn pullonkauloja monimallisten työmäärien käsittelyssä. Toisessa osassa ehdotamme kahta kyselyjen optimointitekniikkaa MMDB-tietokannoille. Ensinnäkin esitämme ytimen tiheyden arviointiin (KDE) perustuvan mallin arvioimaan selektiivisyyttä monimallisissa liitoksissa, joihin sisältyy predikaatteja relaatio- ja puudatamalleista. Arviointimenetelmä voi toimia rakennuspalikkana optimaalisen liitoksen yhdistämisjärjestyksen valitsemiselle mallien välisessä kyselyn suoritussuunnitelmassa. Toiseksi tutkimme näkymätaulun valinnan ongelmaa relaatiopohjaisissa verkkotietokannoissa välttääksemme suorittamasta kalliita liitoksia relaatiomoottorissa. Ehdotamme erityisesti end-to-end-järjestelmää, joka voi automaattisesti luoda, arvioida ja valita näkymiä kyselyjen käsittelyn nopeuttamiseksi. Muotoilemme näkymän valintaongelman 0-1 Knapsack -ongelmaksi. Kehitämme näkymänvalinta-algoritmin, nimeltään graafisen geenin algoritmi (GGA), joka tutkii verkkotietokannan näkymän muunnoksia näkymän pienentämiseksi ja näkymän hyödyn optimoimiseksi. Kaiken kaikkiaan tässä opinnäytetyössä edistetään MMDB-tietokantoja kolmesta näkökulmasta: suorituskyvyn vertailu, liitoksien selektiivisyyden arviointi ja automaattinen näkymän valinta.

Väi­tös­kir­jan saa­ta­vuus

Väitöskirjan elektroninen versio on saatavilla Helsingin yliopiston e-thesis-palvelussa osoitteessa http://urn.fi/URN:ISBN:978-951-51-7198-6.

Painettuja väitöskirjoja voi tiedustella väittelijältä itseltään: chao.z.zhang@helsinki.fi.