Linear mixed model as an analysis tool for childrens' and adolescents' administrative register-based child health clinic and school health data
Terveyden ja hyvinvoinnin laitoksen FinLapset-rekisteri tutkii lasten ja nuorten ylipainon ja lihavuuden yleisyyttä Suomessa. Tiedot perustuvat valtakunnalliseen rekisteriaineistoon neuvola- ja kouluterveydenhuollon paino- ja pituusmittauksista. Tuloksia on raportoitu poikkileikkausasetelmassa raportointivuosittain, mutta aineisto mahdollistaa myös samoilta yksilöiltä kertyneiden toistettujen mittausten analyysin pitkittäistutkimusasetelmassa. Tutkielmassa arvioimme lineaaristen sekamallien soveltuvuutta FinLapset-rekisteriaineistosta muodostetun pitkittäisaineiston analyysivälineeksi. Teoriaosassa esittelemme lineaaristen sekamallien keskeiset ominaisuudet ja estimointimenetelmät sekä tarkastelemme hyviä mallinarvioinnin käytäntöjä. Soveltavassa vaiheessa sovitamme aineistoon kaksitasoisen lineaarisen sekamallin, jolla tutkimme lasten ja nuorten painoindeksin yhteyttä ikään ja biologiseen sukupuoleen sekä arvioimme mallin kykyä selittää aineistossa esiintyvää yksilökohtaista ja yksilöiden välistä painoindeksin vaihtelua. Mallin suoriutumista tarkastellaan erityisesti rekisteriaineiston analyysin muodostamien haasteiden näkökulmasta. Lineaariset sekamallit muodostavat luontevan analyysikehikon FinLapset-rekisteriaineiston kaltaisen pitkittäisaineiston analyysiin. Yksinään iän kiinteä populaatiovaikutus, yhdessä yksilö- ja ikäkohtaisten satunnaisvaikutusten kanssa selittää mallin vaihtelua erittäin hyvin. Painoindeksin ja iän yhteyden lineaarisuusoletus jää kuitenkin epäilyksen alaiseksi ja yksilökohtaisten residuaalien autokorrelaatio sekä varianssin heteroskedastisuus osoittautuvat merkittäviksi haasteiksi. Rekisteriaineistolle tyypilliset ominaisuudet, kuten passiivisesta kertymistavasta seuraava populaatiokehikon täsmällisen määrittelyn puute ja aineistoa tuottavien prosessien tuntemattomuus vaikeuttavat mallin estimaatteihin liittyvien epävarmuustekijöiden arviointia. Suuresta havaintomäärästä seuraten estimaattien keskivirheet ovat hyvin pieniä, mikä antaa virheellisen kuvan mallin hyvyydestä, vaikka estimaatteihin liittyvä harha jää osin tunnistamatta. Tutkielmassa näytetään, että lineaarisille sekamallelle löytyy joustavia laajennoksia, joilla osa tutkielmassa esitetyn mallin haasteista on mahdollista ylittää. Osa laajennetuista malleista ovat suoraan yhteensopivia tutkielman frekventistisen lähestymistavan kanssa, mutta useat vaihtoehtoiset menetelmät suosivat bayesiläistä ajattelutapaa. Myös näkökulmia rekisteriaineiston epävarmuuslähteiden tunnistamiseksi ja edustavuuden parantamiseksi punnitaan.