Hoe kan ik een functievoorschrift opstellen van een willekeurige functie? (geen elementaire functie)

Febe, 18 jaar
3 februari 2018

Ik zou graag het aantal zieken met griep per week in een grafiek zetten. Nu is dit geen elementaire functie maar toch heb ik een functievoorschrift nodig. Hoe kan ik dit functievoorschrift zoeken?

Antwoord

Beste Febe

Ik vermoed dat je een aantal meetpunten hebt, nl. per week heb je in een bepaald gebied geteld hoeveel griepgevallen er zijn. Die kan je uitzetten op een (x,y)-diagram, met x=het weeknummer en y=het aantal gevallen in die week. Ik veronderstel dat je dit al gedaan hebt. Nu wil je een lijn trekken door die gegevens, bijv. om de trend voor volgende jaren te voorspellen. Dan zijn we eigenlijk regressie-analyse aan het toepassen (ik zet die term er gewoon even bij zodat je, indien je wenst, verder kunt zoeken op het internet). Welke functie je daarop moet zetten, kan ik eigenlijk niet op voorhand voorspellen, dat hangt af van jouw datapunten en ook van jouw bedoeling.

Als het jouw bedoeling is om een model op te stellen voor het aantal griepgevallen per week, dat je nadien kan gebruiken voor voorspellingen in de volgende jaren, dan kan je best statistische verdelingen uitproberen (in dat geval moet je wel jouw data normaliseren, met andere woorden alle datapunten delen door het totaal aantal griepgevallen). Ik ben absoluut geen kenner van (griep)epidemies, maar ik denk dat een normale verdeling in functie van de tijd (zie: https://nl.wikipedia.org/wiki/Normale_verdeling) wel een goede eerste poging is om deze meetpunten te verbinden. Op het internet of in boeken over statistiek en/of epidemiologie vind je waarschijnlijk meer geavanceerde statistische verdelingen die je kan uitproberen. Op dat moment probeer je jouw meetpunten in een vooropgesteld keurslijf te persen, nl. je stelt een bepaalde functievoorschrift voor en vindt de meest waarschijnlijke waarden voor de parameters die in dat voorschrift staan. Bijvoorbeeld: de reeds vernoemde normale verdeling is eigenlijk niets meer dan een exponentiële verdeling die slechts 2 variabelen (gemiddelde en standaardafwijking) vereist. Eventueel kan je de robuustheid van een dergelijk model dan testen aan de hand van hypothesetesten, maar daarvoor verwijs ik jou echt naar cursussen of boeken over statistiek. Als dit wat te moeilijk lijkt, kan je ook trendlijnen uitproberen. Dat werkt eigenlijk volgens min of meer hetzelfde principe: je stelt een functie voorop (bijv. f(x)=A*x+B) en vindt de waarden van de parameters (bijv. A en B) die het best aansluiten bij jouw data. De meeste computerprogramma's zoals MATLAB en MS Office Excel hebben ingebouwde opties om snel een trendlijn te vinden. Merk op: deze lijnen/verdelingen zullen niet exact door al jouw punten gaan. Je bekomt een functie y=f(x) die zo nauw mogelijk aansluit bij jouw meetpunten, maar niet al jouw meetpunten zullen op de lijn liggen. 

Als je echter gewoon een functie wil die alle punten EXACT verbindt, dan kan je op twee manieren te werk gaan. Ten eerste kan je werken met een stuksgewijs gedefinieerde functie. Dat betekent dat je het functievoorschrift opdeelt in een aantal deelfuncties, die elk voor een bepaald interval van x gelden. Het eenvoudigste voorbeeld is gewoon een rechte te trekken tussen twee opeenvolgende punten en het voorschrift hiervan op te schrijven. De globale functie y=f(x)={rechte1 wanneer x tussen punten 1 en 2 ligt, rechte2 wanneer x tussen punten 2 en 3 ligt, enz.}. Ten tweede kan je met functies van hogere orde werken. Stel bijv. dat je gegevens hebt voor N weken, nl. N koppels punten (x,y). Als je daar een exacte elementaire functie door wil trekken, dan kan je een Lagrange-polynoom gebruiken. Dit is een veelterm van de (N-1)de orde, die exact door jouw N punten gaat. Stel dat je 2 punten hebt (N=2), is de Lagrange-polynoom de rechte door die twee punten. Is N=3, dan krijg je een parabool door jouw drie punten. Meer informatie over hoe je zo'n polynoom opstelt, vind je hier: https://nl.wikipedia.org/wiki/Lagrange-polynoom. Zoals gezegd zal de Lagrange-polynoom EXACT door al jouw datapunten gaan, maar hoogstwaarschijnlijk zal de overeenkomst met een nieuwe dataset niet goed zijn; als je volgend jaar opnieuw het aantal griepgevallen per week meet, zal je mogelijks heel andere coëfficiënten uitkomen als je de veelterm opnieuw zou uitrekenen. Dergelijke exacte fits zijn zelden robuust en dus typisch niet bruikbaar voor voorspellingen.

Als laatste punt kan ik nog volgende tip meegeven: het is zeer uitzonderlijk, zeker voor demografische gegevens, dat je geen gegevens gelijkaardig aan jouw meting op het internet kan terugvinden. Op deze site vind je bijv. een aantal grafieken die griepgevallen per week, per jaar, per type weergeven: https://epidemio.wiv-isp.be/ID/diseases/Pages/Influenza.aspx. Hopelijk haal je hier inspiratie uit!

Veel succes met jouw wetenschappelijk onderzoek!

Laurent

Reacties op dit antwoord

Er zijn nog geen reacties op deze vraag.

Enkel de vraagsteller en de wetenschapper kunnen reageren op een antwoord.

Zoek andere vragen

© 2008-2022
Ik heb een vraag wordt gecoördineerd door het
Koninklijk Belgisch Instituut voor Natuurwetenschappen