Wat is de kansverdeling van volgende variant op 'trekking zonder teruglegging'?

Sebastiaan, 25 jaar
8 januari 2018

N.a.v. enkele spelletjes kleurenwiezen onlangs, trok volgend probleem mijn aandacht. Beschouw volgend experiment: in een bak bevinden zich een aantal balletjes die telkens een welbepaalde kleur hebben. Noem n het aantal verschillende kleuren en n_i het aantal balletjes per kleur. Men mag nu k trekkingen uitvoeren, waarbij geldt dat k < n. Eens een balletje van een bepaalde kleur getrokken is, wordt niet enkel dit balletje weggehaald uit de bak, maar ook àlle andere balletjes met dezelfde kleur als het getrokken balletje. Wat is nu voor een gegeven kleur de kans dat bij een van de k trekkingen een balletje van deze kleur getrokken werd? Ik heb zelf al enig denkwerk verricht en in se lijkt het probleem niet moeilijk. Neem bijvoorbeeld 2 trekkingen (k = 2) en 3 kleuren: rood, groen en blauw (n = 3). Neem aan dat er 4 rode balletjes zijn, 7 groene en 9 blauwe. Voor de kleur rood is de kans dat het getrokken wordt de kans dat het getrokken wordt bij de eerste óf bij de tweede trekking, m.a.w. p(rood) = 4 / (4 + 7 + 9) + [7/(4 + 7 + 9) * 4/(4 + 9) + 9/(4 + 7 + 9) * 4 / (4 + 7)] = 0,47. Er geldt ook dat Σp(i) = k waarbij de sommatie loopt over elke kleur. Het probleem is echter dat bij het berekenen van kansen voor k > 2 (uiteraard nog steeds met n > k) er binomiaalcoëfficiënten in het spel komen en dat men op den duur honderden combinaties moet gaan onderzoeken op welke manier een bepaalde kleur getrokken kan worden en het dus niet meer praktisch is om de kansen exact te berekenen. Is er in de wiskunde een kansverdelingsfunctie bekend die dit probleem beschrijft? Het probleem heeft mijns inziens kenmerken van zowel een Poisson binomiale verdeling, een multinomiale verdeling en een multivariante hypergeometrische verdeling, maar geen enkele beschrijft volgens mij exact het probleem. De Poisson binomiale verdeling heeft echter ook het kenmerk dat er binomiale coëfficiënten verschijnen in de berekening van de kansen, maar hier bestaat echter een recursieve functie voor die het rekenwerk beperkt. Mijn hoop is dus dat eenzelfde formule zou bestaan voor dit probleem. Bovendien ben ik ook geïnteresseerd in de vraag of - en zoja hoe - het mogelijk is om, gegeven de verschillende kansen p(i), het aantal trekkingen k en het aantal kleuren n, het corresponderende aantal balletjes n_i per kleur te bepalen. Het is duidelijk dat het totale aantal balletjes geen rol speelt, enkel hun onderlingen verhoudingen. Ik heb opnieuw zelf wat onderzoek gedaan naar hoe dit zou werken voor k = 2. Dit leidt tot een stelsel van n (=het aantal kleuren) kwadratische vergelijkingen met n onbekenden. Door dit recursief op te lossen m.b.v. Excel heb ik gevonden dat bv. voor de kansen p(rood) = 40%, p(groen) = 70% en p(blauw) = 90% geldt dat dit overeenkomt met +- 288 rode balletjes, 545 groene balletjes en 1166 blauwe balletjes (vermenigvuldigd met een constante). Omwille van het feit dat voor k > 2 de berekeningen reeds bijzonder onpraktisch worden lijkt mij dit opnieuw voor k > 2 een bijzonder moeilijk probleem. Is er in de wiskunde al enig onderzoek verricht naar dit probleem? En zoja, kan ik hier ergens iets meer over vinden? PS: Ik kwam terecht op dit probleem in het context van hoe de kaarten verdeeld kunnen zitten bij een spelletje kleurenwiezen. In principe is de kans dat een welbepaalde kaart bij een welbepaalde speler zit uniform verdeeld. Echter, gedurende het bepalen van de troef geven de spelers informatie vrij over hun kaarten. Wanneer een speler harten troef vraagt, zou men bijvoorbeeld kunnen aannemen dat de kans dat deze speler harten aas heeft 60% bedraagt, dat de kans dat hij harten heer heeft 50% bedraagt etc. etc. i.p.v. steeds 25% (of 33,3% vanuit het standpunt van een tegenspeler bekeken die bv. ziet dat hijzelf harten aas en harten heer niét heeft). Op die manier kan men een volledige stochastische matrix opstellen waarin per kaart staat bijgehouden hoe groot de kans is dat de kaart bij een bepaalde speler zit, waarbij geldt dat de som van de kansen per speler 13 is (want elke speler heeft 13 kaarten), en de som van de kansen per kaart 1 (want elke kaart zit sowieso bij een speler). Mijn initiële bedoeling was om "samples" te genereren op basis van deze stochastische matrix, zodanig dat voor grote populaties het aantal keren dat een bepaalde kaart bij een bepaalde speler zat, de kans in de stochastische matrix benadert. Dit bleek echter moeilijker dan gedacht, maar ik kwam tot de conclusie dat dit gedaan kan worden indien ik de kansen uit de matrix kan vertalen naar het overeenkomstige aantal gekleurde balletjes in de bak in het hierboven geschetste probleem. De verschillende kaarten stellen hier dan de "kleuren" van de balletjes voor. M.a.w. indien men voor alle 54 kaarten de kansen kent dat een bepaalde kaart bij een bepaalde speler zit (die altijd 13 kaarten heeft), komt dit overeen met n = 54 en k = 13 (54 verschillende kleuren van balletjes, 13 trekkingen). Het is duidelijk dat het in dit geval onmogelijk is om een beroep te doen op binomiaalcoëfficiënten.

Antwoord

Beste Sebastiaan

Hierbij toch nog een heel laat antwoord op je vraag. 

Het probleem met de balletjes lijkt eenvoudig, maar is wiskundig toch al vrij specifiek omdat je geen vast aantal balletjes verwijdert maar een aantl dat afhangt van het aantal waarmee je start. Dit zorgt ervoor dat er bij mijn weten geen bekende verdelingsfunctie is die dit fenomeem beschrijft, de kansberekeningen worden gewoon te uitgebreid zoals je zelf ook gemerkt hebt en hoewel er inderdaad binomiaalcoëfficiënten zullen voorkomen is het probleem gewoon te specifiek om de kansen in 1 formule te gieten.

Aan de andere kant heb je ook gemerkt dat de kansberekeningen wel allemaal op dezelfde manier gebeuren, en daar ligt volgens mij de oplossing. Als berekeningen te uitgebreid worden om uit het hoofd om met de hand uit te voeren maar je herkent wel duidelijk een structuur die erachter zit, is dit denk ik ideaal om met een programmmaatje door een computer uit te laten rekenen. Als ik heb goed begrepen heb had je dit ook al gedeeeltelijk zo geprobeerd. 

Dit dus als antwoord op je vraag, nee er is bij mijn weten geen bekende verdelingsfunctie die het probleem met de balletjes zoals jij het voorstelt beschrijft. Daar wil ik verder graag nog enkele opmerkingen aan toevoegen. 

Ten eerste en belangrijkste: als ik het goed begrijp ben je op zoek naar de verdeling van de kaarten bij de verschillende spelers bij het kaartspel kleurenwiezen gegeven de extra informatie van de troefkaart gekozen door de startspeler. Je zou deze verdeling kunnen benaderen door statistiek te gebruiken op basis van een groot aantal steekproeven, zoals dat voor veel onderwerpen in het dagelijkse leven gedaan wordt. Wil je de verdeling echter exact berekenen door kansrekenen te gebruiken, dan moeten eerst alle elementen van je experiment vastliggen. Voor je de verdeling kan berekenen moet je dus eerst de regel vastleggen waarmee de startspeler voor een bepaalde troefkaart kiest, terwijl je deze met statistiek juist zou kunnen meten. In realiteit kan je deze verdeling dus niet wiskundig berekenen, en maar goed ook want anders zou er niets meer aan het spel zijn. 

Ten tweede: als ik goed begrijp hoe je het probleem met de balletjes wil gebruiken om de handen van de spelers bij kleurenwiezen voor te stellen, kan je volgens mij veronderstellen dat er van elke kleur evenveel balletjes zijn (1 als de kleuren de kaarten zijn, 4 als de kleuren de soorten kaarten zijn, en 13 als de kleuren de kleuren van de kaarten zijn).  Dat maakt het probleem met de balletjes misschien minder algemeen maar de berekeningen volgens mij wel gemakkelijker en eventueel zelfs wel voor te stellen met een bekende verdelingsfunctie. Maar daarvoor is de link tussen de balletjes en het kleurenwizeen mij dus niet volleidg duidelijk. 

En ten slotte als detail: het lijkt mij vreemd dat een som van kansen k of 13 zou zijn, en de namen van de verdelingen die je aanhaalt lijken mij ook niet helemaal te kloppen. 

Waarmee ik algemeen maar wil zeggen dat er wat onduidelijkheden zijn in je probleemstelling, vooral in de link met het kleurenwiezen, waardoor ik je vraag naar mijn gevoel ook niet volledig goed kan beantwoorden.  Maar je kansberekeningen voor de balletjes zijn dus wel goed, dus je kan er zeker mee verder rekenen en wie weet vind jij wel de verdelingsfunctie.

Met vriendelijke groeten

Reacties op dit antwoord

Er zijn nog geen reacties op deze vraag.

Enkel de vraagsteller en de wetenschapper kunnen reageren op een antwoord.

Zoek andere vragen

© 2008-2020
Ik heb een vraag wordt gecoördineerd door het
Koninklijk Belgisch Instituut voor Natuurwetenschappen