Verslag DACE webinar: ''Je moet schieten anders kun je niet scoren''
1 december 2020 om 10:22 0 reacties
Je moet schieten anders kun je niet scoren
Door de coronacrisis kon de normale contactbijeenkomst in november 2020 geen doorgang vinden en werd in plaats daarvan een tweede DACE webinar gehouden.
Dit webinar werd georganiseerd door de SIG Probabilistische Risicoanalyse en had als thema ‘toeval, onzekerheid en trefzekerheid van ramingen’. Het altijd lastige onderwerp van probabiliteit werd deze middag aan de hand van de analogie met het voetbalspel in al zijn eenvoud toegelicht. Zo kregen we te horen wat Cristiano Ronaldo en Gary Lineker te maken hebben met stochasten, dataverzameling, correlaties en risico-acceptatie.
DACE-voorzitter Robert de Vries faciliteerde het webinar en memoreerde dat in dit bijzondere jaar meerdere cursussen zijn uitgesteld. Voor 2021 is echter een heel nieuw programma opgesteld met vele mogelijkheden om achterstanden in te halen. Daarnaast is het DACE-bestuur druk bezig met het voorbereiden van het ICEC World Congress in De Doelen in Rotterdam in 2022. Ook gaf Robert aan dat de eerstvolgende bijeenkomst op 18 maart 2021 in webinar-vorm zal worden gehouden. Tenslotte introduceerde hij de twee sprekers van deze middag, Arno Willems van IV-Infra en Fedde Tolman van Kiwa KOAC. Elkaar afwisselend zouden zij ons deze middag leiden langs de velden van het voetbal, de probabilistiek, de moeilijkheid van het verkrijgen van data en het begrip risico-acceptatie.
Een simpel spelletje?
Arno trapte af met de bekende uitspraak van Gary Lineker uit 1990 dat voetbal eigenlijk een simpel spel is, met 22 man dat 90 minuten duurt, waarbij aan het eind altijd de Duitsers winnen. Hij wist aan te tonen dat deze stelling intussen niet meer op waarheid berustte. Het feit dat de Duitsers niet altijd winnen werd wel duidelijk in het WK van 2018 waarbij de Duitsers laatste in hun poule werden.
Maar ook het feit dat het simpel spel betreft is intussen weerlegd. Arno citeerde de Leidse wetenschapper Rens Meerhoff die concludeerde dat voetbal zo complex is, dat elke poging om het te versimpelen, omwille van je analyse, tot onjuistheden leidt. Die conclusie wordt gestut door de ervaring van Johan Cruyff die aangaf dat ‘voetbal heel simpel is, maar het moeilijkste wat er is, is simpel voetballen’. Ook de ervaring van Lobanosvki, trainer van Dynamo Kiev in de jaren 70 en 80, die ongeveer als eerste op bijna wiskundige wijze trainingsmodellen ontwikkelde met behulp van data, ondersteunde zijn betoog van de complexiteit van het spelletje.
Als klap op de vuurpijl en om ook de laatste ongelovige te overtuigen liet Arno een aantal filmpjes zien van een wetenschappelijk experiment dat met Cristiano Ronaldo is uitgevoerd. Daarin was te zien dat Ronaldo een voorzet kreeg, die ofwel in het doel gekopt ofwel geschoten kon worden. Hij miste niet één voorzet. Het bijzondere was de oplopende graad van moeilijkheid. Op zeker moment werd halverwege de voorzet het licht uitgedaan, waardoor Ronaldo in het donker zijn punt moest maken. Nog weer later werd vlak voordat de voorzet werd gemaakt, dus nog voordat de voet aan de bal was, het licht uitgedaan. Arno concludeerde dat Ronaldo een aan de werkelijkheid zeer sterk benaderend fysisch model in zijn hoofd moest hebben, waarin richting, snelheid en curve van de bal een plaats hebben. Ten tweede moet hij een wiskundig deterministisch model maken om voorspellingen van de curve te kunnen doen. Dat model verandert meer en meer in een probabilistisch model als meer onzekerheden optreden en Ronaldo alleen gegevens heeft over de trapkracht en voetrichting van de voorzet, en verder niets ziet van de snelheid, richting en curve van de bal. Door de grote onzekerheid wist hij op zeker moment niet of hij de bal moest koppen of schieten, maar met zijn borst wist hij uiteindelijk toch doel te treffen. Die trefzekerheid bereiken terwijl zo weinig gegevens bekend zijn, is iets dat wij ook beogen.
Probabilistiek
Hier pakte Fedde de bal op. Hij ging in op de probabilistische moeilijkheden bij het maken van ramingen en wilde toe naar een praktische werkwijze. Daarbij nam hij ons mee naar de schoolbanken om de principes van de waarschijnlijkheidsrekening nog eens door te nemen. Een stochastische variabele is een door het toeval bepaalde variabele grootheid. Dat toeval wordt worden weergegeven in een kansverdeling; bijvoorbeeld de kans op een totaal van 12 bij het gooien met twee dobbelstenen is kleiner dan op een totaal van 6. Een kansverdeling kan omgezet worden in een kansdichtheid, door differentiatie. Voor zo’n kansverdeling kunnen verschillende functies worden gebruikt, om te beginnen de normale verdeling. Maar ook de driehoeksverdeling wordt vaak gebruikt en als die niet goed werkt kan overgegaan worden naar de discrete verdeling.
Bij twee stochasten wordt het al iets ingewikkelder. Overgang naar een simultane verdeling is dan nodig. De correlatie tussen de twee stochasten moet dan bepaald worden, dat wil zeggen zijn ze onafhankelijk, afhankelijk of iets ertussenin. Voor deze correlatiefactor kan eenvoudig een vaste coëfficiënt tussen 0 en 1 gekozen worden. Fedde liet met een rekenvoorbeeld zien, dat hier zomaar een factor 2 in de spreiding fout kan zijn als hier verkeerde keuzes worden gemaakt. Ook heeft zo’n coëfficiënt de moeilijkheid dat op het oog totaal verschillende soorten verbanden toch allemaal dezelfde correlatiecoëfficiënt hebben. De copula is de meer ideale verbindingsfunctie tussen twee stochasten, maar die heeft veel praktische moeilijkheden. Daarom is de partiële copula geïntroduceerd, ook wel ‘vine’ genoemd vanwege zijn gelijkenis op een wijnrank bij de grafische uitwerking.
In de standaardaanpak zoals die tot nu wordt gehanteerd, worden minimum, modus en maximum, ook wel de Laagste-Top-Uiterste genoemd ofwel LTU, van een marginale verdeling geschat. Vervolgens wordt op het oog een correlatiecoëfficiënt bepaald, waarna een Monte Carlo berekening wordt uitgevoerd en een raming wordt verkregen.
Het voorstel van de SIG is in principe eenzelfde aanpak, maar eentje met iets meer werk dat uiteindelijk wel betere schattingen levert. In dit voorstel wordt gewerkt met conditionele LTU’s met 3 condities per variabele. Ook worden 2 variabelen paarsgewijs naast elkaar gezet wat leidt tot 9 bepalingen. Na schatting van de correlatiecoëfficiënten daaruit en het toepassen van de ‘vines’, wordt een betere raming verkregen.
Data-schaarste
Hierna nam Arno het stokje weer over. Hij ging in op de mogelijkheden en moeilijkheden van het verkrijgen van data. De eerste methode die werd genoemd is die van benchmarking. Hierbij wordt gezocht naar referentieprojecten en de uitkomsten die deze hebben gegenereerd wat betreft verschillende soorten kosten, onvoorzien en onzekerheden. Een bijzonder voorbeeld van benchmarking is de methode van Reference Class Forecasting, ontwikkeld door Nobelprijswinnaar Kahneman en Tverski. Deze is door Flyvbjerg daarna veel malen in de praktijk gebracht. De blik en de ervaring van buiten levert betere resultaten dan de initiële, eigen inschattingen van het werk.
Een andere methode om data te verzamelen is via statistiek en data-analyse. Om nog even bij het thema voetbal te blijven noemt Arno hier het bedrijf Scisports, dat allerlei soorten van data verzameld over voetbal en zo bijvoorbeeld scoringskansen bepaalt per speler, ook onder specifieke omstandigheden. Bijvoorbeeld als deze komt aangerend onder een bepaalde hoek ten opzichte van het doel en als deze hoog in de kruising of laag bij de paal schiet.
Tenslotte noemde Arno de elicitatie methode ofwel de expertmening. Die mening kan individueel bij experts gevraagd worden via interview of vragenformulier of in een groep bijvoorbeeld via een brainstormsessie of een ‘decision room’. Zeker als het individueel wordt gedaan is het raadzaam om de vragen eenvoudig te houden en geen randzaken te noemen. Verder is het raadzaam om de experts tevoren te trainen in de regels van het kansdenken; niet iedereen begrijpt wat een kans van 80% betekent. Andere tips zijn dat je als risicoanalist aanwezig moet zijn bij de expertsessie, dat de expertsessie niet langer dan een uur moet duren en dat het beste gesproken kan worden over direct waarneembare parameters. Vermijd vragen met een zekere vooringenomenheid of framing en vragen die een beroep doen op vuistregels.
Bij het combineren van expertmeningen is het nog wel de vraag of deze experts allemaal even zwaar moeten meetellen. Misschien moet de risico-analist een rangschikking toepassen, bijvoorbeeld op basis van positie/ervaring. Misschien moeten de experts hun eigen gewicht aangeven, waarbij overigens de klassieke M/V-vertroebeling optreedt; mannen overschatten hun eigen kunnen vaak. Misschien moeten de experts elkaar een weging geven. Arno houdt een pleidooi voor het gebruik van de zuivere scoring regel; een expert krijgt zijn maximaal verwachte score dan en slechts dan als zijn schatting overeenkomt met zijn mening. Lees Roger M. Cooke om hier meer over te weten te komen.
Risico-acceptatie
Als laatste behandelt Fedde het thema risico-acceptatie. In het algemeen houden we niet van grote risico’s of van onbekende risico’s. Echter de omstandigheden en de positie zijn wel van belang. Als een mens in gevaar verkeert, is deze immers bereid om meer risico’s te nemen. Fedde neemt een aantal voorbeelden door om te laten zien hoe onze risico-perceptie kan veranderen in de loop van de tijd.
Zo is te zien dat het overlijden door ziekten sinds 1990 langzaam is gedaald; het overlijden door ongelukken is constant gebleven. Bestrijding van ziekten heeft hoge prioriteit in onze wereld. Dit geeft een indruk van wat acceptabel is; aan welke knoppen draaien we wel en aan welke niet of minder.
Verder was halverwege de negentiende eeuw een gemiddelde leeftijd van overlijden van 35 jaar nog heel gewoon. Door de veranderingen in de medische wetenschap is die gemiddelde leeftijd nu veel hoger en de perceptie van het risico daarmee ook. Ook een grafiek die de levensverwachting per leeftijd aangeeft, geeft boeiende resultaten. Blijkbaar mag een 70-plusser niet te veel meer verwachten, zo zou de grafiek gelezen kunnen worden.
Boeiend waren ook de statistieken over privé beleggen. Het verwachte rendement bij een laag risicoprofiel was hoger dan bij een hoog risicoprofiel. Een vreemd resultaat op het eerste gezicht, maar als ingezoomd wordt op de standaarddeviatie dan is te zien dat bij het hoge risicoprofiel de standaarddeviatie zo veel groter is. Met andere woorden als je aan de goeie kant van de Gauss-kromme zit, dan behaal je pas echte winsten. Een andere grafiek die getallen iets anders presenteert, laat dit verschil direct zien. Belangrijk is dus ook hoe getallen gepresenteerd worden; je zou eens tot een foute conclusie kunnen komen.
Tenslotte laat Fedde nog een statistiek uit de bouw zien, waarbij gemiddelde rendementen van 1 tot 3% worden getoond. Ook bij inzoomen op grote of middelgrote bedrijven is niet veel variatie te zien. Dit geeft ook een indicatie van wat soort risico men wil lopen.
Klik op bovenstaande afbeelding om de DACE Webinar terug te kijken.
Presentatie Fedde Tolman en Arno Willems