Dr. Adrian Copcea

Blog şi articole medicale

Testul cartonaşelor roşii: cum răspunde ştiinţa unei întrebări simple

Scrie un comentariu

Articolul de astăzi e despre un articol despre articole. Am citit azi poate cel mai interesant articol din ultimii ani, în “Advances in Methods in Practices in Psychological Science”. El se numeşte “Many Analysts, One Data Set: Making Transparent How Variations in Analytic Choices Affect Results” şi este semnat de o echipă condusă de R.Silberzahn (1). Am ajuns la el dintr-un articol ce îl comentează, doctorul Mandrola publicând pe Medscape expunerea: “The Year’s Most Important Study Adds to Uncertainty in Science” (2). Titlul articolului meu e: “Testul cartonaşelor roşii: cum răspunde ştiinţa unei întrebări simple” iar ceea ce scriu are ca scop expunerea unor detalii absolut fascinante (pentru mine, şi sper că nu sunt singurul) din culisele articolelor ştiinţifice.

INTRODUCERE

Încep cu un disclaimer. Am urmat din pasiune, în rezidenţiat, masterul de “Biostatistică şi informatică medicală” la UMF Cluj-Napoca, sub coordonarea profesorului Ţigan, în totalitatea modulelor lui şi “integralist” la examene, dar fără a susţine licenţa, din motive obiective (lipsind din ţară la momentul ei şi apoi regăsind la întoarcere un sistem schimbat pe model Bologna, ce nu mi-a mai permis susţinerea). Domeniul îmi e în continuare foarte drag, chiar şi fără diplomă, mai ales în epoca actuală în care a şti să citeşti un articol nu mai e un lucru la îndemâna oricui. Sau, vorba lui Mandrola în editorialul lui, “felul cum citeşte un medic nişte dovezi ştiinţifice diferă de felul cum le citeşte un palm reader”, adică un internaut, cum s-ar spune la noi. Fraza nu are rolul de aroganţă dar există o diferenţă, ne confruntăm cu ea zi de zi şi nu e valabil doar pentru medici. Simţim asta dacă deschidem Facebook sau net sau jurnale de ştiri şi aflăm că “un studiu afirmă că…” sau că “cercetătorii britanici…”, şi apoi citim originalul şi nu seamănă cu ştirea….Ştiţi. Problema e cum se citesc rezultatele acelor studii, ce semnifică ele de fapt, iar aici e o întreagă ştiinţă numită “lectură critică”. Ba chiar există, şi acesta e subiectul de azi, un parametru extrem de interesant chiar dincolo de ştiinţa de calitate şi în paralel cu lectura de calitate şi anume faptul că acelaşi set de date poate fi interpretat diferit în diferite analize. Asta într-o zonă serioasă a ştiinţei în care avem bună intenţie, metodologie serioasă, echipe serioase. Chiar şi la acest nivel există erori, subiectivism, metodologii diferite, extrapolări diferite, creativitate. Acesta e conţinutul ce urmează, cu detalii din cercetarea despre cercetări, pe care am găsit-o deosebit de interesantă.

CONŢINUT

O echipă de cercetători a reunit 29 de echipe de cercetători cuprinzând 61 de analişti, formulând o singură întrebare al cărui răspuns a trebuit să fie dat de fiecare dintre cele 29 de echipe şi, în final, de întreg grupul de cercetători, după o succesiune de paşi, pe parcursul unui an. Întrebarea a fost următoarea: “este mai probabil ca un arbitru să acorde cartonaş roşu la fotbal dacă jucătorul are tenul mai închis la culoare?”, în engleză în original: “whether soccer referees are more likely to give red cards to dark-skin-toned players than to light-skin-players”. Analiza a pornit de la o bază de date comună, în cadrul unui proiect “Open Science Framework” şi aparţine domeniului “crowdsourcing science” (=aceeaşi întrebare este adresată mai multor echipe de specialişti pentru răspuns). Ce s-a urmărit a fost cum anume obţin diferite echipe de oameni de ştiinţă şi cum formulează răspunsul la întrebare, cu numeroşi paşi intermediari în căutarea unei maxime acurateţi. Pe parcursul analizelor a existat inclusiv o evaluare a subiectivităţii echipelor, respectiv s-a notat ce au crezut echipele de cercetare la început, la final şi încă in două momente, practic la ce s-au aşteptat să descopere. Au existat analişti externi care au analizat echipele de cercetători şi o întâlnire intermediară de punere de acord, ceea ce se numeşte “peer analysis”, respectiv echipele au luat în considerare ce au făcut alte echipe şi şi-au actualizat metodologia (“peer review” este şi o tehnică în publicaţiile ştiinţifice prin care o lucrare e analizată de un specialist cu aceeaşi pregătire ca autorul lucrării – acest fapt diminuează şansa de eroare, întrucât un specialist într-un domeniu poate evalua mai bine ce spune un alt specialist). Concluzia cercetării a fost că din cele 29 de echipe de cercetare 20 au găsit o corelaţie pozitivă semnificativă (adică: da, arbitrii acordă mai degrabă cartonaş roşu jucătorilor cu tenul mai închis) în timp ce 9 echipe nu au găsit o corelaţie pozitivă semnificativă (adică nu au concluzionat că arbitrii acordă cartonaş roşu mai des jucătorilor de culoare, dar nici că îl acordă mai rar). Anticipez şi concluzia mea finală: o astfel de analiză nu arată că ştiinţa e inutilă ci, dimpotrivă, că e nevoie de o metodologie foarte bună şi, în practică, de mai multe analize de calitate pentru a formula anumite concluzii. E vorba de nivel de dovezi şi cât de convingătoare sunt ele prin prisma ştiinţelor statistice. Repet, e vorba de ştiinţa făcută cu bună intenţie şi specialişti de nivel înalt.

…şi, mai adânc…

Mai departe intru în “carnea” analizei tocmai pentru că o găsesc foarte interesantă. Mai precis. Revin la întrebarea de bază: acordă arbitrii cartonaşe roşii mai uşor jucătorilor de culoare? Cum dai un răspuns unei astfel de întrebări? În primul rând analizezi o bază de date cu cartonaşele roşii, aici incluzând în primul rând arbitrii care le-au dat şi jucătorii care le-au primit. Baza de date a fost furnizată în acest caz „de-a gata” echipelor, au fost analizaţi 2053 de jucători cu profil detaliat din campionatele Angliei, Germaniei, Franţei şi Spaniei în sezonul 2012-2013. Aceşti jucători s-au întâlnit pe teren cu arbitrii în diferite ocazii (adica au avut ocazia să ia cartonaş roşu de la ei), întâlnirile dintre un jucător anume şi un arbitru anume au fost în număr de 3147. în total a fost vorba despre 146.028 cupluri jucător-arbitru (!). Fotografiile a 1586 jucători au fost codate de doi analişti independenţi, care nu au cunoscut scopul cercetării, pe o scală de la 1 la 5 (de la „very light” la „very dark”), generând practic scala cu valorile 0, .25, .50, .75, 1. Apoi această analiză a trebuit completată de o serie de alte date care ar putea conta în acordarea cartonaşului roşu. Aceşti parametri, adică variabilele, au fost postul jucătorului (e mai probabil să primească un apărător cartonaş roşu decât un atacant?), liga în care jucau, vârsta, experienţa, greutatea, înălţimea, dar şi altele, de exemplu antecedentele personale de cartonaş galben sau cartonaş roşu. Toată etapa, prima din cele 7, e „construcţia setului de date”. Apoi încă alte stadii până la cel final de formulare a concluziilor. Un stadiu intermediar, spuneam, a fost cel de expunere a opiniei subiective, ba chiar s-a urmărit dacă echipele şi-au schimbat, în timp, părerea iniţială (şi da, la fel ca mine, echipele şi-au schimbat părerea pe măsură ce au aflat noi date…). Eu nu credeam că se va găsi vreo corelaţie.

Faza analizei statistice e de fapt punctul cheie. Având aceleaşi date diferitele echipe au practicat analiza pe care au considerat-o cea mai bună, incluzând în analiză datele pe care le-au considerat cele mai relevante în direcţia formulării unui răspuns. Aici au intervenit părţile subiective – ce metodă statistică, ce covariabile s-au inclus, ce informaţii s-au exclus spre a nu vicia rezultatele. O centralizare a analizelor într-o sesiune de „round-robin peer evaluation of overall analysis quality” a fost un pas intermediar de „peer review” cu scopul de îmbunătăţire şi de o a doua analiză. Interesant de ştiut şi o a doua concluzie -devoalată prematur de mine aici- echipa care a supervizat tot proiectul a analizat şi structura echipelor din punct de vedere al compoziţiei în doctorate, masterate, funcţii de profesor universitar, experienţă şi a conchis că structura pe aceste criterii nu a influenţat rezultatele finale. Au existat, pe parcurs, şi reanalize, de exemplu s-a constatat că dacă incluzi echipa şi liga în analiză, drept covariabile, rezultatele devin nesemnificative deşi fără aceste criterii ar fi fost semnificative. Practic pe tot parcursul proiectului s-a încercat identificarea unor posibile erori şi ameliorări ale analizelor tocmai în ideea de a obţine o concluzie cât mai corectă ştiinţific, printr-o rafinare a metodei, ceea ce frumos definesc autorii drept: „more granular peer assessments of analysis quality”.

Partea tehnică merită menţionată măcar în rezumat. O să o fac într-o pondere care sper să nu facă articolul antipatic. Cel mai important aspect e rezultatul final cu graficul de concluzie al cercetării, pe care îl reproduc aici ciuntit şi forte urât cenzurat cu o mâzgâleală albastră pe telefon şi fără acordul autorilor (ceva urât de obicei dacă nu e dublat de bune intenţii şi de faptul că graficul este, deja, accesibil în forma originală pe Internet…iar forma mea, ca să nu mai spun locul publicării, un blog discret, cu greu ar putea supăra autorii…).

Grafic.jpg
Unele echipe au utilizat regresii lineare (corelaţii Spearman, regresie lineară multiplă, regresie WLS…), altele regresii logistice (regresia bayesiană, modelul ierarhic Bayes, regresia multi-nivel binomială etc.), altele regresii Poisson. Nu pentru a-mi speria cititorii le-am scris (şi nici n-aş şti să le explic spontan decât foarte vag) ci pentru a ilustra diversitatea abordărilor. În final, însă, concluzia trebuie să aibă un Odds-Ratio, un interval de confidenţă şi un „p”. Rezultatul final median pentru OR e de 1.31, cu valori de la 0.89 la 2.93. Cum spuneam pe parcurs, 20 din echipe au găsit corelaţie pozitivă semnificativă statistic, cu p<0.05. Să zicem cu un OR în jur de 1.2 (aproximativ, dar pentru explicaţii). Tradus, şi aici îmi asum pentru cititorii mei, un astfel de rezultat ar putea fi scris în cuvintele: „probabilitatea ca un arbitru să acorde cartonaş roşu este cu 20% mai mare dacă jucătorul este de culoare”. Dar autorii nu au formulat aşa superficial ci, tocmai, s-au aşezat la masă (de fapt la un Google Doc comun) să redacteze corect şi absolut ştiinţific rezultatul cercetării. Fraza asupra căreia a existat cel mai „larg consens”, adică 78%, a fost; „da, acordarea de cartonaşe roşii se corelează pozitiv cu tonuri mai închise ale pielii dar mecanismul e necunoscut”. Asupra altor concluzii „voturile” au fost mai puţine, dar şi ele pot fi extrase din aceeaşi cercetare: „da, e o posibilă legătură între acordarea cartonaşelor şi subiectivismul arbitrului” („referee bias”). Ba chiar o concluzie care, poate, ne-ar fi venit în minte chiar înaintea tonului pielii: „corelaţia pozitivă ar putea fi datorată unor alţi parametri, neincluşi în analiză, de tipul comportamentului jucătorului” (dooh, ar zice nişte amici de-ai mei…)…dar nu aceasta era întrebarea precisă supusă cercetării. Pentru „mean agreement” s-a folosit o scala de la 1 la 7 (adică de la „strongly disagree” la „strongly agree”), iar rezultatul cu „positive relationship but the cause is unknown” a avut scor 5.32 cu deviaţie standard de 1.47. În orice caz, cercetarea aduce, dincolo de toate aceste date aparent alambicate, şi un răspuns suficient de clar: nicio analiză nu a găsit corelaţii negative semnificative. Adică, tradus de mine grosier: „nu există nici un indiciu în cercetare că tonurile mai deschise ale ar atrage mai multe cartonaşe roşii”. Eu reţin bine concluzia asta.

CONCLUZII

O foarte frumoasă concluzie e că (citez) „nesiguranţa în interpretarea rezultatelor nu e doar o caracteristică a statisticii ci un rezultat al diversităţii deciziilor pe care cercetătorii le au de luat când fac o analiză, ceea ce nu înseamnă că subiectivismul echivalează cu îndepărtarea de realitate”. Simplific eu spunând: da, există parametrul acesta de eroare, dar la un nivel înalt, nu la un nivel la care să respingem analiza ştiinţifică. La o adică: ce să punem în loc?…

Şi iată ce am ales şi eu să extrag (pentru că se putea extrage orice şi oricum…) pe tema „crowdsourcing science” şi cum se poate răspunde ştiinţific la o întrebare simplă. O deosebită plăcere intelectuală pentru mine parcurgerea acestui articol, sper ca măcar câţiva dintre Dumneavoastră să mi-o împărtăşiţi. E în integralitatea lui în referinţa 1.

Mesajul de luat acasă ar fi că statistica are şi ea rezevele ei dar fără statistică în ştiinţa de astăzi nu poţi formula concluzii de încredere. Suntem, vrem nu vrem, într-o etapă statistică a ştiinţelor, inclusiv şi în mod special a medicinei. Pe de o parte e o cerinţă pentru orice dorim să fie „bazat pe dovezi”, pe de altă parte spun unii că există „minciuni, minciuni mari şi statistică”. Depinde mult în cine avem încredere şi cum ştim să citim.

Autor: Dr. Adrian Copcea

Publicat: 5 noiembrie 2018.
@adriancopcea.com

Referinţe:

  1. R. Silberzahn, E. L. Uhlmann, D. P. Martin. Many Analysts, One Data Set: Making Transparent How Variations in Analytic Choices Affect Results.

 

2. Perspective > Medscape > Mandrola on Medscape. COMMENTARY.

The Year’s Most Important Study Adds to Uncertainty in Science

Autor: Copcea Adrian

Medic primar diabet, nutritie, boli metabolice. Director medical Centrul Medical Asteco, Cluj-Napoca.

Comentarii la articol: (pot fi publicate anonim, dar necesita email, care nu va fi publicat)

Completează mai jos detaliile tale sau dă clic pe un icon pentru a te autentifica:

Logo WordPress.com

Comentezi folosind contul tău WordPress.com. Dezautentificare /  Schimbă )

Fotografie Google+

Comentezi folosind contul tău Google+. Dezautentificare /  Schimbă )

Poză Twitter

Comentezi folosind contul tău Twitter. Dezautentificare /  Schimbă )

Fotografie Facebook

Comentezi folosind contul tău Facebook. Dezautentificare /  Schimbă )

Conectare la %s