Statistiche gare Bebras italiano 2020¶

from IPython.display import HTML

HTML('''<script>
code_show=true; 
function code_toggle() {
 if (code_show){
 $('div.input').hide();
 } else {
 $('div.input').show();
 }
 code_show = !code_show
} 
$( document ).ready(code_toggle);
</script>
<input type="button" value="Clicca per vedere/nascondere il codice Python" onclick="code_toggle()">''')

import warnings
#warnings.filterwarnings('once')
warnings.filterwarnings('ignore')

Distribuzione dei punteggi¶

import pandas as pd
import json, hashlib, urllib, os.path

pd.options.display.max_rows = None
pd.options.display.max_columns = None

CATS = ('kilo', 'mega', 'giga', 'tera', 'peta')

with open('secret.key') as k:
    key = k.readline().strip()

for i, k in enumerate(CATS):
    if not os.path.exists("results-{}.json".format(k)):
        r = urllib.request.urlopen("https://bebras.it/api?key={}&view=exams&edition=bebras_2020&events=0&test={}".format(key,92+i))
        with open("results-{}.json".format(k), "w") as tw:
            tw.writelines(r.read().decode('utf-8'))

score = []
for k in CATS:
    with open("results-{}.json".format(k), "r") as t:
        j = json.load(t)
        score += j['exams']

scoredf = pd.DataFrame(score)

# L'orario va corretto per il fuso orario

scoredf['server_start'] = pd.to_datetime(scoredf['exam_date'].astype('int64') + 60*60, unit='s')
scoredf['orainizio'] = pd.np.floor((scoredf['exam_date'].astype('int64') + 60*60) / (45*60)) # ore da 45', il tempo di gara
scoredf['punteggio'] = pd.to_numeric(scoredf['score'])
scoredf['punteggio_norm'] = scoredf['punteggio'].map(lambda x: x if x >= 0 else 0)
scoredf['anonid'] = scoredf['team_id'].map(lambda x: hashlib.md5(str(x).encode('utf8')).hexdigest())
scoredf['categoria'] = scoredf['category'].str.lower().astype(pd.api.types.CategoricalDtype(categories = CATS, ordered=True))

valid = scoredf[scoredf['exam_valid_score'] == 1]
valid.to_csv('anonris.csv', columns=['anonid', 'categoria', 'orainizio', 'punteggio', 'punteggio_norm', 'time'])

from IPython.display import display, Markdown

txt = '''<table>
<caption>Squadre partecipanti al Bebras 2020/21 con risultati correttamente registrati</caption>
<thead>
  <tr><th>Categoria</th>
  <th>squadre</th>
  <th> min </th>
  <th> max </th>
  <th> media </th>
  <th> std.dev. </th>
  <th>I quartile </th>
  <th>mediana </th>
  <th>III quartile</th>
  <th>Squadre al minimo</th>
  <th>Squadre al massimo</th>
</tr>
<tbody>
'''
for k in valid['categoria'].unique():
    s = valid[valid['categoria'] == k]['punteggio_norm'].describe()
    top = valid[(valid['categoria'] == k) & (valid['punteggio_norm'] == int(s['max']))]
    bottom = valid[(valid['categoria'] == k) & (valid['punteggio_norm'] == int(s['min']))]
    txt += "<tr><th>{}</th><td>{}</td><td>{}</td><td>{}</td><td>{:.1f}</td>\
<td>{:3.1f}</td><td>{}</td><td>{}</td><td>{}</td><td>{:.1f}%</td><td>{:.1f}%</td></tr>".format(k, 
                                                              int(s['count']),
                                                              int(s['min']),
                                                              int(s['max']),
                                                              float(s['mean']),
                                                              float(s['std']),
                                                              int(s['25%']), 
                                                              int(s['50%']), 
                                                              int(s['75%']),
                                                              100*len(bottom)/float(s['count']),
                                                              100*len(top)/float(s['count']))
txt += '<tfoot><tr><th>Totale</th><td>{}</td></tr>'.format(valid['punteggio_norm'].count())
txt += '</table>'
display(Markdown(txt))

%matplotlib inline
import matplotlib.pyplot as plt
plt.style.use('ggplot')

histograms = valid['punteggio_norm'].hist(by=valid['categoria'], bins=24, figsize=(10,8))

Percentili per punteggio¶

for k in valid['categoria'].unique():
    tot = float(valid[(valid['categoria'] == k)]['punteggio'].count())
    top = int(valid[(valid['categoria'] == k)]['punteggio'].max())
    pp = [100 * valid[(valid['categoria'] == k) & (valid['punteggio'] < i)]['punteggio'].count()/tot for i in range(1,top+1)]
    txt = '''<table>
    <caption>Percentili per la categoria {} (che percentuale di squadre si supera con un dato punteggio)</caption>
    <thead>'''.format(k)
    txt += ''.join(['<td>{}</td>'.format(i) for i in range(1,top+1)])
    txt += '<tbody>'
    txt += ''.join(['<td>{:.1f}</td>'.format(f) for f in pp])
    txt += '</table>'
    display(Markdown(txt))

Analisi delle risposte¶

rr = []
errors = 0
for r in valid.itertuples():
    for q in r.exam_data['questions']:
        try:
            t = dict((k, q[k]) for k in ('q_id','q_class','q_score','q_scoreMax','q_time'))
            t['anonid'] = r.anonid
            rr.append(t)
        except Exception as e:
            #print(q, e)
            errors += 1
print(errors)

1648

quiz = pd.DataFrame(rr)

MAPBEBRAS = dict((x.split('_')[-1], x.split('_')[1]) for x in list(quiz['q_id'].unique()))

MAPNAMES = {
    'Q01': 'Il questionario',
    'Q02': 'Impronte',
    'Q03': 'La password',
    'Q04': 'I binari del treno',
    'Q05': 'Invito segreto',
    'Q06': 'Prenotazione ferroviaria',
    'Q07': 'Teatro',
    'Q08': 'Una struttura ad albero',
    'Q09': 'Libri in biblioteca',
    'Q10': 'Connetti i punti',
    'Q11': 'Salti',
    'Q12': 'Stelle e lune',
    'Q13': "L'orologio di un tranquillo paese medievale",
    'Q14': "L'alpinista",
    'Q15': 'Le canzoni di Lisa',
    'Q16': 'Riordinatore',
    'Q17': 'Città e autostrade',
    'Q18': 'Visita al museo',
    'Q19': 'Apparecchio magico',
    'Q20': 'Lucine intermittenti',
    'Q21': 'Creazione di numeri',
    'Q22': 'Incontri',
    'Q23': 'Mappa del bosco',
    'Q24': 'Strumento musicale',
    'Q25': 'LT-05',
    'Q26': 'PT-02c',
    'Q27': 'Unità di produzione',
    'Q28': 'Gemme',
    'Q29': 'Reversibilità',
    'Q30': 'Biglie',
}

quiz = quiz.rename(columns={'q_time': 'time', 'q_score': 'score', 'q_scoreMax': 'score_max', 'q_class': 'cat'})

quiz['nome'] = quiz['q_id'].str.extract('[0-9]+_(.+)', expand=False)
quiz['edizione'] = quiz['q_id'].str.extract('([0-9]+)_.+', expand=False)
quiz['completo'] = quiz['score'] == quiz['score_max']
quiz['parziale'] = (quiz['score'] > 0) & (quiz['score'] != quiz['score_max'])
quiz['penalizzato'] = quiz['score'] < 0
quiz['voto'] = quiz['score'] / quiz['score_max'].astype('float64')
quiz['minuti'] = quiz['time'].map(lambda x: float(x)/60. if float(x) >= 0 and float(x) <= 45*60 else pd.np.NaN)

#quiz.to_csv('quiz.csv', columns=['anonid', 'cat', 'edizione', 'nome', 'bebras', 'score', 'score_max', 'time'])

vquiz = pd.merge(valid[['anonid', 'categoria', 'punteggio','punteggio_norm','orainizio','teacher_id','school_cap']], quiz, on='anonid')

plt.figure(figsize=(16,20))

def bname(n):
    if n in MAPBEBRAS and n in MAPNAMES:
        return '{}'.format(MAPNAMES[n])
    else:
        return n

for j, k in enumerate(valid['categoria'].unique()):
    plt.subplot(5,1, j+1)
    plt.ylim(0,1.2)
    m = vquiz[vquiz['categoria'] == k].groupby('nome', 
                                             sort=False)[['completo','voto', 'parziale', 'penalizzato', 'minuti','score_max']].mean()
    m['vparziale'] = m['voto'] - m['completo']

    c = plt.bar(pd.np.arange(m.index.size), m['completo'], color='blue')
    p = plt.bar(pd.np.arange(m.index.size), m['parziale'], bottom=m['completo'], color='lightblue')   
    plt.xticks(pd.np.arange(m.index.size), map(bname, m.index.tolist()), rotation=90)
    plt.ylim([0,1])
    plt.yticks(pd.np.arange(0,1.2,.2), ['{:.0f}%'.format(100*y) for y in pd.np.arange(0,1.2,.2)])
    for i, y in enumerate(m['voto'].tolist()):
        plt.annotate(s='{:.0f}\''.format(m['minuti'].iloc[i]), xy=(i, .75*m['completo'].iloc[i]), color='white')
        plt.annotate(s='{:.0f}'.format(m['score_max'].iloc[i]), xy=(i-.15, .02), color='yellow', fontsize='x-large')
    plt.legend((c[0],p[0]), ('completo','parziale'), loc=(.92,.6))
    plt.title('{}: tassi di soluzione (il numero in alto indica i minuti spesi in media sul quesito, \
il numero in basso il punteggio massimo ottenibile)'.format(k))

plt.tight_layout()
plt.savefig('tassisol.png')

plt.figure(figsize=(16,20))

for j, k in enumerate(valid['categoria'].unique()):
    plt.subplot(5,1, j+1)
    plt.ylim(0,1.2)
    m = vquiz[vquiz['categoria'] == k].groupby('nome', 
                                             sort=False)[['completo','voto', 'parziale', 'penalizzato', 'minuti','score_max']].mean()
    m['vparziale'] = m['voto'] - m['completo']

    c = plt.bar(pd.np.arange(m.index.size), m['voto'], color='green')
    z = plt.bar(pd.np.arange(m.index.size), -m['penalizzato'], color='red')
    plt.ylim([-1,1])
    plt.yticks(pd.np.arange(-1,1.2,.2), ['{:.0f}%'.format(100*abs(y)) for y in pd.np.arange(-1,1.2,.2)])
 
    plt.xticks(pd.np.arange(m.index.size), map(bname, m.index.tolist()), rotation=90)
    for i, y in enumerate(m['voto'].tolist()):
        plt.annotate(s='{:.0f}'.format(m['score_max'].iloc[i]), xy=(i, -.8), color='blue')
    
    plt.legend((c[0],z[0]), ('punteggio','penalità'), loc=(0.91,.725))
    plt.title('{}: percentuale di punteggio attribuito in media, in rosso la percentuale di penalizzati (il numero in basso è il punteggio massimo)'.format(k))

plt.tight_layout()
plt.savefig('punti.png')

Analisi delle squadre¶

members = []
for r in valid.itertuples():
    if r.team_composition and 'members' in r.team_composition:
        for m in r.team_composition['members']:
            m['categoria'] = r.category.lower()
            m['team_id'] = r.team_id
            members.append(m)

pupils = pd.DataFrame(members)
pupils['genere'] = pupils['sex'].map(lambda x: x if x != '-' else pd.np.NaN)
pupils['categoria'] = pupils['categoria'].astype(pd.api.types.CategoricalDtype(categories = CATS, ordered=True))

gender = pupils[pupils['genere'].notnull()].groupby(['categoria', 'genere']).count()
txt = '''<table><caption>Studenti partecipanti al Bebras 2020 con risultati validi 
(i dati dipendono dalla corretta compilazione dei profili delle squadre)</caption>
<thead>
  <tr><th>Categoria</th>
  <th>studenti</th>
  <th>femmine</th>
  <th>maschi</th>
  <th>squadre con dati mancanti</th>
  <th>media componenti per squadra</th>
  </tr>
<tbody>
'''
notempty = pupils[pupils['genere'].notnull()].groupby('categoria')['team_id'].nunique()
empty = pupils[pupils['genere'].isnull()].groupby('categoria')['team_id'].nunique()

totf = 0
totm = 0
for k in pupils['categoria'].unique():
    f = gender.loc[(k,'f')]['class']
    totf += f
    m = gender.loc[(k,'m')]['class']
    totm += m
    
    txt += '<tr><th>{}</th><td>{}</td><td>{} ({:.1f}%)</td><td>{} ({:.1f}%)</td><td>{}</td><td>{:.2f}</td></tr>'.format(
        k, f+m, f, 100*float(f)/float(f+m), m, 100*float(m)/float(f+m), empty[k], float(f+m) / float(notempty[k])
    )
txt += '<tr><th>Totale:</th><td>{}</td><td>{} ({:.1f}%)</td><td>{} ({:.1f}%)</td></tr>'.format(totf+totm, 
                                                                           totf, 100*float(totf)/float(totf+totm), 
                                                                           totm, 100*float(totm)/float(totf+totm))    
txt += '</table>'
display(Markdown(txt))

I nomi delle squadre più comuni¶

import re
from collections import Counter

notwanted = re.compile('^0[0-9]+$|^[0-9][a-zA-Z0-9_]|^the$|^and$|^classe$|^squadra$|^gruppo$|^team$|^i+$|^iv$|^[a-zA-Z0-9_]$|^prima$|^seconda$\
|^terza$|^quarta$|^quinta$|^$')

names = scoredf['team_name'].str.strip().str.lower().tolist()
oknames = filter(lambda w: not notwanted.match(w), names)

c = Counter(oknames)

c.most_common(30)

[('giulia', 17),
 ('matteo', 16),
 ('martina', 15),
 ('lorenzo', 14),
 ('sofia', 13),
 ('riccardo', 13),
 ('andrea', 12),
 ('gabriele', 11),
 ('sara', 11),
 ('emma', 11),
 ('anna', 11),
 ('davide', 10),
 ('aurora', 10),
 ('marco', 10),
 ('luca', 10),
 ('fenici', 9),
 ('francesco', 9),
 ('draghi', 9),
 ('viola', 9),
 ('tommaso', 8),
 ('jacopo', 8),
 ('alessandro', 8),
 ('giorgia', 8),
 ('daniele', 8),
 ('filippo', 7),
 ('pietro', 7),
 ('simone', 7),
 ('federico', 7),
 ('rebecca', 7),
 ('leonardo', 7)]

plt.axis('off')
os = scoredf['operating_system'].value_counts().plot.pie(autopct='%.1f', radius=1.22,
                                                    explode=[.06*i*i for i in range(len(scoredf['operating_system'].unique()))],
                                                    figsize=(5,5), title='Sistemi operativi utilizzati')

1	2	3	4	5	6	7	8	9	10	11	12	13	14	15	16	17	18	19	20	21	22	23	24	25	26	27	28	29	30	31	32	33	34	35	36	37	38	39	40	41	42	43	44	45	46	47	48
2.6	3.8	4.9	5.9	8.3	9.4	12.1	13.6	15.5	18.2	20.5	22.7	26.0	28.5	31.5	34.1	36.5	39.8	42.5	45.7	48.8	50.9	54.2	56.3	59.5	62.1	64.8	67.6	69.6	72.0	73.7	76.2	78.0	79.8	82.2	84.0	85.0	87.0	89.0	89.7	92.4	93.0	94.6	94.8	97.7	97.9	98.8	98.8

1	2	3	4	5	6	7	8	9	10	11	12	13	14	15	16	17	18	19	20	21	22	23	24	25	26	27	28	29	30	31	32	33	34	35	36	37	38	39	40	41	42	43	44	45	46	47	48
2.6	3.5	4.4	4.7	5.8	6.7	7.6	8.7	10.1	12.0	12.9	14.9	17.0	19.3	21.0	23.1	26.2	28.4	31.6	33.9	36.9	39.6	42.2	45.9	49.3	52.2	55.0	58.0	61.4	65.1	67.8	70.5	73.6	75.6	79.3	81.6	84.2	85.3	88.2	89.3	92.6	93.9	95.6	95.9	96.8	97.0	98.6	98.8

1	2	3	4	5	6	7	8	9	10	11	12	13	14	15	16	17	18	19	20	21	22	23	24	25	26	27	28	29	30	31	32	33	34	35	36	37	38	39	40	41	42	43	44	45	46	47	48
2.2	2.6	3.5	4.2	4.9	7.0	8.1	10.3	12.3	14.1	17.5	20.6	23.2	26.5	30.2	33.7	37.9	41.1	44.2	50.0	53.4	58.4	61.4	66.4	67.7	74.4	76.6	79.3	81.0	84.8	86.4	89.0	91.5	92.2	93.2	95.5	96.4	96.7	97.7	98.0	98.0	98.7	99.3	99.3	99.5	99.5	99.6	99.6

1	2	3	4	5	6	7	8	9	10	11	12	13	14	15	16	17	18	19	20	21	22	23	24	25	26	27	28	29	30	31	32	33	34	35	36	37	38	39	40	41	42	43	44	45	46	47	48
2.1	2.5	4.4	5.6	7.2	8.7	12.7	14.5	18.1	21.4	24.4	27.8	31.4	34.4	37.8	42.0	44.7	47.8	51.4	55.8	58.6	62.8	64.7	67.9	70.0	73.4	75.4	79.1	80.6	83.6	85.1	87.6	89.0	90.8	92.2	93.4	94.4	96.0	96.8	97.2	97.7	98.4	98.9	99.3	99.5	99.5	99.6	99.6

1	2	3	4	5	6	7	8	9	10	11	12	13	14	15	16	17	18	19	20	21	22	23	24	25	26	27	28	29	30	31	32	33	34	35	36	37	38	39	40	41	42	43	44	45	46	47	48
4.2	5.3	6.7	9.4	11.1	13.8	16.1	19.6	22.3	25.7	29.6	33.5	37.2	41.9	45.7	49.4	54.0	58.0	62.3	66.4	68.9	71.6	74.1	77.5	79.9	82.1	85.0	86.0	87.9	90.8	91.5	93.2	94.4	95.0	95.3	95.9	96.9	97.4	98.3	98.7	98.9	99.2	99.5	99.5	99.7	99.9	99.9	99.9

Categoria	squadre	min	max	media	std.dev.	I quartile	mediana	III quartile	Squadre al minimo	Squadre al massimo
kilo	3120	0	48	21.8	12.2	12	21	31	2.6%	1.2%
mega	6573	0	48	24.4	11.6	16	25	33	2.6%	1.2%
giga	3321	0	48	19.7	9.4	13	20	26	2.2%	0.4%
tera	3325	0	48	18.7	10.3	11	18	26	2.1%	0.4%
peta	2363	0	48	16.3	9.6	9	16	23	4.2%	0.1%
Totale	18702

Categoria	studenti	femmine	maschi	squadre con dati mancanti	media componenti per squadra
kilo	2025	955 (47.2%)	1070 (52.8%)	497	0.80
mega	4025	1889 (46.9%)	2136 (53.1%)	887	0.82
giga	2031	987 (48.6%)	1044 (51.4%)	408	0.83
tera	2441	752 (30.8%)	1689 (69.2%)	360	0.87
peta	1678	411 (24.5%)	1267 (75.5%)	167	0.91
Totale:	12200	4994 (40.9%)	7206 (59.1%)