Statistiche gare Bebras italiano 2018¶

from IPython.display import HTML

HTML('''<script>
code_show=true; 
function code_toggle() {
 if (code_show){
 $('div.input').hide();
 } else {
 $('div.input').show();
 }
 code_show = !code_show
} 
$( document ).ready(code_toggle);
</script>
<input type="button" value="Clicca per vedere/nascondere il codice Python" onclick="code_toggle()">''')

import warnings
#warnings.filterwarnings('once')
warnings.filterwarnings('ignore')

Distribuzione dei punteggi¶

import pandas as pd
import json, hashlib, urllib, os.path

pd.options.display.max_rows = None
pd.options.display.max_columns = None

CATS = ('kilo', 'mega', 'giga', 'tera', 'peta')

with open('secret.key') as k:
    key = k.readline().strip()

for i, k in enumerate(CATS):
    if not os.path.exists("results-{}.json".format(k)):
        r = urllib.request.urlopen("https://bebras.it/api?key={}&view=exams&edition=bebras_2018&events=0&test={}".format(key,71+i))
        with open("results-{}.json".format(k), "w") as tw:
            tw.writelines(r.read().decode('utf-8'))

score = []
for k in CATS:
    with open("results-{}.json".format(k), "r") as t:
        j = json.load(t)
        score += j['exams']

scoredf = pd.DataFrame(score)

# L'orario va corretto per il fuso orario

scoredf['server_start'] = pd.to_datetime(scoredf['exam_date'].astype('int64') + 60*60, unit='s')
scoredf['orainizio'] = pd.np.floor((scoredf['exam_date'].astype('int64') + 60*60) / (45*60)) # ore da 45', il tempo di gara
scoredf['punteggio'] = pd.to_numeric(scoredf['score'])
scoredf['punteggio_norm'] = scoredf['punteggio'].map(lambda x: x if x >= 0 else 0)
scoredf['anonid'] = scoredf['team_id'].map(lambda x: hashlib.md5(str(x).encode('utf8')).hexdigest())
scoredf['categoria'] = scoredf['category'].str.lower().astype(pd.api.types.CategoricalDtype(categories = CATS, ordered=True))

valid = scoredf[scoredf['exam_valid_score'] == 1]
valid.to_csv('anonris.csv', columns=['anonid', 'categoria', 'orainizio', 'punteggio', 'punteggio_norm', 'time'])

from IPython.display import display, Markdown

txt = '''<table>
<caption>Squadre partecipanti al Bebras 2018/19 con risultati validi, 
cioè ritenuti confrontabili con gli altri perché privi di anomalie tecniche o organizzative</caption>
<thead>
  <tr><th>Categoria</th>
  <th>squadre</th>
  <th> min </th>
  <th> max </th>
  <th> media </th>
  <th> std.dev. </th>
  <th>I quartile </th>
  <th>mediana </th>
  <th>III quartile</th>
  <th>Squadre al minimo</th>
  <th>Squadre al massimo</th>
</tr>
<tbody>
'''
for k in valid['categoria'].unique():
    s = valid[valid['categoria'] == k]['punteggio_norm'].describe()
    top = valid[(valid['categoria'] == k) & (valid['punteggio_norm'] == int(s['max']))]
    bottom = valid[(valid['categoria'] == k) & (valid['punteggio_norm'] == int(s['min']))]
    txt += "<tr><th>{}</th><td>{}</td><td>{}</td><td>{}</td><td>{:.1f}</td>\
<td>{:3.1f}</td><td>{}</td><td>{}</td><td>{}</td><td>{:.1f}%</td><td>{:.1f}%</td></tr>".format(k, 
                                                              int(s['count']),
                                                              int(s['min']),
                                                              int(s['max']),
                                                              float(s['mean']),
                                                              float(s['std']),
                                                              int(s['25%']), 
                                                              int(s['50%']), 
                                                              int(s['75%']),
                                                              100*len(bottom)/float(s['count']),
                                                              100*len(top)/float(s['count']))
txt += '<tfoot><tr><th>Totale</th><td>{}</td></tr>'.format(valid['punteggio_norm'].count())
txt += '</table>'
display(Markdown(txt))

%matplotlib inline
import matplotlib.pyplot as plt
plt.style.use('ggplot')

histograms = valid['punteggio_norm'].hist(by=valid['categoria'], bins=24, figsize=(10,8))

Percentili per punteggio¶

for k in valid['categoria'].unique():
    tot = float(valid[(valid['categoria'] == k)]['punteggio'].count())
    top = int(valid[(valid['categoria'] == k)]['punteggio'].max())
    pp = [100 * valid[(valid['categoria'] == k) & (valid['punteggio'] < i)]['punteggio'].count()/tot for i in range(1,top+1)]
    txt = '''<table>
    <caption>Percentili per la categoria {} (che percentuale di squadre si supera con un dato punteggio)</caption>
    <thead>'''.format(k)
    txt += ''.join(['<td>{}</td>'.format(i) for i in range(1,top+1)])
    txt += '<tbody>'
    txt += ''.join(['<td>{:.1f}</td>'.format(f) for f in pp])
    txt += '</table>'
    display(Markdown(txt))

Analisi delle risposte¶

rr = []
for r in valid.itertuples():
    for q in r.exam_data['questions']:
        t = dict((k, q[k]) for k in ('q_id','q_class','q_score','q_scoreMax','q_time'))
        t['anonid'] = r.anonid
        rr.append(t)

quiz = pd.DataFrame(rr)

MAPBEBRAS = dict((x.split('_')[-1], x.split('_')[1]) for x in list(quiz['q_id'].unique()))

MAPNAMES = {
    'Q01': 'Il cameriere',
    'Q02': 'Birilli',
    'Q03': 'Un mucchio di vestiti',
    'Q04': 'Il formicaio',
    'Q05': 'Il ballo di Cenerentola',
    'Q06': 'Mazzi di fiori',
    'Q07': 'Raccogliendo caramelle',
    'Q08': 'Disegno coi tronchi',
    'Q09': 'Le cascate',
    'Q10': 'Le strade',
    'Q11': 'Camere condivise',
    'Q12': 'Il pianeta B',
    'Q13': 'Mattoncini colorati',
    'Q14': 'I salti',
    'Q15': 'Codice Gamma',
    'Q16': 'La festa di compleanno',
    'Q17': 'Il mago alchimista',
    'Q18': "L'alieno",
    'Q19': 'Isole e ponti',
    'Q20': 'Segnali',
    'Q21': 'Svegliarsi tardi',
    'Q22': 'Un programma sintetico',
    'Q23': 'Gli interruttori',
    'Q24': 'Righe e colonne',
    'Q25': 'Segreti segreti',
    'Q26': 'Il pianta-alberi',
    'Q27': "L'idraulico",
    'Q28': 'Un gioco con le carte',
    'Q29': 'I regali',
    'Q30': 'Un programma sbagliato',
    'Q31': 'I gelati',
    'Q32': 'Spazzini robot',
    'Q33': 'La giornata del capitano',
    'Q34': 'La mappa del tesoro',
    'Q35': 'Il pavimento',
}

quiz = quiz.rename(columns={'q_time': 'time', 'q_score': 'score', 'q_scoreMax': 'score_max', 'q_class': 'cat'})

quiz['nome'] = quiz['q_id'].str.extract('[0-9]+_(.+)', expand=False)
quiz['edizione'] = quiz['q_id'].str.extract('([0-9]+)_.+', expand=False)
quiz['completo'] = quiz['score'] == quiz['score_max']
quiz['parziale'] = (quiz['score'] > 0) & (quiz['score'] != quiz['score_max'])
quiz['penalizzato'] = quiz['score'] < 0
quiz['voto'] = quiz['score'] / quiz['score_max'].astype('float64')
quiz['minuti'] = quiz['time'].map(lambda x: float(x)/60. if float(x) >= 0 and float(x) <= 45*60 else pd.np.NaN)

quiz.to_csv('quiz.csv', columns=['anonid', 'cat', 'edizione', 'nome', 'bebras', 'score', 'score_max', 'time'])

vquiz = pd.merge(valid[['anonid', 'categoria', 'punteggio','punteggio_norm','orainizio','teacher_id','school_cap']], quiz, on='anonid')

plt.figure(figsize=(16,20))

def bname(n):
    if n in MAPBEBRAS and n in MAPNAMES:
        return '{}'.format(MAPNAMES[n])
    else:
        return n

for j, k in enumerate(valid['categoria'].unique()):
    plt.subplot(5,1, j+1)
    plt.ylim(0,1.2)
    m = vquiz[vquiz['categoria'] == k].groupby('nome', 
                                             sort=False)[['completo','voto', 'parziale', 'penalizzato', 'minuti','score_max']].mean()
    m['vparziale'] = m['voto'] - m['completo']

    c = plt.bar(pd.np.arange(m.index.size), m['completo'], color='blue')
    p = plt.bar(pd.np.arange(m.index.size), m['parziale'], bottom=m['completo'], color='lightblue')   
    plt.xticks(pd.np.arange(m.index.size), map(bname, m.index.tolist()), rotation=90)
    plt.ylim([0,1])
    plt.yticks(pd.np.arange(0,1.2,.2), ['{:.0f}%'.format(100*y) for y in pd.np.arange(0,1.2,.2)])
    for i, y in enumerate(m['voto'].tolist()):
        plt.annotate(s='{:.0f}\''.format(m['minuti'].iloc[i]), xy=(i, .9))
        plt.annotate(s='{}'.format(m['score_max'].iloc[i]), xy=(i, .02), color='yellow', fontsize='x-large')
    plt.legend((c[0],p[0]), ('completo','parziale'), loc=(.92,.6))
    plt.title('{}: tassi di soluzione (il numero in alto indica i minuti spesi in media sul quesito, \
il numero in basso il punteggio massimo ottenibile)'.format(k))

plt.tight_layout()

plt.figure(figsize=(16,20))

for j, k in enumerate(valid['categoria'].unique()):
    plt.subplot(5,1, j+1)
    plt.ylim(0,1.2)
    m = vquiz[vquiz['categoria'] == k].groupby('nome', 
                                             sort=False)[['completo','voto', 'parziale', 'penalizzato', 'minuti','score_max']].mean()
    m['vparziale'] = m['voto'] - m['completo']

    c = plt.bar(pd.np.arange(m.index.size), m['voto'], color='green')
    z = plt.bar(pd.np.arange(m.index.size), -m['penalizzato'], color='red')
    plt.ylim([-1,1])
    plt.yticks(pd.np.arange(-1,1.2,.2), ['{:.0f}%'.format(100*abs(y)) for y in pd.np.arange(-1,1.2,.2)])
 
    plt.xticks(pd.np.arange(m.index.size), map(bname, m.index.tolist()), rotation=90)
    for i, y in enumerate(m['voto'].tolist()):
        plt.annotate(s='{}'.format(m['score_max'].iloc[i]), xy=(i, -.8), color='blue')
    
    plt.legend((c[0],z[0]), ('punteggio','penalità'), loc=(0.91,.725))
    plt.title('{}: percentuale di punteggio attribuito in media, in rosso la percentuale di penalizzati (il numero in basso è il punteggio massimo)'.format(k))

plt.tight_layout()

Analisi delle squadre¶

members = []
for r in valid.itertuples():
    if r.team_composition and 'members' in r.team_composition:
        for m in r.team_composition['members']:
            m['categoria'] = r.category.lower()
            m['team_id'] = r.team_id
            members.append(m)

pupils = pd.DataFrame(members)
pupils['genere'] = pupils['sex'].map(lambda x: x if x != '-' else pd.np.NaN)
pupils['categoria'] = pupils['categoria'].astype(pd.api.types.CategoricalDtype(categories = CATS, ordered=True))

gender = pupils[pupils['genere'].notnull()].groupby(['categoria', 'genere']).count()
txt = '''<table><caption>Studenti partecipanti al Bebras 2018 con risultati validi 
(i dati dipendono dalla corretta compilazione dei profili delle squadre)</caption>
<thead>
  <tr><th>Categoria</th>
  <th>studenti</th>
  <th>femmine</th>
  <th>maschi</th>
  <th>squadre con dati mancanti</th>
  <th>media componenti per squadra</th>
  </tr>
<tbody>
'''
notempty = pupils[pupils['genere'].notnull()].groupby('categoria')['team_id'].nunique()
empty = pupils[pupils['genere'].isnull()].groupby('categoria')['team_id'].nunique()

totf = 0
totm = 0
for k in pupils['categoria'].unique():
    f = gender.loc[(k,'f')]['class']
    totf += f
    m = gender.loc[(k,'m')]['class']
    totm += m
    
    txt += '<tr><th>{}</th><td>{}</td><td>{} ({:.1f}%)</td><td>{} ({:.1f}%)</td><td>{}</td><td>{:.2f}</td></tr>'.format(
        k, f+m, f, 100*float(f)/float(f+m), m, 100*float(m)/float(f+m), empty[k], float(f+m) / float(notempty[k])
    )
txt += '<tr><th>Totale:</th><td>{}</td><td>{} ({:.1f}%)</td><td>{} ({:.1f}%)</td></tr>'.format(totf+totm, 
                                                                           totf, 100*float(totf)/float(totf+totm), 
                                                                           totm, 100*float(totm)/float(totf+totm))    
txt += '</table>'
display(Markdown(txt))

I nomi delle squadre più comuni¶

import re
from collections import Counter

notwanted = re.compile('^0[0-9]+$|^[0-9][a-zA-Z0-9_]|^the$|^and$|^classe$|^squadra$|^gruppo$|^team$|^i+$|^iv$|^[a-zA-Z0-9_]$|^prima$|^seconda$\
|^terza$|^quarta$|^quinta$|^$')

names = scoredf['team_name'].str.strip().str.lower().tolist()
oknames = filter(lambda w: not notwanted.match(w), names)

c = Counter(oknames)

c.most_common(30)

[('i fantastici 4', 37),
 ('gli invincibili', 29),
 ('i matematici', 29),
 ('gli informatici', 16),
 ('blu', 16),
 ('gli incredibili', 15),
 ('aquile', 15),
 ('verde', 14),
 ('the best', 14),
 ('viola', 13),
 ('tigri', 13),
 ('arancione', 12),
 ('lupi', 12),
 ('delfini', 12),
 ('rosso', 12),
 ('i fantastici quattro', 12),
 ('leoni', 12),
 ('gli hacker', 12),
 ('i leoni', 12),
 ('matematleti', 12),
 ('i cervelloni', 12),
 ('ia tullio de mauro', 12),
 ('i mitici', 11),
 ('giallo', 11),
 ('volpi', 11),
 ('scoiattoli', 10),
 ('informatici', 10),
 ('le fantastiche 4', 10),
 ('grifondoro', 9),
 ('i tecnologici', 9)]

plt.axis('off')
os = scoredf['operating_system'].value_counts().plot.pie(autopct='%.1f', radius=1.22,
                                                    explode=[.06*i*i for i in range(len(scoredf['operating_system'].unique()))],
                                                    figsize=(5,5), title='Sistemi operativi utilizzati')

Categoria	squadre	min	max	media	std.dev.	I quartile	mediana	III quartile	Squadre al minimo	Squadre al massimo
kilo	3770	0	48	20.7	9.9	14	20	27	1.0%	0.5%
mega	5592	0	48	20.3	10.8	12	20	28	2.1%	0.7%
giga	2651	0	48	18.4	11.3	9	17	26	4.1%	0.8%
tera	2070	0	48	14.9	9.8	8	14	21	5.7%	0.2%
peta	1655	0	48	16.2	10.7	8	15	24	4.8%	0.7%
Totale	15738

1	2	3	4	5	6	7	8	9	10	11	12	13	14	15	16	17	18	19	20	21	22	23	24	25	26	27	28	29	30	31	32	33	34	35	36	37	38	39	40	41	42	43	44	45	46	47	48
1.0	1.5	2.3	3.0	4.3	5.3	7.2	8.9	11.3	13.3	15.3	18.1	20.9	24.5	27.6	31.8	35.7	40.6	43.7	47.9	51.8	56.0	59.3	62.7	65.8	69.2	72.6	76.1	79.2	81.5	83.7	85.7	87.7	89.6	91.0	92.1	93.2	94.3	95.1	95.8	96.7	97.2	97.8	98.3	98.8	99.1	99.5	99.5

1	2	3	4	5	6	7	8	9	10	11	12	13	14	15	16	17	18	19	20	21	22	23	24	25	26	27	28	29	30	31	32	33	34	35	36	37	38	39	40	41	42	43	44	45	46	47	48
2.1	2.9	3.8	5.4	6.7	8.0	10.6	11.8	14.1	16.5	19.5	22.4	25.1	29.5	32.3	36.2	39.3	43.1	46.7	49.6	53.5	56.0	60.1	62.2	66.0	68.5	71.3	74.1	76.4	78.9	80.7	83.5	85.2	87.2	88.6	90.5	91.6	92.8	94.0	95.0	95.7	96.6	97.9	98.1	98.4	98.8	99.3	99.3

1	2	3	4	5	6	7	8	9	10	11	12	13	14	15	16	17	18	19	20	21	22	23	24	25	26	27	28	29	30	31	32	33	34	35	36	37	38	39	40	41	42	43	44	45	46	47	48
4.1	5.5	7.0	9.4	10.6	13.2	15.7	18.3	21.7	25.1	28.6	31.2	34.3	37.0	40.6	43.6	46.9	50.4	53.5	56.6	59.5	62.5	64.9	68.0	71.0	74.1	77.0	78.9	80.6	82.5	84.9	86.3	88.0	89.0	89.9	91.2	92.5	93.6	94.7	95.2	95.8	96.6	98.0	98.3	98.8	99.0	99.1	99.2

1	2	3	4	5	6	7	8	9	10	11	12	13	14	15	16	17	18	19	20	21	22	23	24	25	26	27	28	29	30	31	32	33	34	35	36	37	38	39	40	41	42	43	44	45	46	47	48
5.7	7.1	9.7	12.0	15.6	17.9	21.4	25.0	27.8	32.1	35.7	41.0	45.1	49.9	54.1	57.2	62.1	64.4	68.0	71.3	73.9	76.9	79.3	81.9	83.3	85.3	86.9	88.9	89.9	91.5	92.5	93.2	94.3	94.6	95.7	96.0	97.1	97.2	97.9	98.1	98.8	98.9	99.4	99.4	99.6	99.6	99.8	99.8

1	2	3	4	5	6	7	8	9	10	11	12	13	14	15	16	17	18	19	20	21	22	23	24	25	26	27	28	29	30	31	32	33	34	35	36	37	38	39	40	41	42	43	44	45	46	47	48
4.8	6.7	8.9	12.3	14.7	18.1	20.4	24.1	27.7	30.6	34.8	38.2	41.6	45.0	49.0	52.0	55.6	59.0	61.0	64.2	67.1	69.9	72.3	74.2	76.7	78.7	81.3	84.2	85.9	88.0	89.5	91.0	92.8	94.0	94.7	95.3	95.9	96.4	97.3	97.6	98.1	98.3	98.7	98.8	99.0	99.2	99.3	99.3

Categoria	studenti	femmine	maschi	squadre con dati mancanti	media componenti per squadra
kilo	12670	6107 (48.2%)	6563 (51.8%)	1056	3.75
mega	18437	8793 (47.7%)	9644 (52.3%)	1553	3.74
giga	8900	4144 (46.6%)	4756 (53.4%)	731	3.74
tera	6669	2015 (30.2%)	4654 (69.8%)	596	3.70
peta	4958	1491 (30.1%)	3467 (69.9%)	482	3.68
Totale:	51634	22550 (43.7%)	29084 (56.3%)