Statistiche gare Bebras italiano 2016¶

from IPython.display import HTML

HTML('''<script>
code_show=true; 
function code_toggle() {
 if (code_show){
 $('div.input').hide();
 } else {
 $('div.input').show();
 }
 code_show = !code_show
} 
$( document ).ready(code_toggle);
</script>
<input type="button" value="Clicca per vedere/nascondere il codice Python" onclick="code_toggle()">''')

Distribuzione dei punteggi¶

import pandas as pd
import json, hashlib

score = None
with open("highscore.json") as hs:
    score = json.load(hs)

scoredf = pd.DataFrame(score['exams'])

# L'orario va corretto per il fuso orario
scoredf['server_start'] = pd.to_datetime(scoredf['exam_date'].astype('int64') + 60*60, unit='s')
scoredf['orainizio'] = pd.np.floor((scoredf['exam_date'].astype('int64') + 60*60) / (45*60)) # ore da 45', il tempo di gara
scoredf['punteggio'] = pd.to_numeric(scoredf['score'])
scoredf['anonid'] = scoredf['team_id'].str.cat(scoredf['exam_date']).map(lambda x: hashlib.md5(x).hexdigest())
scoredf['categoria'] = scoredf['category'].astype("category", categories=["Kilo","Mega","Giga","Tera","Peta"], ordered=True)

valid = scoredf[scoredf['exam_valid_score'] == 1]
valid.to_csv('anonris.csv', columns=['anonid', 'categoria', 'orainizio', 'punteggio', 'time'])

from IPython.display import display, Markdown

txt = '''<table>
<caption>Squadre partecipanti al Bebras 20156 con risultati validi, 
cioè ritenuti confrontabili con gli altri perché privi di anomalie tecniche o organizzative</caption>
<thead>
  <tr><th>Categoria</th>
  <th>squadre</th>
  <th> min </th>
  <th> max </th>
  <th> media </th>
  <th> std.dev. </th>
  <th>I quartile </th>
  <th>mediana </th>
  <th>III quartile</th>
  </tr>
<tbody>
'''
for k in valid['categoria'].unique():
    s = valid[valid['categoria'] == k]['punteggio'].describe()
    txt += "<tr><th>{}</th><td>{}</td><td>{}</td><td>{}</td><td>{:.1f}</td>\
<td>{:3.1f}</td><td>{}</td><td>{}</td><td>{}</td></tr>".format(k, 
                                                              int(s['count']),
                                                              int(s['min']),
                                                              int(s['max']),
                                                              float(s['mean']),
                                                              float(s['std']),
                                                              int(s['25%']), 
                                                              int(s['50%']), 
                                                              int(s['75%']))
txt += '<tfoot><tr><th>Totale</th><td>{}</td></tr>'.format(valid['punteggio'].count())
txt += '</table>'
display(Markdown(txt))

%matplotlib inline
import matplotlib.pyplot as plt
plt.style.use('ggplot')

histograms = valid['punteggio'].hist(by=valid['categoria'], bins=30, figsize=(10,8))

Percentili per punteggio¶

for k in valid['categoria'].unique():
    tot = float(valid[(valid['categoria'] == k)]['punteggio'].count())
    pp = [100 * valid[(valid['categoria'] == k) & (valid['punteggio'] < i)]['punteggio'].count()/tot for i in xrange(1,61)]
    txt = '''<table>
    <caption>Percentili per la categoria {} (che percentuale di squadre si supera con un dato punteggio)</caption>
    <thead>'''.format(k)
    txt += ''.join(['<td>{}</td>'.format(i) for i in xrange(1,61)])
    txt += '<tbody>'
    txt += ''.join(['<td>{:.1f}</td>'.format(f) for f in pp])
    txt += '</table>'
    display(Markdown(txt))

Analisi delle risposte¶

rr = []
for r in valid.itertuples():
    for q in r.questions:
        t = q.copy()
        t['anonid'] = r.anonid
        rr.append(t)

quiz = pd.DataFrame(rr)

MAPBEBRAS = {
    'Pennello': 'PK-03',
    'RicettaSegreta': 'HU-02',
    'MessaggiSegreti': 'UK-06',
    'Coccinelle': 'SK-10',
    'ColoraFiori': 'SK-04',
    'ConiBiglietti': 'FR-02',
    'PallaCastoro': 'JP-03',
    'Commissioni': 'LT-03',
    'Tappi': 'JP-06',
    'Soccer': 'US-07b',
    'Direzioni': 'IE-05',
    'Robot': 'FR-04',
    'Scanner': 'MY-02',
    'SacchiAscensore': 'CZ-02a',
    'Rafting': 'LT-02',
    'Insalata': 'DE-08',
    'Cannone': 'IT-06',
    'Mug': 'TW-05',
    'HealthCare': 'CH-03', 
    'Thief': 'BE-02',
    'FiltroMediano': 'RU-02',
    'Bolle': 'IT-03',
    'Tunnel': 'CH-04a',
    'Isole': 'FR-03',
    'Colori': 'UK-04',
    'Mapreduce': 'CA-08b', 
    'BandiereCompresse': 'CZ-04',
    'Smartphone': 'IT-04',
    'Albero': 'CA-05',
    'Pozioni': 'JP-01',
    'Legno': 'CA-01',
    'Avventura': 'FR-07',
    'Kix': 'NL-04', 
    'Biglie': 'IT-02b', 
    'Forme': 'CA-09'
}


MAPNAMES = {
    'Pennello': "Il rullo dell'imbianchino",
    'RicettaSegreta': 'La ricetta segreta',
    'MessaggiSegreti': 'Messaggi segreti',
    'Coccinelle': 'Coccinelle',
    'ColoraFiori': 'Colora i fiori',
    'ConiBiglietti': 'Coni e biglietti',
    'PallaCastoro': 'BeaverBall',
    'Commissioni': 'Commissioni',
    'Tappi': 'Tappi',
    'Soccer': 'Partita di calcio',
    'Direzioni': 'Direzioni concorrenti',
    'Robot': 'Fai uscire il robot',
    'Scanner': 'Scanner per immagini',
    'SacchiAscensore': "Sacchi nell'ascensore",
    'Rafting': 'Rafting',
    'Insalata': 'Una tartaruga sistematica',
    'Cannone': 'Artiglieria programmabile',
    'Mug': 'Una collezione di tazze',
    'HealthCare': 'Pronto soccorso', 
    'Thief': 'Caccia al ladro',
    'FiltroMediano': 'Filtro mediano',
    'Bolle': 'Bolle',
    'Tunnel': 'La galleria',
    'Isole': 'Isole',
    'Colori': 'Quanti colori?',
    'Mapreduce': 'Fra parentesi', 
    'BandiereCompresse': 'Bandiere',
    'Smartphone': 'In fila per tre',
    'Albero': "L'albero di Natale",
    'Pozioni': 'Pozioni magiche',
    'Legno': 'Il legno buono',
    'Avventura': 'Avventura',
    'Kix': 'Codice a barre', 
    'Biglie': 'Biglie', 
    'Forme': 'Gioco di forme'
}

quiz['nome'] = quiz['code'].str.extract('\d+_.+_(.+)', expand=False)
quiz['cat'] = quiz['code'].str.extract('\d+_(.+)_.+', expand=False)
quiz['edizione'] = quiz['code'].str.extract('(\d+)_.+_.+', expand=False)
quiz['bebras'] = quiz['nome'].map(lambda x: MAPBEBRAS[x])
quiz['completo'] = quiz['score'] == quiz['score_max']
quiz['parziale'] = (quiz['score'] > 0) & (quiz['score'] != quiz['score_max'])
quiz['voto'] = quiz['score'] / quiz['score_max'].astype('float64')
quiz['minuti'] = quiz['time'].map(lambda x: x/(1000*60) if x >= 0 else pd.np.NaN)

quiz.to_csv('quiz.csv', columns=['anonid', 'cat', 'edizione', 'nome', 'bebras', 'score', 'score_max', 'time'])

vquiz = pd.merge(valid[['anonid', 'categoria', 'punteggio','orainizio','teacher_id','school_cap']], quiz, on='anonid')

plt.figure(figsize=(16,20))

def bname(n):
    if n in MAPBEBRAS and n in MAPNAMES:
        return '{} ({})'.format(MAPNAMES[n], MAPBEBRAS[n])
    else:
        return n

for j, k in enumerate(valid['categoria'].unique()):
    plt.subplot(5,1, j+1)
    plt.ylim(0,1)
    m = vquiz[vquiz['categoria'] == k].groupby('nome', 
                                             sort=False)[['completo','voto', 'parziale', 'minuti','score_max']].mean()
    m['vparziale'] = m['voto'] - m['completo']

    c = plt.bar(pd.np.arange(m.index.size), m['completo'])
    p = plt.bar(pd.np.arange(m.index.size), m['parziale'], bottom=m['completo'], color='lightblue')
    plt.xticks(pd.np.arange(m.index.size) + 0.4, map(bname, m.index.tolist()), rotation=90)
    for i, y in enumerate(m['voto'].tolist()):
        plt.annotate(s='{:.0f}'.format(m['minuti'].iloc[i]), xy=(i+0.3, y+.08))
        plt.annotate(s='{}'.format(m['score_max'].iloc[i]), xy=(i+0.3, .02), color='red')
    plt.legend((c[0],p[0]), ('completo','parziale'))
    plt.title('{}: tassi di soluzione (il numero in nero indica i minuti spesi in media sul quesito, \
il numero in rosso il punteggio massimo ottenibile)'.format(k))

plt.tight_layout()

plt.figure(figsize=(16,20))

for j, k in enumerate(valid['categoria'].unique()):
    plt.subplot(5,1, j+1)
    plt.ylim(0,1)
    m = vquiz[vquiz['categoria'] == k].groupby('nome', 
                                             sort=False)[['completo','voto', 'parziale', 'minuti','score_max']].mean()
    m['vparziale'] = m['voto'] - m['completo']

    c = plt.bar(pd.np.arange(m.index.size), m['voto'], color='green')
    plt.xticks(pd.np.arange(m.index.size) + 0.4, map(bname, m.index.tolist()), rotation=90)
    for i, y in enumerate(m['voto'].tolist()):
        plt.annotate(s='{}'.format(m['score_max'].iloc[i]), xy=(i+0.3, y+.08), color='red')
    
    plt.title('{}: percentuale di punteggio attribuito in media (in rosso il punteggio massimo ottenibile)'.format(k))

plt.tight_layout()

Analisi delle squadre¶

members = []
for r in valid[valid['team_composition'] != False].itertuples():
    k = r.categoria
    for m in r.team_composition['members']:
        m['categoria'] = k
        members.append(m)

pupils = pd.DataFrame(members)
pupils['genere'] = pupils['sex'].map(lambda x: x if x != '-' else pd.np.NaN)
pupils['categoria'] = pupils['categoria'].astype("category", categories=["Kilo","Mega","Giga","Tera","Peta"], ordered=True)

gender = pupils[(pupils['name'] != '') | pupils['genere'].notnull()].groupby(['categoria', 'genere']).count()
txt = '''<table><caption>Studenti partecipanti al Bebras 2016 con risultati validi 
(i dati dipendono dalla corretta compilazione dei profili delle squadre)</caption>
<thead>
  <tr><th>Categoria</th>
  <th>studenti</th>
  <th>femmine</th>
  <th>maschi</th>
  <th>squadre con dati mancanti</th>
  <th>media component per squadra</th>
  </tr>
<tbody>
'''

totf = 0
totm = 0
for k in pupils['categoria'].unique():
    f = gender.loc[(k,'f')]['class']
    totf += f
    m = gender.loc[(k,'m')]['class']
    totm += m
    s = valid.groupby('categoria').count().loc['Kilo']['login']
    empty = len(valid[(valid['categoria'] == k) &(valid['team_composition'] == False)])
    txt += '<tr><th>{}</th><td>{}</td><td>{} ({:.1f}%)</td><td>{} ({:.1f}%)</td><td>{}</td><td>{:.1f}</td></tr>'.format(
        k, f+m, f, 100*float(f)/float(f+m), m, 100*float(m)/float(f+m), empty, float(m+s) / float(s - empty)
    )
txt += '<tr><th>Totale:</th><td>{}</td><td>{} ({:.1f}%)</td><td>{} ({:.1f}%)</td></tr>'.format(totf+totm, 
                                                                           totf, 100*float(totf)/float(totf+totm), 
                                                                           totm, 100*float(totm)/float(totf+totm))    
txt += '</table>'
display(Markdown(txt))

Tag cloud dei nomi delle squadre¶

TAGCLOUD = 'tags.png'
import os
if not os.path.isfile(TAGCLOUD) or os.path.getmtime(TAGCLOUD) < os.path.getmtime('highscore.json'):
    from pytagcloud import create_tag_image, make_tags
    from pytagcloud.lang.counter import get_tag_counts
    import re

    notwanted = re.compile('^0\d+$|^\d\w|^the$|^and$|^classe$|^squadra$|^gruppo$|^team$|^i+$|^iv$|^\w$|^prima$|^seconda$\
|^terza$|^quarta$|^quinta$')

    names = ' '.join(scoredf['team_name'].str.strip().str.lower().tolist())
    names = names.encode('iso-8859-1', 'ignore')
    oknames = filter(lambda w: not notwanted.match(w), names.split(' '))

    counts = get_tag_counts(' '.join(oknames))

    # Solo quelli con almeno 10 occorrenze
    tags = make_tags(filter(lambda x: (x[1] >= 10), counts), maxsize=75)

    cloud = create_tag_image(tags, "tags.png", (900, 900), fontname="Neuton")

Categoria	squadre	min	max	media	std.dev.	I quartile	mediana	III quartile
Kilo	2659	0	58	19.8	10.1	12	19	26
Mega	2165	0	53	20.7	9.9	13	20	27
Giga	1048	0	50	18.4	8.5	12	18	24
Tera	1227	0	45	18.5	8.0	13	18	24
Peta	1064	0	54	21.8	9.9	15	21	28
Totale	8163

1	2	3	4	5	6	7	8	9	10	11	12	13	14	15	16	17	18	19	20	21	22	23	24	25	26	27	28	29	30	31	32	33	34	35	36	37	38	39	40	41	42	43	44	45	46	47	48	49	50	51	52	53	54	55	56	57	58	59	60
0.7	1.0	1.7	2.5	3.6	5.2	7.5	10.0	12.4	14.7	17.6	21.9	25.8	29.7	33.7	37.6	41.7	45.7	49.6	53.1	56.9	60.7	64.0	67.4	70.7	73.3	76.0	78.9	81.5	83.3	85.1	86.8	88.2	89.7	91.2	92.1	93.0	93.9	95.0	95.6	96.4	97.1	97.9	98.1	98.4	98.8	99.2	99.2	99.4	99.4	99.5	99.5	99.6	99.7	99.7	99.8	99.8	99.8	100.0	100.0

1	2	3	4	5	6	7	8	9	10	11	12	13	14	15	16	17	18	19	20	21	22	23	24	25	26	27	28	29	30	31	32	33	34	35	36	37	38	39	40	41	42	43	44	45	46	47	48	49	50	51	52	53	54	55	56	57	58	59	60
0.1	0.4	0.9	1.8	2.7	3.7	5.2	7.3	9.5	12.0	14.6	18.2	22.4	26.1	29.7	33.9	37.6	41.0	44.9	48.4	52.1	56.0	59.8	63.1	66.8	70.3	74.2	77.2	79.2	81.8	83.9	85.5	87.3	89.1	90.4	91.5	92.9	93.9	94.7	95.4	95.8	96.4	97.1	97.5	98.2	98.7	99.0	99.2	99.4	99.7	99.7	99.9	100.0	100.0	100.0	100.0	100.0	100.0	100.0	100.0

1	2	3	4	5	6	7	8	9	10	11	12	13	14	15	16	17	18	19	20	21	22	23	24	25	26	27	28	29	30	31	32	33	34	35	36	37	38	39	40	41	42	43	44	45	46	47	48	49	50	51	52	53	54	55	56	57	58	59	60
0.5	0.8	1.3	2.4	3.7	5.4	6.9	9.0	11.4	15.8	18.4	22.7	26.6	31.4	36.9	40.9	44.7	49.2	53.7	57.7	62.9	66.1	69.6	73.1	76.1	78.4	81.1	84.4	86.6	88.8	90.9	92.4	94.0	95.7	96.6	97.4	97.9	98.6	98.7	99.0	99.3	99.4	99.5	99.5	99.8	99.9	99.9	99.9	99.9	99.9	100.0	100.0	100.0	100.0	100.0	100.0	100.0	100.0	100.0	100.0

1	2	3	4	5	6	7	8	9	10	11	12	13	14	15	16	17	18	19	20	21	22	23	24	25	26	27	28	29	30	31	32	33	34	35	36	37	38	39	40	41	42	43	44	45	46	47	48	49	50	51	52	53	54	55	56	57	58	59	60
0.6	0.8	1.5	2.0	3.3	4.3	5.9	7.6	10.9	13.0	16.4	18.7	23.6	27.3	32.5	36.3	42.8	47.6	52.9	57.0	61.5	65.6	70.1	72.6	78.1	80.8	84.4	87.2	90.2	91.4	93.2	94.3	95.7	96.2	96.9	97.7	98.0	98.1	98.8	98.9	99.2	99.4	99.4	99.6	99.9	100.0	100.0	100.0	100.0	100.0	100.0	100.0	100.0	100.0	100.0	100.0	100.0	100.0	100.0	100.0

1	2	3	4	5	6	7	8	9	10	11	12	13	14	15	16	17	18	19	20	21	22	23	24	25	26	27	28	29	30	31	32	33	34	35	36	37	38	39	40	41	42	43	44	45	46	47	48	49	50	51	52	53	54	55	56	57	58	59	60
0.4	0.8	1.3	2.1	2.8	3.7	4.9	6.0	8.1	10.6	12.5	14.7	17.9	20.2	23.4	28.0	31.7	35.1	40.7	45.1	47.9	51.6	55.9	59.6	63.0	66.6	69.4	72.4	75.5	78.6	81.0	83.7	86.1	87.6	89.3	90.9	92.3	93.4	94.5	95.3	95.9	96.6	97.2	97.5	97.8	98.5	98.9	99.1	99.2	99.3	99.5	99.6	99.7	99.8	100.0	100.0	100.0	100.0	100.0	100.0

Categoria	studenti	femmine	maschi	squadre con dati mancanti	media component per squadra
Kilo	9398	4611 (49.1%)	4787 (50.9%)	116	2.9
Mega	7544	3422 (45.4%)	4122 (54.6%)	82	2.6
Giga	3715	1725 (46.4%)	1990 (53.6%)	11	1.8
Tera	4321	1101 (25.5%)	3220 (74.5%)	76	2.3
Peta	3429	911 (26.6%)	2518 (73.4%)	135	2.1
Totale:	28407	11770 (41.4%)	16637 (58.6%)