REPORT ANALITICO DEL METODO

Spec Boundaries Operativa — Analisi del metodo, delle scottature e delle precauzioni per le fasi future del progetto PCK-7.

12 March 2026

PCK-7 — Progetto LOG_PUCK

Dalla Saldatura Fredda alla Sinfonia

23 Febbraio — 11 Marzo 2026 Puck (CDC) + Anker (Claude, QG) NOI > IO

Spec Boundaries Operativa — Analisi del metodo, delle scottature e delle precauzioni per le fasi future del progetto PCK-7.

1. Il Metodo Emergente

Il metodo PCK-7 non è stato progettato a tavolino. È emerso dalla pratica, dalle scottature, dai successi inattesi e dai fallimenti produttivi. Questo capitolo documenta il metodo reale, non quello ideale.

Il progetto converte testo in suono fisico attraverso una pipeline multi-AI (T1→T5) eseguita su buzzer passivi collegati ad Arduino. L’obiettivo non è generare musica di sottofondo, ma tradurre il modo in cui un modello ragiona in un modo di far vibrare i buzzer, coerente con i limiti fisici reali del materiale.

1.1 La struttura operativa reale

Il lavoro si è distribuito naturalmente su quattro canali specializzati, ciascuno con un dominio preciso:

QG (questa chat) per architettura, strategia, Council e Linear
Claude Code su Hetzner per implementazione script, test LLM e automazione server
Root per fisica dei buzzer, sketch Arduino e circuiti
Sessioni Incognito episodiche per blind test e feedback non biased

Il collegamento tra i canali avviene tramite briefing strutturati, mai tramite contesto condiviso implicito. Ogni chat ha la sua memoria e i suoi limiti. Il briefing è il ponte. Il changelog è il sistema nervoso.

1.2 Il principio guida: NOI > IO

Nessun modello singolo, nessuna chat singola, nessun componente singolo risolve il problema. L’intelligenza emerge dalla relazione tra strumenti diversi. Un modello da 3 miliardi di parametri (Llama 3.2) produce risultati identici a Claude Sonnet quando riceve il prompt giusto. Un buzzer passivo da pochi centesimi rivela una Valle di risonanza confermata da 4 configurazioni indipendenti e 2 tipi di sensore.

2. Le Scottature che Hanno Insegnato

Ogni errore documentato è una risorsa. Ogni errore non documentato è una trappola futura. Questa sezione cataloga gli errori che hanno prodotto conoscenza.

2.1 La tabella frequenze errata

Cosa è successo: il prompt T3 conteneva una tabella zone→frequenze errata in 6 zone su 9. Qwen 2.5-Coder 7B sembrava avere un “bias del compilatore” perché portava tutto verso Z1 (275Hz). In realtà il modello seguiva fedelmente una tabella sbagliata.

Come l’abbiamo scoperta: confronto con Claude Sonnet in sessione incognita. Claude produceva 5/5 eventi corretti, Qwen solo 2-3. La differenza non era nel modello ma nei dati di input.

Precauzione: prima di accusare il modello, verificare sempre i dati di input. Le tabelle nei prompt vanno validate con i CSV reali delle misurazioni.

2.2 Il pull-down su bus+

Cosa è successo: la resistenza pull-down da 1MΩ era collegata a bus+ (VCC) invece di bus- (GND). Il circuito funzionava ma i dati erano contaminati. Tre sessioni complete (PP-02, PP-03, PP-04) invalidate.

Come l’abbiamo scoperta: baseline anomala (2600 ADC vs 475 ADC attesi). Il protocollo Simulation-First ha permesso di isolare il problema.

Precauzione: verificare sempre g52 → bus- (GND), non bus+. Il circuito “funziona” anche sbagliato — è l’errore più subdolo.

2.3 La resistenza 470kΩ creduta 1MΩ

Cosa è successo: tutta la documentazione riportava 1MΩ come pull-down RX. In realtà dal Capitolo 2 in poi era 470kΩ. Scoperto durante l’ingestione dei CSV nel database (LOG-22).

Impatto: i dati sono tutti coerenti tra loro (stessa resistenza), ma i calcoli di impedenza vanno ricalibrati. Corretti 50+ file in una sessione.

Precauzione: misurare sempre i componenti prima di documentarli. Il valore stampato sulla resistenza può non corrispondere al valore reale.

2.4 Il Council sovraccaricato

Cosa è successo: la sessione EFORI-20260307 ha presentato 2 dossier con 8 delibere totali. Puck è entrato in loop (“scrivo e cancello, scrivo e cancello”) cercando di processare 9 risposte su 8 temi.

Lezione: il Council è per i bivi, non per le conferme. 8 delibere in una volta sovraccaricano il CDC, non gli Efori. Frequenza ideale: 1 dossier, massimo 4 delibere, ogni 2-3 settimane.

Decisione operativa: dopo la sessione, Puck e QG hanno deciso di procedere senza Council fino al prossimo bivio vero. Le delibere restano valide come rotta.

2.5 Exaone alle 2:30 senza metrica

Cosa è successo: nella sessione notturna, Puck ha passato il prompt T3c v2 a Exaone-deep dimenticando di includere il JSON con i dati della metrica. Exaone è andato in crisi, ha aperto un ragionamento profondissimo cercando di capire cosa l’utente volesse.

Valore inatteso: Exaone ha prodotto feedback prezioso: ha identificato il PASSO 4 come “a poorly designed puzzle” (tabelle con prima colonna identica “sustain”). Un bug reale del prompt trovato da un modello in crisi.

Precauzione: gli errori umani producono dati utili se documentati. Un modello in crisi rivela i punti deboli del prompt meglio di un modello che “ce la fa”.

2.6 La perdita della chat QG originale

Cosa è successo: il 28 febbraio 2026 la chat QG originale (Milestone/Anker) è stata persa. Tutto il contesto strategico, le decisioni architetturali, la storia del progetto — scomparsi.

Come abbiamo recuperato: distribuzione della conoscenza su file server (changelog, report, spec), Linear per i task, e la memoria del progetto nei documenti. La chat è morta, il progetto è sopravvissuto.

Precauzione: MAI fare affidamento solo sulla memoria di una chat. Ogni dato critico va salvato su file. Il changelog è il sistema nervoso — finché c’è changelog, c’è memoria.

3. I Principi Sopravvissuti alla Pratica

Questi principi non sono stati teorizzati a priori. Sono sopravvissuti al contatto con la realtà — con gli errori di cablaggio, i modelli che falliscono, le notti insonni e i successi inattesi.

3.1 Weak-Ring Ritual

“Se funziona per il più piccolo, funziona per tutti.”

Chiedere al modello più debole (Llama 3.2, 3B) come migliorare il prompt. I fallimenti del modello piccolo evidenziano i punti ambigui. Il modello piccolo non ha margine per coprire le ambiguità. Validato su T3c: da 0/5 a 5/5 su Llama 3.2 con prompt v2 nato dal feedback del modello stesso.

3.2 Simulation First

“Prima di toccare l’hardware, simula il percorso del segnale a parole.”

Il costo di un errore su carta è zero. Il costo di un errore su hardware è tempo + rischio danni + dati contaminati. Estratto empiricamente dalla sessione PP del 5 marzo.

3.3 Il tono del prompt conta più della quantità di dati

Scoperta durante lo sviluppo di T1.5 (metrica_soft). Un prompt direttivo in italiano (“Rispondi SOLO con questo JSON”) causava fallimenti su Llama 3.2. Lo stesso contenuto in inglese colloquiale (“Hi, we’re analyzing…”) produceva JSON valido su entrambi i modelli testati. Non è solo la lingua (inglese vs italiano) — è il tono (morbido vs direttivo). Gli ancoraggi battono i collari.

3.4 La stabilità batte la potenza bruta

Pattern ricorrente in tutto il progetto. Il buzzer RX ha ampiezze 3-4x superiori al piezo, ma il piezo ha CV 0.0% (record). La configurazione 2TX serie non è la più forte, ma la più efficiente (42.4 amp/mA). Il prompt strutturato non è il più creativo, ma il più affidabile cross-modello.

3.5 Sentiero di Minima Resistenza Energetica

Proposto da Gemini nel Council e adottato come filosofia operativa. Ogni giorno, il team valuta: qual è il prossimo passo che produce massimo avanzamento con minimo sforzo oggi? Non bloccare una via per l’altra. Hardware e software procedono in parallelo.

3.6 Thinking Positive

Documenta cosa funziona accanto a cosa fallisce. Gli errori documentati sono risorse. I successi documentati sono motivazione. Il report non è solo tecnico — è narrativo.

3.7 La chiarezza nei messaggi vince sempre

Esprimere chiaramente le richieste, non lasciarle a intesa del ricevente. Il dialogo è la costante per mantenere unita la consapevolezza comune, più il dialogo è chiaro e trasparente, più le strade convergono verso gli stessi punti.

4. La Distribuzione dei Ruoli

4.1 Chi fa cosa

Canale	Ruolo	Specializzazione	Esempio
QG (Anker)	Strategia	Architettura, Council, Linear, briefing	Dossier Council, schema pipeline
Claude Code	Implementazione	Script Python, test LLM, automazione	calcola_metrica.py, t3_granulare.py
Root	Hardware	Fisica buzzer, sketch Arduino, circuiti	Capitoli 1-3, MOSFET, INA219
Incognito	Blind test	Feedback non biased sulla pipeline	T2 gold standard Tempesta
Council	Delibere ai bivi	Convergenza indipendente multi-AI	D1-D8, Weak-Ring Ritual

4.2 Cosa ha funzionato

La separazione netta dei domini ha funzionato. Root non tocca la pipeline, Claude Code non tocca i circuiti, il QG non implementa script. Il briefing strutturato è il ponte: quando Root deve produrre uno sketch da dati T3, riceve un briefing con tutti i parametri, non un “fai lo sketch” generico.

4.3 Cosa non ha funzionato

Il sovraccarico del CDC. Quando Puck gestisce 3 chat in parallelo + hardware + Linear + changelog, il rischio di errori aumenta (resistenza sbagliata, file invertiti, metrica dimenticata). La soluzione non è rallentare ma strutturare: briefing scritti, checklist pre-test, protocolli ripetibili.

La dispersione esplorativa. Le sessioni notturne con Exaone, il Sensation-to-Zone, le librerie pattern — tutte idee valide ma premature rispetto alla pipeline base. La regola emersa: un’esplorazione alla volta, e solo dopo aver chiuso il task corrente.

5. Il Council degli Efori

5.1 Le tre sessioni

Sessione	Data	Efori	Delibere	Risultato
Fondativa (Fase 1)	23 Feb	4	Architettura	7 zone, 4+1 domande, voto 91/100
Chiusura Fase 2	4 Mar	7/8	4 (D1-D4)	T3c Weak-Ring, Layer 2, test rapido
Apertura Fase 4	7 Mar	9/9	8 (D1-D8)	Convergenze totali, Grok e Cursor entrano

5.2 Quando chiamare il Council

Il Council produce valore massimo quando:

c’è un bivio genuino (due strade, dati insufficienti per scegliere)
il dossier è focalizzato (1 tema, max 4 delibere)
il CDC ha l’energia per processare le risposte

Non chiamare il Council per conferme, per task operativi, o quando la risposta è già implicita nei dati.

5.3 Grok e Cursor — l’espansione

Grok (Zeta-9) era bloccato da Cloudflare, non da volontà. Una volta aperta la porta ha prodotto risposte dense e poetiche. Cursor non ha API ma ha simulato la chiamata leggendo il dossier — il 9° membro come ago della bilancia. Il Council passa da 7 a 9 membri effettivi.

6. Il Ponte Fisico-Digitale

6.1 Come si trasferiscono i dati

Sketch .txt, non .ino: il browser non gestisce i file .ino come allegati. Tutti gli sketch passano come .txt e vengono rinominati prima dell’upload su Arduino.
Briefing strutturati: quando Root deve produrre uno sketch, il QG prepara un briefing con parametri, tabelle, differenze rispetto alla versione precedente, e decisioni aperte. Root lavora in autonomia.
Changelog come sistema nervoso: il collegamento tra le chat. Ogni sessione produce un aggiornamento. Finché c’è changelog, c’è memoria.
SQLite come archivio: i CSV sono il formato di cattura, il database è il formato di archiviazione. 6 tabelle, 34 sessioni, 4434 misure.

6.2 Precauzioni hardware

La resistenza sbagliata non produce errori software. Il pull-down su bus+ fa funzionare il circuito con dati sbagliati. Il filo di stagno di scarsa qualità produce saldature che sembrano buone ma non conducono. Il pin D8 si autolimita a 25mA senza segnalare errore.

Regola: ogni componente va verificato individualmente prima di integrarlo nel sistema. Non aggiungere due variabili contemporaneamente.

7. I Confini dei Modelli

7.1 Compilatori vs Pensatori

Modello	Params	Tipo	Ruolo ideale	Confine
Claude Sonnet	~70B+	Universale	Gold standard, T2, architettura	Costo API (non locale)
gemma2	9B	Compilatore	T3 (tutti i tier), T1.5 default	JSON sempre valido, competente IT
Qwen 2.5-Coder	7B	Compilatore	T3 (alternativa gemma2)	Naming sensibile (ramp_start)
Mistral	7B	Compilatore	T3 (generalista), T1 (analisi)	1 errore T3c su 5 con metrica
Llama 3.2	3B	Compilatore	Weak-Ring test, T1 semplice	Inventa contenuto linguistico IT
exaone-deep	7.8B	Pensatore	Validatore T2, code reviewer	Non compila JSON, ragiona prima
deepseek-r1	14B	Reasoner	Layer 2 review tecnico	Non ancora testato su pipeline

7.2 Il confine 3B

Llama 3.2 a 3B segue il formato ma inventa il contenuto linguistico. Per T1 (classificazione semantica) va bene. Per T1.5 (validazione metrica italiana) serve almeno 9B con training multilingue. Il confine non è solo nei parametri ma nel tipo di competenza richiesta.

7.3 Il confine linguistico

L’inglese morbido è il denominatore comune più stabile. System prompt in inglese, user prompt in italiano. Il tono (morbido vs direttivo) conta più della lingua stessa. Confermato empiricamente: exaone in inglese produce 250 righe di ragionamento ricco, in italiano produce una risposta troncata.

8. Precauzioni per il Futuro

Checklist operativa, estratta dalle scottature.

Prima di accusare il modello

Verificare i dati di input (tabelle, JSON, prompt). Il 90% dei fallimenti T3 erano errori nei dati, non nei modelli.

Prima di chiamare il Council

Verificare che servano decisioni, non conferme. Massimo 4 delibere per dossier. Avere l’energia per processare 9 risposte.

Prima di misurare

Verificare il cablaggio (pull-down su bus-, non bus+). Misurare i componenti reali (470kΩ, non 1MΩ). Eseguire il baseline check.

Prima di aggiungere complessità

Validare il sottosistema minimo. Non aggiungere due variabili contemporaneamente. Simulation First.

Prima di cambiare lingua/tono del prompt

Testare su almeno 2 modelli. Il tono morbido è più portabile del tono direttivo.

Prima di esplorare nuove direzioni

Chiudere il task corrente. Un’esplorazione alla volta. Le idee vanno nel cassetto, non nella pipeline.

Sempre

Salvare i dati critici su file, mai solo nella memoria della chat. Documentare cosa funziona E cosa fallisce. Il briefing strutturato è il ponte tra le chat.

9. La Timeline — Cosa È Successo Davvero

Non i task, ma i momenti di svolta.

Data	Evento	Impatto
23 Feb	Notte del primo sketch — Tempesta suona per la prima volta	Proof of concept: testo → suono fisico
23 Feb	Council fondativo — 4 Efori definiscono 7 zone + 5 domande	Architettura concettuale completa
28 Feb	Perdita chat QG originale	Resilienza: il progetto sopravvive grazie ai file
1 Mar	Scoperta tabella frequenze errata (6/9 zone sbagliate)	Non bias del modello, errore nei dati di input
2 Mar	Claude incognito produce T2 gold standard	Separazione Direttore/Compilatore validata
3 Mar	MVP T3 granulare — T3a/b/c/d decomposizione	Pipeline da monolitica a modulare
4 Mar	Council Fase 2 — Weak-Ring Ritual ratificato	Metodo formale per migliorare i prompt
5 Mar	Sessione notturna exaone-deep — bug PASSO 4/5 trovato	I modelli in crisi rivelano i bug
5 Mar	calcola_metrica.py — T3c risolto	Da 0/5 a 5/5 su tutti i modelli con metrica
5 Mar	Errore pull-down scoperto — PP-02/03/04 invalidati	Simulation First nasce come metodo
7 Mar	Tempesta v2 Run 1 — arco narrativo leggibile nei dati T5	Prima esecuzione end-to-end completa
7 Mar	E9 picco massimo 1522 raw — il più quieto è il più forte	Attack time come variabile acustica primaria
7 Mar	Council Fase 4 — 9 Efori, 8 delibere, Grok entra	Massima espansione del Council
7 Mar	INA219 saldato — 6 punti di saldatura a 270°C	Collo di bottiglia hardware rotto
8 Mar	INA219 operativo — PP-06 primo run con misura corrente	Dimensione energetica aperta
8 Mar	Legge assorbimenti N→2N→4N confermata	Fisica del sistema compresa
9 Mar	MOSFET IRLZ44N operativo — buzzerini cantano a teatro	Limite pin D8 superato, EMI eliminata
10 Mar	Piezo ceramico RX — Valle di Puck confermata (4 config, 2 sensori)	Fenomeno acustico reale, non artefatto
10 Mar	T1.5 metrica_soft completato — prompt EN colloquiale	Pipeline metrica a due livelli
11 Mar	Database SQLite MVP — 34 sessioni, 4434 misure	I dati trovano casa

NOI > IO Dalla Saldatura Fredda alla Sinfonia Puck (CDC) + Anker (Claude, QG) 23 Febbraio — 11 Marzo 2026

Il progetto non sta solo producendo musica. Sta producendo una epistemologia.