E’ tutta, In ogni umano stato, ozio la vita, Se quell’oprar, quel procurar che a degno Obbietto non intende, o che all’intento Giunger mai non potria, ben si conviene Ozioso nomar. (Giacomo Leopardi)

giovedì 2 dicembre 2010

Formalizzare la rilevanza musicale (versione preliminare accettata ad AISC 2010. Contiene alcuni errori che sto correggendo)

Formalizzare la rilevanza musicale
Edoardo Acotto
Department of Computer Sciences, University of Turin; corso Svizzera, 185 10149 Turin,
Italy; Tel. +39 0116706711, Fax +39 011751603

 

1. Generative Theory of Tonal Music, Tonal Pitch Space, Relevance Theory

 

Il presente studio ha come obiettivo la formulazione e la formalizzazione del concetto di Rilevanza Musicale[1], a partire dalla Relevance Theory (d’ora innanzi RT) [1]. Pur concepita nell’ambito del computazionalismo, RT non ha ancora trovato applicazioni computazionali e non è mai stata applicata alla cognizione musicale. Il concetto di Rilevanza Musicale permetterebbe di spiegare in parte il comportamento musicale degli ascoltatori e le scelte dei compositori e un’efficiente implementazione potrebbe fornire un ausilio alla composizione. Inoltre, indagare la plausibilità di un dispositivo computazionale per il calcolo della Rilevanza Musicale può contribuire alla formulazione di una teoria cognitiva dell’ideazione musicale e del pensiero creativo in generale. In questo studio proponiamo di ibridare la RT con la Generative Theory of Tonal Music (d’ora innanzi GTTM) [2], al fine di formulare un algoritmo per il calcolo della Rilevanza Musicale, approssimando così un modello di simulazione del ragionamento musicale.
GTTM intende descrivere la comprensione musicale di un ascoltatore esperto, postulando l’esistenza di rappresentazioni mentali musicali strutturate su quattro livelli: due strutture “orizzontali”, ritmo e raggruppamento, e due strutture gerarchiche “verticali” formalizzabili come alberi binari [4, p. 253] e chiamate “riduzione temporale” e “riduzione del prolungamento”. GTTM trova in [3] un parziale riaggiustamento e un complemento, specialmente in fatto di quantificazione e formalizzazione dei parametri cognitivi musicali (analizzati in [2] come “regole di preferenza” non facilmente implementabili [4]).
RT è stata inizialmente formulata come teoria cognitivo-pragmatica della comunicazione, ma si è successivamente espansa fino ad assumere le dimensioni di una teoria generale della cognizione. Il Principio di Rilevanza Cognitiva si formula così: “La cognizione umana tende a essere guidata dalla massimizzazione della rilevanza” [5]. La rilevanza di un input è definita come rapporto ottimale tra sforzo ed effetto cognitivi. Qualsiasi input è rilevante per un individuo, in un certo contesto cognitivo, quando può essere messo in relazione all’informazione registrata e accessibile, producendo un “effetto cognitivo positivo” [5]. La rilevanza di un input è una variabile continua e non categoriale e un concetto comparativo e non quantitativo (“x è più rilevante di y, per P nel contesto C al momento t”)[2]. Quanto maggiori sono gli effetti cognitivi, tanto maggiore sarà la loro rilevanza; viceversa, quanto minore è lo sforzo di processamento, tanto maggiore sarà la rilevanza dell’input (ceteris paribus).
Per rendere computazionale la teoria della Rilevanza Musicale dobbiamo però trasformare la Rilevanza in variabile quantitativa. Poiché in [1] non è previsto alcun metodo per calcolare la Rilevanza, formulare un algoritmo che ne approssimi il valore relativamente a un flusso di input musicali ci sembra costituire un passo decisivo per mettere alla prova la natura computazionale del Principio di Rilevanza Cognitiva.

2. Calcolare lo sforzo di trattamento (ST)


In accordo con RT, per risultare (più) rilevante (di un altro), un brano musicale richiedente un certo sforzo di processamento dovrà offrire in cambio un proporzionato effetto cognitivo/emotivo[3] (maggiore di quello offerto da un altro brano richiedente un analogo sforzo di processamento). Per poter calcolare la rilevanza di un input qualsiasi è però necessario quantificare entrambe le variabili che la costituiscono, per definizione: lo sforzo di trattamento e l’effetto cognitivo/emotivo. Riguardo allo sforzo di trattamento (ST), né in [1] né in [2] o [3] vengono formulati metodi per calcolarlo. Riguardo invece all’effetto musicale (EM), inteso come effetto cognitivo/emotivo causato dalla percezione di un brano musicale, diversi algoritmi sono formulati in [3] per il calcolo della tensione e dell’attrazione tonali: tensione e attrazione costituiscono un probabile nucleo di EM, pur non esaurendolo.
Individuiamo due dimensioni di ST: una “orizzontale”, determinata dal fluire del tempo musicale, e una “verticale”, strutturale e gerarchica (la comprensione delle proprietà strutturali di un brano musicale è parte fondamentale della sua comprensione anche non esperta [7]; possiamo pertanto ipotizzare plausibilmente che una quota di ST sia investita nel rilevamento delle proprietà strutturali della musica udita).
In virtù della necessità di mantenere in memoria un numero crescente di eventi musicali,  ipotizziamo poi un progressivo aumento di ST al trascorrere del tempo musicale. Date le capacità finite di immagazzinamento nella memoria di breve termine, ST non crescerà indefinitamente al semplice sommarsi degli eventi sonori: postuliamo l’esistenza di un filtro cognitivo che processi  l’accumulo dei gruppi-frasi, intesi come Gestalten. Poiché le strutture del Raggruppamento di GTTM si elevano ricorsivamente a partire da unità minime, ipotizziamo che un buon livello di default, plausibile a livello psicologico, possa essere il livello del gruppo minimo, ossia quello di più basso livello gerarchico, spesso coincidente con un inciso della tradizione musicale occidentale. Nel nostro modello, ogni gruppo-frase riceverà un numero progressivo che misuri l’incremento lineare di ST, nell’ipotesi che la mente calcoli il progressivo allontanamento dall’inizio strutturale del brano: a tale numero dovremo aggiungere i valori della dimensione gerarchica di ST.
In [8] Katz e Pesetsky osservano che tanto la riduzione temporale (time-span reduction = TSR) quanto la riduzione del prolungamento colgono importanti proprietà strutturali della musica: dopo avere confrontato le due strutture, gli autori concludono che ha importanza formale soltanto la nozione di “distanza dalla radice” di un nodo della struttura gerarchica degli eventi sonori. Tale distanza viene quantificata attraverso un “numero RD”: “The RD number of an event e in a structure K, RD(e), is the number of nodes that nonreflexively dominate the maximal projection of e (i.e. eP) in K” [8, p. 32-27]. Considereremo la distanza gerarchica di ciascun evento sonoro dalla propria “proiezione massima”, ossia il suo “numero RD”, come una componente di ST. Poiché nella formalizzazione di [8] il numero RD dell’evento dominante – la testa della frase musicale – è uguale a zero, e poiché non è plausibile che la percezione del primo di una serie di eventi sonori abbia un costo cognitivo nullo, aumenteremo di una unità i numeri RD calcolati secondo la regola di Katz e Pesetsky.
Calcoleremo dunque ST ricorrendo alle regole di TSR formulate in [2, p. 152-178] e parzialmente implementate in [4]. Ottenuta la segmentazione del brano musicale in gruppi-frase, l’algoritmo assegnerà a ognuno di questi un numero progressivo; successivamente si applicherà la regola di Katz-Pesetsky per trovare i numeri DR di ciascun evento sonoro e, dopo averli aumentati di una unità, l’algoritmo li sommerà al numero – che chiameremo “Ng”[4] – proprio di ciascun gruppo-frase. Il semplice algoritmo descrivente questo processo di calcolo di ST sarà dunque:

ST = Ng + DR’ (dove ST = sforzo di trattamento cognitivo; Ng = numero progressivo di gruppo-frase; DR’ = numero DR aumentato di un’unità).

Così calcolato, ST verrà messo in rapporto con EM, entrando a costituire la formula della Rilevanza Musicale: RM = EM/ST.

3. Calcolare l’effetto cognitivo musicale


Riguardo ai tre tipi di tensione tonale distinti da Lerdahl (superficiale, sequenziale, gerarchica), i test sperimentali sembrano mostrare che tutti gli ascoltatori percepiscono anche la tensione gerarchica e che la tensione sequenziale non è una variabile sufficiente per rendere conto dell’effettiva percezione musicale[5].
Nonostante il problema lasciato aperto in [2, 3], per cui la generazione dell’albero TSR di un brano musicale non si fonda su un algoritmo ma su un “sistema di regole di preferenza” [10, p. 340], per calcolare EM faremo ricorso ad alcuni algoritmi formulati in [3] considerando il calcolo complessivo della tensione/attrazione melodica come parte fondamentale di EM:

Hierarchical tension rule: Tloc(y) = d(xdom®y) + Tdiss(y); Tglob(y) = Tloc(y) + Thin(xdom), dove y è l’accordo-bersaglio, xdom è l’accordo che domina direttamente y nell’albero del prolungamento; Tloc(y) è la tensione locale associata a y; d(xdom®y) = la distanza da xdom a y; Tglob(y) è la tensione globale associata a y; Thin(xdom) = la somma dei valori di distanza che y eredita dagli accordi che dominano xdom

Harmonic attraction rule: arh(C1®C2 ) = c[arvl(C1®C2)/d(C1®C2)], dove arh(C1®C2 ) è l’attrazione armonica di C1 verso C2; la costante c = 10; arvl(C1®C2) è la somma dell’attrazione della condotta delle parti per tutte le voci in C1; d(C1®C2) è la distanza da C1 a C2, con C1 ¹ C2.

Formulate inizialmente in [3], queste regole hanno trovato un riscontro sperimentale in [10], predicendo con sufficiente esattezza la percezione di un ascoltatore. Ipotizziamo che tali regole rendano conto congiuntamente di EM: nel calcolo della rilevanza musicale sarà dunque necessario avere una misura aggregata e ponderata della tensione locale, più la tensione globale, più l’attrazione armonica (in [10] si utilizza la tecnica della regressione multipla).
Il nostro algoritmo finale calcolerà così una prima approssimazione della Rilevanza Musicale: tale approssimazione dovrà naturalmente attraversare il banco di prova dell’implementazione e del confronto con i test psicologici sperimentali che ne saggeranno la plausibilità cognitiva.

References
1.       Sperber, D., Wilson, D.: Relevance. Communication and Cognition. Blackwell, Oxford (1986/1995)
2.       Lerdahl, F., Jackendoff, R.: A generative theory of tonal music. MIT Press, Cambridge (1983)
3.       Lerdahl, F.: Tonal pitch space. Oxford University Press, New York (2001)
4.       Hamanaka, M., Hirata, K., Tojo, S.: Implementing "A Generating Theory of Tonal Music". Journal of New Music Research, 35 (4), pp. 249--277, Routledge (2006)
5.       Wilson, D., Sperber, D.: Relevance Theory. In: Ward, G., Horn, L. (eds.) Handbook of Pragmatics. Blackwell, Oxford  (2004)
6.       Carnap, R.: Logical foundations of probability. Routledge and Kegan Paul, London (1950)
7.       Davies, S.: Musical Understandings. In: Becker, A., Vogel M. (eds.), Musikalischer Sinn: Beiträger zu einer Philosophie der Musik. Suhrkamp Verlag, Frankfurt (2008)
8.       Katz, J., Pesetsky, D.: The Identity Thesis for Language and Music, http://ling.auf.net/lingBuzz/000959
9.       Bigand, E., Parncutt, R.: Perception of musical tension in long chord sequences. Psychological Research, 62 (4), pp. 237--254. Springer (1999)
10.    Lerdahl, F., Krumhansl, C. L.: Modelling tonal tension. Music Perception, 24, pp. 329--366. University of California Press  (2007)


[1] Anche se in italiano l’uso invalso è quello di tradurre “relevance” con “pertinenza”, nel corso del testo si userà la traduzione “rilevanza”, in mancanza di ragioni particolari per mantenere “pertinenza”.
[2] Sulla nozione comparativa/quantitativa di rilevanza, si veda [1, §3.2, §3.5, §3.6]. Per la distinzione tra concetti comparativi e quantitativi si veda [1, pp.79-81, 124-32], che rinvia a [6].
[3] In [1], Sperber e Wilson considerano omogenee la sfera cognitiva e quella emotiva.
[4] Per bilanciare Ng occorrerà tuttavia trovare un’adeguata quantificazione dell’effetto musicale causato dalla ripetizione di elementi musicali: proporremo questo bilanciamento in un lavoro successivo.
[5] In [9] si ottiene un diverso risultato sperimentale: gli ascoltatori percepirebbero maggiormente la tensione sequenziale. In [10, p.357] si ipotizza che questo diverso risultato sia parzialmente spiegabile con l’assenza, in [9], delle componenti della dissonanza superficiale e dell’attrazione melodica e per il fatto che il loro metodo incoraggerebbe l’ascolto “momento-per-momento”.

2 commenti:

Anonimo ha detto...

Molto buone cose.

Anonimo ha detto...

Questo articolo è stato estremamente interessante, soprattutto perché ero alla ricerca di pensieri su questo argomento Giovedi scorso.