Baixar este arquivo PDF - NICS
Transcription
Baixar este arquivo PDF - NICS
Editorial Este é o nono número da revista online NICS Reports (NR), a quarta e última edição publicada no ano de 2014, a NR9. Esta edição traz, como de costume, uma seleção de cinco trabalhos de pesquisadores e alunos do Núcleo Interdisciplinar de Comunicação Sonora (NICS). O objetivo das publicações NR é divulga os trabalhos acadêmicos do NICS que já foram publicados em outros meios de comunicação, tais como: simpósios, congressos e revistas indexadas. Neste número, apresentamos cinco artigos divulgados em anais de eventos científicos nacionais e internacionais. Todos estes abordam temas relacionados à ciência e arte da produção e do entendimento da música, em suas diferentes nuances, perspectivas a utilizações, tais como: a cognição musical, a musicologia, as performances multimodais, a música computacional, a psicoacústica e a emoção musical. O primeiro artigo, intitulado “Transgenic Visual-and-Sound Compositions”, de autoria de Artemis Moroni, Rafael Bocaletto Maiolla e Jonatas Manzolli, apresenta os resultados com formas num ambiente computacional evolutivo aplicado à produção gráfica. O segundo artigo, intitulado “Composição musical a partir da análise sonora de técnicas instrumentais, via descritores de áudio”de autoria de Ivan Eiji Yamauchi Simurra, trata da composição e da performance musical, como importantes frentes de trabalho as quais estão inseridas no universo complexo do criação musical, onde analisa, na história da música, o trabalho colaborativo entre o planejamento e as estratégias composicionais com as práticas interpretativas e execução musical. O terceiro artigo, intitulado “Projeto Destino Pirilampo: Um Estudo sobre a Composição de MetaSoundscapes em Música Ubíqua”, de Luzilei Aliel e José Fornari, trata da música ubíqua como uma derivação natural da música eletroacústica nas quais equipamentos eletronicos são amplamente interconectados para juntos criarem meta-soundscapes. O quarto artigo, intitulado “An Evolutionary Algorithm to Create Artificial Soundscapes of Birdsongs”, de José Fornari, descreve um sistema computacional evolutivo desenvolvido em PureData para a criação de uma paisagem sonora artificial que emula sons de cantos de pássaros. Por fim, o quinto artigo, intitulado “Aplicações artísticas de ubimus”, de José Fornari, traz exemplos de 7 aplicações computacionais desenvolvidas pelo autor que são aplicadas em pesquisas e performances de música ubíqua. Esperamos que os trabalhos aqui apresentados, no nono número do NICS Reports (NR9) sejam de interessante amplo e diversificado, sendo pertinentes e úteis a todos os leitores, e assim venham a contribuir para a divulgação e o desenvolvimento da pesquisa em artes sonoras e música mediada pela computação, para todos aqueles que estudam aprofundadamente, ou apenas se interessam pela indefinível e indecifrável fronteira entre a ciência e a arte. Campinas, outubro de 2014 Equipe Editorial da NR NICS / UNICAMP Transgenic Visual-and-Sound Compositions Artemis Moroni1 Rafael Bocaletto Maiolla Jônatas Manzolli 1 Robotics and Computer Vision Division 1 Renato Archer Research Center Rod. Dom Pedro I, km 143,6 13069-901, Campinas, SP, Brazil 1 E-mail: [email protected] Abstract Here we present some results obtained in Shapes, an evolutionary environment applied to artistic production in visual domain. In Shapes environment the user can interactively create and evolve visual compositions by using random variations of pre-programmed objects. Pixels of these compositions can be used in another evolutionary environment, ArTVox, to direct a sound sequence creating, in this way, “transgenic” visual-and-sound compositions. The genetic algorithm is described. Both environments, Shapes and ArTVox, were developed by the authors, in Java. Introduction Recently, a new generation of computing researchers discovered that by using simulated evolution techniques it is relatively easy to obtain novelty, complex novelty. On the other hand, it is correspondingly difficult to direct the flow that novelty takes. Often, the novelty is not useful. The challenge faced by the designers of evolutionary composition systems is how develop structures and knowledge into the evolutionary loop, to lead the evolutionary search to an interesting region. Evolutionary techniques have been used for searching large spaces using simulated systems of variation and selection. The loop, in an evolutionary system, is a rather simple one: it generates, tests and repeats. Such systems maintain a population of potential solutions; they have a selection process and some “genetic operators”, typically mathematical functions that simulate crossover and mutation. Basically, a population is generated; the individuals of the population are tested according to certain criteria, and the best are kept. The process is repeated by generating a new population of individuals – or things, or solutions – based on the old ones. This loop continues until the results are satisfactory according to the criteria being used. The effective challenge is to specify what “to generate” and “to test” mean [1, 2]. All evolutionary approaches do, however, share many features. They are all based, like the diagram in Figure 1, on the general framework provided by J. H. Holland’s original genetic algorithm (GA) [3]. In nearly every case, new populations of potential solutions to problems are created, generation after generation, through three main processes: 1. by making sure that better solutions to the problem will prevail over time, more copies of currently better solutions are put into the next generation; 2. by introducing new solutions into the population; that is, a low level of mutation operates on all acts of reproduction, so that some offspring will have characteristics changed randomly; 3. by employing sexual crossover to combine good components between solutions; that is the “genes” of the parents are mixed to form offspring with aspects of both. With these three processes taking place, the evolutionary loop can efficiently explore many points of the solution space in parallel, and good solutions can often be found very quickly. Initial Population Reproduction Cycle 01000100101000 01010011010001 00101010001010 … 01001000001010 Selection Crossover Mutation Fitness Modified Population 01000000101000 01010011111001 00100000001010 … 01000000101010 Figure 1: The simple genetic algorithm. Figure 1 shows the diagram of the simple genetic algorithm. The population is initialized with random solutions. Parent solutions are chosen randomly from the “parent population”. Then, crossover and mutation operators are applied, generating a modified population, and the evolutionary cycle begins again. In the next section, we will detail some of the processes involved in this kind of populational search. Evolution Applied to Visual Domain Both biological and simulated evolutions involve the basic concepts of genotype and phenotype, and the processes of expression, selection, and reproduction with variation. The genotype is the genetic information that codes for the creation of an individual. The phenotype is the individual itself, or the form that results from the developmental rules and the genotype. Expression is the process by which the phenotype is generated from the genotype. For example, expression can be a biological developmental process that reads and executes the information from DNA strands, or a set of procedural rules that use a set of genetic parameters to create a simulated structure. Usually, there is a significant amplification of information between the genotype and phenotype [4]. Here, we applied this approach to the generation and evolution of abstract pictures [5]. By abstract picture we denote that kind of picture that does not depict objects in the natural world, but instead uses color and form in a non-representational way. For a system to automatically produce “aesthetically pleasing” images, two fundamental components must interact. The first component encompasses the mechanisms to create images. The second component, the hardest in this case, must evaluate the images and choose the next move. Obviously, producing an image is not producing art, as issues of other kind such as aesthetics and expressiveness are involved in the latter. A discussion on aesthetics in this context would imply taking into account artistic variables such as color, composition, proportion, motion, form, shape, to name but a few, and, as a matter of fact, the way they are translated into computational terms. This is a very open question, subject to a flurry of interest and research recently. By this moment, what we have is a new method to generate images by means of genetic algorithms. Genotype, Phenotype and Expression. In biological systems, genotypes are normally composed of DNA. In simulated evolutions there are many possible representations of genotypes, such as strings of binary digits, sets of procedural parameters, or symbolic expressions. In our development, simulated evolution was applied to the generation and evolution of abstract pictures. Each picture has a chromosome associated to it - its genotype – that could be briefly described as follows: picture = (object1, object2, object3, object4, object5, …) In this chromosome, each object has its specific attributes, all randomly initialized, corresponding to the fields of the computational geometric function that is used to generate the object. The dimensions of the picture are pre-defined, and the background is treated as another object. The phenotype is the generated picture, and expression is the necessary process, the sequence of computational steps, to show the picture. Reproduction. Reproduction is the process by which new genotypes are generated from an existing genotype or genotypes. For evolution to progress there must be variation or mutations in new genotypes, with some frequency. Mutations are usually probabilistic. Sexual combination can allow genetic material of more than one parent to be mixed together in some way to create new genotypes. This permits features to evolve independently and later be combined into an individual genotype. In Figure 2, we show two pictures, which are the parents of the pictures presented in Figure 3. Figure 2.a has only one type of object that we call Sun, while Figure 2.b has only Triangle objects. The pictures were created in our most recent visual environment, Shapes, a work in progress, developed in Java. This environment has a library of routines for the generation of different types of objects. Such objects have parametric features, which are instantiated with random values when they are generated. There are so many possibilities of combination that it is almost impossible that two identical objects occur. Figure 3 depicts the offspring obtained from the compositions presented in Figure 2. Note that, if the parent compositions have only objects of type Sun or Triangle, in the offspring we can see compositions with combinations of both objects. These compositions can be evaluated by the user and become the parents of the next generation. They can even be edited in our environment. This would be equivalent to manipulate them genetically before reproduction. In Figure 4 we present some of the objects that are ready to be used in the compositions, with variation. Most of them were inspired by Kandinsky Composition VIII 1923 [6]. Crossover and Mutation. Offspring are generated by the use of the crossover operator, which randomly allocates genes from each parent’s genotype to each offspring’s genotype. Given two parents: picture1 = (object11, object21, object31, object41, object51) picture2 = (object12, object22, object32, object42, object52) and a random crossover point on position 3, for example, the two offspring generated by the simple GA would be: offspring1 = (object11, object21, object31, object42, object52) offspring2 = (object12, object22, object32, object41, object51) Crossover is used about 70% of the time to generate offspring; the remaining 30% are simply clones of their parents. Mutation is then applied to offspring, usually with a low probability. In our case, each object has a specific mutation operator. Once the object is chosen, one of its characteristics is also randomly selected and modified. In Figure 5, we can see some mutations applied in the eclipse object. The pictures are presented as they were obtained, but they are not necessarily subsequent. Sometimes the result of the mutation operator is almost imperceptible. Evaluation. The evaluation function is the only means of judging the quality of the evolved solutions. Remember that evolutionary systems maintain a population of potential solutions. In our case, each composition is a solution among all possible compositions with our objects. The interaction between the evaluation of the solutions and the variation operators (crossover, mutation) to a large part determines the effectiveness of the overall search. Carefully designing suitable evaluation functions requires considerable insight into how the evolutionary algorithm is likely to proceed [7]. (a) (b) Figure 2: Abstract compositions generated in Shapes. But here we find a huge problem. Our function of evaluation is an aesthetic function. Aesthetics is always assumed to be subjective, but aesthetics choices can reflect the opinion of a person, a group of people, or a standard observer that represents some kind of universal aesthetic opinion [8]. How can we measure aesthetics? There are efforts in evolutionary computation that are looking at the question of the aesthetical judgment [9, 10], but like in other evolutionary environments applied to artistic production in the visual domain, here, the aesthetical judgment was left to the user, who observes and evaluates each composition. According to his/her own judgment, the user assigns a score to each composition, in a range of 0 to 10. These scores are then used to determine how many copies of the chromosome of the composition are placed in a temporary area, often termed the “mating pool”, where the crossover and the mutation operators are applied. The higher the fitness of the composition, the more copies are made. In Figure 6 and 7, we present some visual compositions created in our environment. Evolution Applied to Sound Domain Within the last decades, the decreasing cost of technology has fired a revival of interest in the practical association of color-music, or visual and sound domains. Can a chromosome generate a visual and sound composition? We have two other previous evolutionary applications, Vox Populi [11, 12], in sound domain, and ArtLab, in visual domain, which later evolved to ArTVox. ArTVox has features for the automatic generation of abstract compositions which can be translated to sound trajectories. We can also use image pixels to generate a sound sequence, in ArTVox. This does not mean that image and sound are strongly correlated, but it is possible. New problems arise: how can visual and sound features be associated? In his famous book, Kandinsky [13] establishes a parallel between color, form and music. These associations gave rise to two interface features in the ArTVox environment. The first, when active, associates objects with instruments. The second associates color with instruments. The set of relationships applied are those suggested by Kandinsky, but the features of the interface are also open to the user, who can decide his own mappings. After all, according to Kandinsky, “any parallel between color and music can only be relative. Just as a violin can give various shades of tone, so yellow has shades, which can be expressed by various instruments.” Nowadays, computers have features to create works in both domains. Since “transgenic” organisms are defined as those containing one or more genes that came artificially from other species, carrying attributes from one environment - visual - to the other - sound, we have transgenic compositions! (a) (b) (c) (d) (e) (f) (g) (h) Figure 3: The offspring obtained from the compositions in Figure 4. Figure 4: These are some of the objects that are ready to be used in the visual compositions. Figure 5: The mutation applied to the eclipse object. (a) (b) Figure 6: Above, the parents. Conclusions Programs using evolutionary algorithms can generate unexpected structures in different domains: visual, graphic, or musical arts, or in chemistry, engineering, or robotics. The main question surrounding visual and sound compositions does not concern the number of elements, but rather the balanced use of a relatively small family of elements. It seems that if in the past technological problems arose in building engines that worked in the visual and sound domain, the current issue is of a more conceptual nature; a new aesthetical era begins. (a) (b) (c) (d) (e) (f) (g) (h) Figure 7: And now, the descendents. Acknowledgements We would like to thank Leonardo Laface de Almeida and Daniel Gurian Domingues, who worked in the development of JaVox and ArTVox environments. We would like to thank PIBIC/CNPq program and CenPRA, for making this research possible. This research work is part of the AURAL project, supported by FAPESP process 05/56186-9. References [1] A. Moroni, J. Manzolli, F. J. Von Zuben, R. Gudwin, Vox Populi: An Interactive Evolutionary System for Algorithmic Music Composition, Leonardo Music Journal, 10, pp. 49-54, 2000. [2] P. M. Todd, G. M. Werner, Frankensteinian Methods for Evolutionary Music Composition in Griffith, N. & Todd, P. M. (eds) Musical Networks: Parallel Distributed Perception and Performance, Cambridge: The MIT Press, pp. 313-339, 1999. [3] J. H. Holland, Genetic Algorithms, Scientific American, July, 1992. [4] K. Sims, Evolving Three-Dimensional Morphology and Behaviour, in Bentley, P. (ed.), Evolutionary Design by Computers, San Francisco: Morgan Kaufmann, pp. 297-321, 1999. [5] A. Moroni, F. J. Von Zuben, J. Manzolli, ArTbitration: Human-Machine Interaction in Artistic Domains, Leonardo, 35(2), pp. 185 – 188, 2002. [6] W. Kandinsky, Concerning the Spiritual in Art. Dover Publications, 1977. [7] Z. Michalewicz, D. B. Fogel, How to Solve It: Modern Heuristics. New York: Springer, 1998. [8] F. Hoenig, Defining Computational Aesthetics, Computational Aesthetics 2005, Eurographics Workshop on Computational Aesthetics in Graphics, Visualization and Imaging, pp. 13-16, 2005. [9] S. Baluja, D. Pomerleau, T. Jochem, Towards Automated Artificial Evolution for Computer-generated Images in Griffith, N. & Todd, P. M. (eds) Musical Networks: Parallel Distributed Perception and Performance, The MIT Press, 341 – 370, 1999. [10] P. Machado, J. Romero, B. Manaris, A. Santos, & A. Cardoso. Power to the critics - a framework for the development of artificial art critics in IJCAI’2003 Workshop on Creative Systems, Acapulco, Mexico, 2003. [11] A. Moroni, J. Manzolli, F. J. Von Zuben, R. Gudwin, Vox Populi: Evolutionary Computation for Music Evolution, in Bentley, P. and Corne, D. (eds.) Creative Evolutionary Systems, San Francisco, USA: Morgan Kaufmann, pp. 205 - 221, 2002. [12] A. Moroni, J. Manzolli, F. J. Von Zuben, ArTbitrating JaVox: Evolution Applied to Visual and Sound Composition. in Brunet, P., Correia, N., Baranoski, G. (eds.) Ibero-American Symposium in Computer Graphics 2006, Santiago de Campostela, Eurographics Chapter Proceedings, Eurographics Association, pp. 97 – 108, 2006. [13] W. Kandinsky, Concerning the Spiritual in Art. Dover Publications, 1977. Composição)musical)a)partir)da)análise)sonora)de)técnicas) instrumentais,)via)descritores)de)áudio) ! Ivan Eiji Yamauchi Simurra [email protected] Núcleo Interdisciplinar de Comunicação Sonora – NICS/UNICAMP e Instituto de Artes – IA/UNICAMP Palavras-chave: (3 a 5) Composição Musical; Composição Assistida por Computador; Descritores de Áudio; Análise Musical; Performance Musical Contextualização.do.problema.e.justificativa. Composição! e! Performance! são! importantes! frentes! de! trabalho! os! quais! inserem8se! no! universo! complexo! do! criação! musical.! Verifica8se,! ao! longo! de! toda! História! da! Música,! o! trabalho! colaborativo! entre! o! planejamento! e! as! estratégias! composicionais! com! as! práticas! interpretativas!e!execução!musical.! Paralelamente! à! trajetória! supracitada,! verifica8se! uma! preocupação! cada! vez! mais! acentuada! no! que! refere8se! a! resultados! timbrísticos! mais! refinados! e! particulares,! tanto! no! âmbito! do! planejamento! composicional! quanto! pela! realização! instrumental/vocal.! Neste! sentido,! as! áreas! de! pesquisa! em! composição! assistida! por! computador,! computação! musical,! processamento!de!áudio!digital!e!outras!áreas!do!conhecimento,!como!a!matemática,!oferecem! ferramentas!significativas!para!a!análise!e!descrição!do!fenômeno!sonoro.!!! Apresentamos! a! utilização! de! descritores! de! áudio! para! o! planejamento! composicional! e! orquestração! os! quais! analisam! diversas! técnicas! de! execução! instrumental! de! diversos! registros! sonoros.! Utilizamos! essa! metodologia! na! elaboração! da! obra! “O" azeite," a" lua" e" o" rio”! (2013).! Objetivo.Principal. • Relacionar!composição,!descritores!de!áudio!e!performance!musical!na!elaboração! da!obra!“O"azeite,"a"lua"e"o"rio"–"numa"ilha"rodeada"de"ouro,"com"água"até"o"joelho”! (2013),!para!flauta;!clarinete/clarone!e!violoncelo.!! Fundamentação.Teórico>Metodológica.utilizada. No! contexto! da! composição! assistida! por! computador,! há! trabalhos! os! quais! destacam! o! uso! de! técnicas! de! processamento! de! sinais! [Malt! e! Jourdan,! 2008];! de! manipulação! da! informação!musical!simbólica![Assayag!et.!at.,!1999]!e![Laurson!et.!al.,!2002];!e!os!ambientes!os! quais!possibilitam!o!tratamento!e!à!síntese!de!áudio!em!tempo!real![Zicarelli,!1998]!e![Puckette,! 1996].! A! utilização! de! modelagem! matemática! para! o! estudo! de! processos! de! orquestração! musical! reporta8nos! à! pesquisa! realizada! por! Manzolli! (1988).! ! Especificamente,! o! sistema! Orchidée! [Carpentier,! 2008]! foi! desenvolvido! para! assistir! à! orquestração! musical,! utilizando! fundamentos!da!computação!evolutiva!e!algoritmos!genéticos.!! Em!paralelo,!uma!significativa!área!de!desenvolvimento!científico!a!qual!concentra8se!em! recuperar!a!informação!musical!de!um!determinado!registro!ou!performance!sonora!denomina8 se! Music" Information" retrieval! (MIR)! [Byrd! e! Fingerhut,! 2001].! Nela,! utiliza8se! recursos! do! processamento! de! áudio! digital! para! extrair! medidas! estatísticas 1 !as! quais! descrevem! o! comportamento!timbrístico!de!um!som.! A! primeira! etapa! do! processo! de! planejamento! composicional! de! “O"azeite,"a"lua"e"o"rio”! concentrou8se!em!analisar,!via!descritores!de!áudio,!a!“orquestração”!dos!registros!sonoros!de! modos! de! ataque! e! articulação! da! flauta,! do! clarinete/clarone! e! violoncelo 2 .! Utilizou8se! a! biblioteca! de! funções! de! análise! sonora! PDescriptors! implementada,! em! ambiente! PureData! (PD),! por! Monteiro! (2012),! no! NICS/UNICAMP3.! O! diagrama,! a! seguir,! ilustra! as! etapas! do! trabalho!de!elaboração!da!obra:! ! Figura)1:)Diagrama)das)etapas)do)processo)de)trabalho:)a))banco)de)dados)sonoros;)b))“orquestração”) ou)sobreposição)dos)registros)de)áudio;)c))análise)via)descritores)de)áudio)e)d))composição)com)os)resultados) de)análise) Utilizou8se!os!descritores!de!áudio!os!quais!relacionam8se!com!análise!da!diferença!entre! magnitudes! de! componentes! espectrais! adjacentes! e! com! uma! medida! psicoacústica! relativa! à!! !!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!! 1!Tais! como! Centróide! Espectral,! Desvio! Padrão! Espectral,! irregularidade! Espectral,! Loudness,! dentre! outros.!! 2!Utilizamos!o!Banco!de!Dados!Sonoros!“SOL”,!desenvolvido!por!Fabien!Lévy.!Para!mais!informações!em!!! 3!Disponível!em!xxxx.!Data!de!acesso!28/08/2013! percepção! de! intensidade! sonora.! Denominam8se! esses! descritores! como! Irregularidade! Espectral! e! Loudness,! respectivamente.! A! irregularidade! espectral! identifica! e! discrimina! contornos! timbrísticos! “suaves! e! aveludados”! (baixa! irregularidade)! daqueles! mais! “estriados”! ou!“serrilhados”!(alta!irregularidade)![BRENT,!2010].!A!seguir,!apresentamos!os!quatro!pilares! de!referência!timbrística!estabelecido!em!“O"azeite,"a"lua"e"o"rio”:! Pilares)de)Referência) “O"azeite,"a"lua"e"o"rio"–"numa"ilha"rodeada"de"ouro,"com"água"até"o"joelho”)) Baixa!Irregularidade!e!Alta! Intensidade!Sonora! Alta!Irregularidade!e!Alta! Intensidade!Sonora! Baixa!Irregularidade!e! Baixa!Intensidade!Sonora! Alta!Irregularidade!e!Baixa! Intensidade!Sonora! Loudness) 1! 0! Irregularidade)Espectral) 0! 1! ! Figura)2:)Planejamento)composicional)com)critérios)estabelecidos)pelos)descritores)de)áudio.)Os)valores) “1”dos)eixos)indicam)alta)irregularidade)e)intensidade)sonora.) Principais.conclusões.. Os! procedimentos! composicionais! e! metodológicos,! aqui! reportados,! não! objetivam! estabelecer!um!tratado!contemporâneo!de!orquestração!e!instrumentação!auxiliado!por!suporte! computacional.! ! No! entanto,! este! trabalho! propõe! o! desenvolvimento! de! ambientes! para! criar! objetos!sonoros/musicais!os!quais!podem!ser!observados!a!partir!dos!métodos!de!recuperação! das! informações! musicais.! Neste! contexto,! a! primeira! etapa! do! processo! de! planejamento! composicional! e! orquestral! concentra8se! em! coletar! o! material! de! trabalho! composicional! via! análise! estatística! do! comportamento! espectral! das! gravações! sonoras! de! execução! instrumental.! A! escolha! do! descritores! de! áudio! utilizados! para! a! análise! do! material! composicional! refina!as!tomadas!de!decisão!do!compositor.!A!irregularidade!espectral!e!o!loudness!descrevem! o!comportamento!timbrísticos!de!sonoridade!mais!aveludadas!ou!estriadas!e!sonoridades!com! maior!ou!menor!intensidade,!respectivamente.! Os! próximos! desenvolvimentos! de! trabalho! concentram8se! nas! etapas! reportadas,! a! seguir,!em!perspectiva:! • Analisar! e! discutir! os! dados! coletados! pelos! descritores! de! irregularidade! espectral!e!loudness.!! • Avaliar!as!distâncias!entre!o!planejamento!composicional,!via!descritores!de!áudio,! com!a!gravação!sonora!da!composição!finalizada! • Aperfeiçoar!o!ambiente!computacional!de!análise!sonora.!! Referências.Bibliográficas. ASSAYAG,!G.;!RUEDA,!C.;!LAURSON,!M.;!AGON,!C.;!DELERUE,!O.!Computer>assisted"composition"at" ircam:"From"patchwork"to"openmusic.!Computer!Music!Journal,!vol.!23,!no.!3,!pp.!59!–!72,!1999.! BRENT,! W.! A! Timbre! Analysis! and! Classification! Toolkit! for! PureData.! University! of! California,! San!Diego,!Center!for!Research!in!Computing!and!The!Arts,!2010! BYRD,!D;!FINGERHUT,!M.!The"History"of"ISMIR"–"A"Short"Happy"Tale.!D8lib!Magazine,!Vol.!8,!No.! 11,!2002.! CARPENTIER, G. Approche! Computationelle! de! l’orchestration! musicale.! Optimization! multicritère!sous!contraintes!des!combinaison!instrumentales!dans!de!grandes!banques!de!sons.! 2008. Universidade Paris VI. pgs. 247! LAURSON,!M.,!KUUSKANKARE,!M.!PWGL:!A!Novel!Visual!Language!based!on!Common!Lisp,!CLOS! and! OpenGL.! Em! Proceedings! of! International! Computer! Music! Conference,! pages! 142– 145,Gothenburg,!Sweden,!September!2002.! MALT,M.;! JOURDAN,E.! Zsa.Descriptors:" a" library" for" real>time" descriptors" analysis.! In! 5th! Sound! And!Music!Computing! Conference,!Berlin,!Allemagne,!31th!july!to!August,!3rd,!2008 MANZOLLI,!J.!Um!Modelo!Matemático!para!Timbre!Orquestral,!dissertação!de!mestrado,!IMECC,! Unicamp,!1988.! MONTEIRO,! A.! Criação! e! Performance! Musical! no! Contexto! dos! Instrumentos! Digitais.! Dissertação!de!Mestrado.!NICS/UNICAMP.!2012.!!159!pgs.! PUCKETTE,! M.! S.! Pure! Data.! Proceedings,! International! Computer! Music! Conference.! San! Francisco:!International!Computer!Music!Association.!1996.!pgs.!269–272.!1996.! ZICARELLI,! D.! An" Extensible" Real>Time" Signal" Processing" Environment" for" MAX.! Proceedings! of! the! 1998! International! Computer! Music! Conference.! San! Francisco:! International! Computer! Music!Association.!1998,!pgs.!463–466. ! Título do artigo: Projeto Destino Pirilampo: Um Estudo sobre a Composição de MetaSoundscapes em Música Ubíqua Luzilei Aliel José Fornari Resumo: Música ubíqua é aqui entendida como uma derivação natural da música eletroacústica nas quais equipamentos eletrônicos são ubiquamente interconectados para juntos criarem música. Com este ambiente informacional, é atualmente possível fazer uma composição de paisagens sonoras (soundscapes) criada de material sonoro advindo de distantes e distintos soundscapes. Nós chamamos a este resultado de “metasoundscape”. Este artigo apresenta e discute o processo de criação e desenvolvimento da instalação de arte sonora intitulada "Destino Pirilampo" (DP) que explora esta premissa. DP é uma instalação performática multimodal desenvolvida para gerar meta-soundscapes (soundscape composto de diversos, distintas e distantes soundscapes). Esta explora a interação remota entre soundscapes cujo material é manipulado em tempo-real por um único performer. DP usa um aplicativo de VoIP (voice over internet protocol) para coletar e enviar dados sonoros dos soundscapes para o performer. Juntos, estes se tornam agentes de um sistema aberto e complexo, com significado estético emergente através de um processo de auto-organização. Sem utilizar sons gravados, DP cria um meta-soundscape interativo e artificial, que é um ambiente sonoro composto por um processo de música ubíqua contendo objetos sonoros sintetizados e naturais, manipulados em tempo-real pelo performer. Este trabalho é também um estudo de sonologia. Palavras-chave: paisagens sonoras, sonologia, música eletroacústica Title: Studying the Composition of Meta-Soundscapes in Ubiquitous Music Abstract: Ubiquitous music is here understood as a natural derivation of electroacoustic music, in which electronic devices are now ubiquitously interconnected to make music together. With that apparatus, it is now possible to create a soundscape composition made of sonic material from distant and distinct soundscapes. We call that a meta-soundscape. This article presents and discusses the process of creation and development of a sonic art installation entitled “Firefly Destination” (DP) that explores this premiss. DP is a multimodal interactive artwork developed to generate meta-soundscapes. It explores the remote interaction between soundscapes whose material is manipulated in real-time by a single performer. DP uses a VoIP application (voice over internet protocol) to gather sonic information from soundscapes and deliver it to the performer. Together they act as agents of a complex open system where aesthetical meaning emerges by self-organization. Without using recorded sounds, DP creates an interactive artificial meta-soundscape, which is a sonic environment built by a process of ubiquitous music composition of synthetic and natural sound objects modulated in real-time by the performer. This work is also an study of sonology. Keywords: soudscapes, sonology, electroacoustic music 1. Introdução Atualmente, com os recursos tecnológicos disponíveis, é cabível ponderar sobre o quanto as distâncias geográficas ainda de fato nos separam. Sabe-se que as tecnologias digitais, de comunicação e informação, permitem a interação perceptualmente imediata de dados digitais de áudio, imagem e controle, entre indivíduos localizados em diferentes e distantes partes deste nosso planeta. Tal interação proporcionada pela tecnologia atual possui mediação eletrônica digital que, em muitos casos, ocorre sem mediação perceptual (a percepção consciente da existência de um atraso entre a transmissão e a recepção de uma mensagem, no caso, acústica ou óptica), porém sempre com mediação tecnológica, já que sempre existirá um atraso em qualquer tipo de comunicação, conforme definido em [Barbosa 2010]. Esta situação pode vir a criar, em determinadas circunstâncias, uma distonia perceptiva dos sentidos da visão e audição (que, por meio da tecnologia, podem atualmente processar informação remota em tempo-real), em relação aos outros sentidos, como o tato, o olfato ou o paladar (que não há atualmente tecnologia capaz de proporcionar que estes transponham o vinculo territorial, imposto pelos limites da localização espacial da ocorrência do fenômeno), Exemplificando, podemos assistir uma transmissão ao vivo de alguém preparando um bolo, onde podemos ver e escutar o cozinheiro perceptualmente sem atrasos, porém não podemos tocar, cheirar ou saborear o bolo, em tempo-real. Entretanto, pode-se aqui sustentar que a interatividade audiovisual promovida pela tecnologia computacional é atualmente suficiente e bastante para, no mínimo, prover as urgências e os propósitos básicos da comunicação à distância. Na última década, a tecnologia convergiu para a produção em massa de sensores eletrônicos, fomentada pela sua miniaturização e queda de custo. Estes são equipamentos que convertem grandezas físicas em sinais eletrônicos discretos (digitais), tais como os: microfones (intermediados por conversores analógico-digitais); câmeras de vídeo digital; circuitos integrados de acelerômetros, giroscópios, bússolas; GPS (sistema de posicionamento global) e afins. Estes equipamentos permitem a aquisição de dados dinâmicos da localização, do movimento e dos gestos, que podem ser transmitidos remotamente, em tempo-real, de forma dinâmica e quase que instantânea. Exemplificando, pode-se atualmente transmitir os dados de um sensor de movimentos, como um acelerômetro, ou giroscópio, e possibilitar que dois indivíduos remotamente localizados joguem, em tempo-real, uma partida de pingue-pongue, mesmo ambos estando localizados remotamente. A interatividade destes novos sistemas de informação e comunicação parece convergir a propiciar a exploração de múltiplas mídias, tais como: som, gestos e informações visuais, que agem como peças estruturais para a possível construção de uma experiência multimodal imersiva, que pode promover a criação de um ambiente sonoro não limitado a uma única localização geográfica, mas que abrange, permeia e intersecciona distintos e diversos espaços sonoros remotamente distribuídos. A aquisição e a transmissão de dados multimodais, de forma perceptualmente imediata, permitiu a criação do projeto aqui apresentado, intitulado: "Destino Pirilampo" (DP). Este artigo abordará a exploração de possibilidades multimodais que podem ser geridas em três níveis de interação: 1) o som, 2) a imagem e 3) o gesto. O projeto DP tem como objetivo estender o conceito composicional inicialmente introduzido pela eco-composição, transcendendo, através da geração de meta-soundscapes (paisagens sonoras, ou soundscape formado por diversos soundscapes), o efeito de source-bounding, definido em [Smalley 1990] como um conceito que trata do viés cognitivo automático, ou gestáltico, que imediatamente associa eventos sonoros às suas respectivas e prováveis fontes sonoras. Tal ligação contextual pode ser entendida como um fluxo informacional entre objetos sonoros e suas respectivas origem generativas. Entretanto, os avanços tecnológicos ainda não são totalmente capazes de garantir que uma performance de música formal (aquela cuja boa execução depende, entre outros, da inexistência de atraso sonoro perceptível entre os interpretes, como, por exemplo, a execução de um quarteto de cordas) pudesse de fato atuar ao ser formado por músicos distribuídos em locais remotos, mas atuando juntos, numa performance musical mediada por recursos computacionais. Até o momento, diversas experiências nesse sentido foram elaboradas, como as performances remotas exibidas na série de vídeos, intitulada "Virtual Choir", de Eric Whitacre (disponíveis no link: http://goo.gl/NbmnfO) . Entretanto, tais experiências ainda parecem estar em seus estágios iniciais de desenvolvimento, ainda necessitando de uma grande quantidade de edição, pós-produção e acertos manuais, para exprimirem seu conteúdo estético, e mesmo assim, por não ocorrerem em tempo-real, ainda se submetem ao inexorável atraso de transmissão digital presente em qualquer comunicação de dados online. Como sugerido, um grande problema para a interatividade remota computacional em performances musicais – especialmente para a música formal, conforme definida acima – é o atraso, também chamado pela engenharia de processamento digital de sinais de “latência”. Este fator é especialmente percebido em interações separadas por grandes distâncias físicas. A latência ocorre devido ao limite físico do intervalo temporal que a informação sonora necessita para viajar entre a sua fonte de geração acústica e a sua recepção (o ouvinte). De acordo com [Fornari 2010], este é um dos elementos que podem ter contribuído para que a orquestra clássica, ao longo de sua evolução histórica, alcançasse um limite específico em termos de tamanho de sua distribuição física, dado pelo espalhamento e disposição geográfica dos músicos que compõem uma orquestra convencional, e assim, do tamanho dos palcos construídos especialmente para atender a tais performances musicais. Este limite é de aproximadamente 34 metros. O som leva cerca de 1/10 de segundo (100 m/s) para viajar 34m no ar, em condições normais de temperatura, pressão e umidade. Este é aproximadamente o intervalo de tempo requerido para que o sistema auditivo perceba conscientemente o atraso na comunicação sonora, criando efeitos acústicos tais como a reverberação e o eco. Este foi nomeado de LIS (Limite de Interatividade Simultânea). Qualquer comunicação sonora entre músicos (que normalmente necessitam de um alto grau de sincronização durante uma performance) separados por uma distância maior do que LIS (34m) tenderá a gerar déficits de sincronização, devido à ocorrência da percepção do atraso na cooperação performática. Seguindo este mesmo princípio, para interações entre músicos através da internet, a ocorrência de latência, apesar da distância entre os interpretes, propõe um limite similar ao LIS. Consequentemente, problemas similares de sincronização musical podem ser encontrados até mesmo em interações remotas. De acordo com [Barbosa 2010], mesmo considerando uma situação hipotética em que alguém tenha conseguido acesso à maior velocidade possível de processamento de dados, em determinadas circunstâncias, um atraso significativo de comunicação ainda seria percebido. Este autor menciona que, mesmo considerando a mais rápida comunicação possível numa ligação ponto-a-ponto (peer-to-peer) entre dois indivíduos localizados em lados opostos do nosso planeta, estes estariam separados por uma distância de cerca de 20.000 Km, correspondente à metade da distância da circunferência terrestre, que é de cerca de 40.000 Km. Mesmo que os dados dessa hipotética interação fossem transferidos na velocidade da luz (cerca de 300.000 Km/s), a latência perceptual ainda assim estaria presente, a qual iria ser de aproximadamente 133,4 ms, que é maior do que o tempo correspondente para transpor o LIS (100ms), e que assim implicaria em distorções de sincronização entre músicos numa performance realizada em tais condições, que dependesse da sincronia para a sua atuação. Tal fato nos faz concluir que não há uma maneira possível de evitar a ocorrência de latência nas interações musicais remotas. Devido a esta constatação, algumas pesquisas recentes, em performances de música eletroacústica, ao invés de tentarem evita-la, utilizam a latência como mais um elemento estético no desenvolvimento artístico e exploração computacional [Traub 2005]. Considerando este contexto, o trabalho aqui apresentado também não busca superar a intransponível latência, mas sim minimiza-la, produzindo uma comunicação sonora dinâmica e em tempo-real. O projeto DP desenvolve um modelo sonoro interativo que incorpora a inexorável barreira da latência, presente em qualquer comunicação remota. DP não depende da sincronização entre os seus agentes formantes, uma vez que o resultado final é a criação de um meta-soundscape; aqui definido como um soundscape (paisagem sonora) produzido por múltiplos, distantes e distintos soundscapes, o qual é uma forma de arte sonora que não dependente particularmente da sincronização de seus agentes, como acontece normalmente no caso de música tradicional formal. Uma definição detalhada de soundscape de ser obtida em [Truax 1992]. Com isto, este trabalho também alinha-se ao campo da sonologia, conforme definido em [Iazzetta 2008]. Segundo este autor, conceito de sonologia engloba as “novas músicas, feitas com novos instrumentos, observadas com novas teorias e escutadas com novos ouvidos”. O termo “sonologia”, já conhecido e utilizado em diversos países como “sonology”. Segundo Iazzetta, este “...sempre esteve conectado [a] uma concepção musical cujas práticas se avizinhavam das ciências e da tecnologia. Remete a uma música que incorpora as mídias e os artefatos da era eletrônica, os conhecimentos da acústica e psicoacústica, as ferramentas lógicas de auxílio à criação aliadas ao artesanato característico dos fazeres mais tradicionais”. Este é um termo atualmente adotado por pesquisadores e instituições brasileiras e internacionais – como o Institute of Sonology, no Royal Conservatory of The Hague1 – para fazer referência a um campo híbrido de pesquisas musicais, onde o som é estudado como o elemento permeante entre diversas áreas do conhecimento, tal como a: acústica, psicoacústica, cognição, análise, composição e performance musical. A seção seguinte descreve o projeto artístico DP; a instalação artística e suas relações com os conceitos de eco-composição [Keller 1999; Keller 2000; Lockhart e Keller 2006] e paisagem sonora, ou soudscape [Truax 1992]. 2. O Projeto DP O principal objetivo do projeto Destino Pirilampo (DP) é possibilitar a exploração e promover a interatividade na manipulação de eventos sonoros vindos de soundscapes remotamente distantes, através da transmissão de dados para um único performer que orienta o processo generativo. O motivo que inspirou o nome deste projeto foi comparar o único performer com uma fonte de luz que atrai insetos voadores; no caso, eventos sonoros. Há ainda, como fonte inspiradora, a teoria do "efeito borboleta", de Lorenz (explicada em detalhes mais adiante) onde se crê que um sentido estético sonoro pode vir a emergir de um ambiente informacional inicialmente caótico. A licença poética aqui utilizada se baseia na seguinte suposição: se um inseto voador, quando atraído em direção a uma fonte de luz, eventualmente encontra a sua própria morte; um pirilampo (vaga-lume), que tem em si uma 1 http://goo.gl/a8M0AD fonte luminosa, ao ser atraído para uma fonte de luz maior, encontra a si próprio. O performer é aqui representando pela metáfora da “fonte de luz”, que atrai, manipula e transmuta objetos sonoros (os “pirilampos”) vindos de distantes paisagens sonoras e formando assim um metasoundscape. Isto tenta representar metaforicamente o retorno dos eventos sonoros, dos soundscapes remotos, a um estado similar ao de suas origens, ou seja, um novo soundscape. A estruturação deste meta-soundscape, através da interação cibernética entre performer e modelo computacional, é dada pela realimentação sistêmica e controle de eventos sonoros gerados espontaneamente pelos soundscapes naturais. Porém, o meta-soundscape gerado apresenta uma sonoridade única e ubíqua, que transcende a limitação artística do tempoespaço, uma vez que tal meta-soundscape não habita um local físico ou tempo sincrônico, mas um local virtual e atemporal; o ambiente adimensional do ciberespaço. O performer rege o desenvolvimento dessa nova sonoridade através de gestos lúdicos e intuitivos. O sistema possibilita o performer explorar e desenvolver um repertório de gestos, transformando dinamicamente o conteúdo sonoro das múltiplas entradas de objetos sonoros. Este conceito centra-se na correlação do áudio remoto com a animação gráfica, ambas geradas em tempo-real. Esta compõe o apoio visual da criação e mediação do áudio digital de múltiplos agentes. [Barreiro e Keller 2010] propõem que as criações musicais ou atividades sonoras podem ser inseridas numa das três seguintes categorias: 1) atividades individuais sem resultados sonoros diretos; 2) atividades individuais almejando resultados imediatos audíveis; e 3) a interação social por meio da participação ativa de múltiplos usuários. Esta última categoria pode vir a implicar na interação entre os indivíduos imersos em suas paisagens sonoras. Estes poderiam promover novas formas de ação a partir da realização ou do ajuste de si próprios como agentes num novo ambiente. Em DP, o ambiente pode ser apontado como um conteúdo originados a partir de suas possíveis interações sonoras. Grande parte do material sonoro essencial para a construção deste soundscape vem desta forma de interação. A reciprocidade ocorre no ciberespaço, quando os participantes (no papel de agentes) enviam conteúdos na forma de áudio em tempo-real que são processados e controlados num único ambiente, onde o artista e o público estão localizados, criando assim um meta-soundscape. No escopo do modelamento ecológico, existem dois tipos de estratégias relatadas de interação entre o compositor e o ouvinte: 1) a aplicação de nichos artificiais (aqueles que não são encontrados na natureza) e 2) a exploração de “affordances” naturais (canais naturais de interação entre os seres humanos e nichos ecológicos) [Barreiro e Keller 2010]. Tais formas de percepção podem surgir a partir de vários fatores, tornando a experiência sonora única. O processo criativo de DP está relacionado com a interação entre ouvinte e compositor, permitindo a coleta de informações de nichos ecológicos naturais para a produção de metasoundscapes artificiais. No limiar de tal permuta processual, o resultado sonoro pode apresentar características originais, enquanto que, contextualmente, este permanece sendo cognitivamente semelhante, o que é uma condição que satisfaz os princípios fundamentais das paisagens sonoras e da eco-composição. 3. Do Soundscape à Eco-composição Alguns estudiosos analisam a música eletroacústica a partir de três perspectivas distintas: 1) o compositor, 2) o material sonoro e 3) o processo criativo. A música acusmática, que prima pela busca e utilização de aspectos fundamentais do som – colocando-os aparte de qualquer referência ou contexto além dos aspectos sonoros intrínsecos – descende diretamente do pensamento Schaefferiano e se concentra principalmente na figura do compositor [Chion 2009]. Neste tipo de abordagem, o material é compilado e tratado dentro da estética almejada pelo compositor. Desse modo, a música acusmática pode ser definida por uma postura estética que se baseia na compreensão da mente do compositor, atuando com um arquiteto supremo, absoluto e inquestionável de todas as decisões composicionais de sua obra [Barreiro e Keller 2010], tal como pode ser observado nas obras de John Cage, Iannis Xenakis e Karlheinz Stockhausen. A postura de colocar o compositor em primeiro plano à sua obra contrasta com outras abordagens composicionais, tais como a composição de paisagens sonoras, ou soundscapes [Schafer 2001]. Ao contrário da música acusmática, a composição de soundscapes concentra-se principalmente no material sonoro. Este tipo de composição teve inicio na Simon Fraser University localizada no Canadá, onde o compositor e educador Murray Schafer, junto com outros compositores, criou o “World Soundscape Project”. Foi Schafer quem cunhou o neologismo Soundscape (paisagem sonora), seguindo uma associação das palavras “paisagem” (landscape) e “som” (sound), substituindo a palavra "land" (região) de "landscape", por “sound”. A composição de soundscapes prima pela inclusão de material sonoro inicialmente considerado como “não-musical” na criação musical contemporânea [Keller 2004], bem como a classificação de qualquer meio físico como possível gerador espontâneo de sons [Schafer 1997]. Paisagens sonoras naturais são geradas por múltiplas fontes sonoras naturais, que podem ser representadas como os agentes externos de um sistema aberto e complexo que apresenta propriedades emergentes de auto-organização de significado sonoro. Através do processo de auto-organização, um contexto sonoro pode vir a emergir deste sistema, indicando aspectos perceptivos que caracterizam as regularidades e distinguem uma paisagem sonora de outra, tornando a informação acústica singular e continuamente original, já que esta de fato nunca se repete. Entretanto, este ambiente sonoro é auto-similar, ou seja, apresenta a reexposição, ao longo do tempo, de características sonoras que são perceptualmente similares entre si. Por esta razão, gerar um soundscape artificial, ou mesmo propor métodos de sua composição de fato (e não a mera utilização de trechos de gravações do seu áudio, numa forma de colagem sonora) não é uma tarefa trivial. Soundscapes são entidades sonoras dinâmicas e elusivas. Uma vez registrada, na forma de um arquivo de áudio, a paisagem sonora de fato deixa de existir. A gravação de uma paisagem sonora é apenas um registro imaterial do seu fenômeno sonoro; do mesmo modo que uma fotografia é apenas um registro visual de uma paisagem, e não a paisagem em si. Uma vez iniciada, a paisagem sonora não mais se repete. Aquilo que foi gravado é o registro de um fenômeno auditivo dinâmico, cognitivamente semelhante e acusticamente único. Entretanto, o termo "composição de paisagem sonora" normalmente se refere a uma forma de composição que utiliza como material, sons gravados de paisagens sonoras diversas. Um tipo comum de composição de paisagens sonoras é o método denominado de Ecocomposição. Este sistema é baseado na organização dos fragmentos de áudio de uma paisagem sonora, em estruturas modulares que formam assim uma peça musical (ou de arte sonora). A eco-composição cria estruturas composicionais usando conceitos simples, como a modulação e a acumulação de material sonoro. Por meio da interatividade, o compositor (ou mesmo os ouvintes) podem se adaptar dinamicamente à estrutura de composição de uma peça musical dessa natureza, criando uma experiência de audição que visa envolver o ouvinte, possibilitando-o que também este seja um dos agentes compositores deste ambiente sonoro. Essas são características fundamentais da eco-composição, que foca no processo composicional, ao invés de primar pelo material sonoro (como na composição de paisagens sonoras) ou pelo compositor (como na música acusmática). Este trabalho tem como objetivo estender o conceito composicional inicialmente introduzido pela eco-composição. O projeto DP oferece uma possibilidade de entrelaçar dinamicamente materiais de paisagens sonoras oriundos simultaneamente de locais distintos e distantes. Ao invés de usar sons gravados, DP usa o streaming de áudio digital coletado diretamente da geração dinâmica das paisagens sonoras. O performer recebe esta mistura contrastante de eventos sonoros de distintos soundscapes e os manipula através da intervenção de um modelo computacional em Pd, controlando através de dados gestuais a criação de uma nova paisagem sonora gerada por elementos das paisagens sonoras remotas, deste modo transcendendo o conceito de "source bonding" (traduzido aqui como “pregnância à fonte sonora”). Tal ligação contextual pode ser entendida como um fluxo informacional entre objetos sonoros e suas respectivas origem generativas. Em DP, este fluxo é guiado pelo interprete que, por vezes, torna esta associação clara, enquanto que em outros momentos, tal associação torna-se difusa, perdendo a ligação referencial entre o som e a sua origem. Esta nova paisagem sonora é aqui chamada de meta-soundscape. Tem-se assim, no projeto DP, um processo de composição dinâmica onde o fluxo informacional viabiliza a emergência de novos significados sonoros para a percepção e a compreensão desta obra de arte sonora computacional. Tais significados necessariamente condensam-se num conjunto de conceitos cognitivos em comum, entre compositor/performer e os ouvintes, o que permeia esta obra e o seu público. Assim como na linguagem verbal, onde o significado semântico das palavras e suas estruturas sintáticas apenas podem ser entendidos se o ouvinte conhece a estrutura da linguagem, em artes sonoras não-verbais como DP (onde não existe referência sintática ou semântica) é essencial que os ouvintes tenham um conhecimento a-priori da comunicação sonora que está sendo elaborada e desenvolvida [Denora 2000]. Como visto, a interação é parte fundamental da proposta da eco-composição, mesmo na interação coletiva, onde a figura de um único compositor centralizador torna-se difusa ou mesmo inexistente. Em tais condições, materiais, métodos, formas e a audiência, são as partes essenciais que integram esse processo de composição, tornando a experiência deste ato performático altamente significativa para os esforços artísticos [Keller 2004]. Encontra-se no método de criação sonora de DP uma proposta em aberto, validando mudanças entre agentes e objetos em locais remotos, transcendendo assim os limites geográficos do espaço e do tempo. DP expande o conceito de eco-composição, permitindo a comunicação entre os agentes e objetos, separados fisicamente, manipulando-os e transpondo o obstáculo usual imposto à criação musical, por sua permanência numa única localização espaço-tempo. Em suma, DP visa criar um meta-soundscape através de material sonoro adquirido de sons naturais distantes e distintos, onde o performer, como agente que angaria e manipula toda a informação sonora coletada dos soundscapes, guia a geração auto-organizada dessa nova paisagem sonora (o meta-soundscape), criada pela manipulação lúdica e interativa de múltiplas dimensões de sonificação, aproximando assim DP dos processos composicionais da música ubíqua. 4. DP e a Música Ubíqua Em termos gerais, música ubíqua é aquela desenvolvida através da interação de múltiplos usuários conectados entre si por meios tecnológicos, utilizando uma ampla gama de métodos eletrônicos digitais para a comunicação de informação [Pimenta et. al. 2009]. Este conceito está relacionado com a fusão entre a computação e o meio ambiente natural, conforme proposto por Mark Weiser, em meados dos anos 1980 [Weiser 1991]. Pode-se dizer assim que a música ubíqua é proveniente do contexto da computação ubíqua aplicada à música, onde o advento da computação móvel, a independência e a interconexão de dispositivos heterogêneos, a infraestrutura sem-fio (que possibilita penetrância e ubiquidade informacional), a conscientização conceitual, a mobilidade e a portabilidade, são todos cooperativos e complementares, objetivando uma incorporação generalizada de métodos e modelos tecnológicos que constituem um ambiente cibernético. Estas associações tendem a permitir a constituição de uma rede dinâmica de interações entre agentes, objetos e ambientes [Radanovitsck 2011]. No projeto DP, todas as áreas mencionadas acima foram compreendidas, conforme é explicado a seguir. As maciças sonoridades contidas em paisagens sonoras naturais são recebidas, manipuladas e sintetizadas pelo intérprete. Esta estrutura tende a ser guiada por um controle intuitivo, uma vez que tais eventos sonoros possuem um elevado grau de aleatoriedade e imprevisibilidade. Por exemplo, se um dos agentes está localizado num parque, e envia continuamente o seu conteúdo sonoro para o performer de DP; se subitamente, um pássaro ao redor começa a silvar, este será um evento imprevisível (e talvez de improvável repetição) para o interprete que recebe remotamente toda a informação e manipula os objetos sonoros no meta-soundscape. Os elementos e eventos caóticos que constantemente permeiam a produção sonora de DP referem-se ao conceito de autoorganização, conforme explicado a seguir. 5. Do Efeito Borboleta à Auto-Organização O efeito borboleta é um termo comumente utilizado para se referir à teoria desenvolvida por Edward Lorenz, em meados de 1962, que trata de modelos matemáticos para uma determinada classe de movimentos caóticos. Lorenz, um meteorologista, constatou que em determinadas circunstâncias, pequenas variações nos parâmetros de determinadas equações matemáticas (tais como algumas equações utilizadas na predição de aspectos climáticos) podem ocasionar resultados imprevisíveis, impossíveis de serem determinados ou analisados objetivamente. Os efeitos dessas mudanças são tanto quantitativos quanto qualitativos. Estas observações levaram Lorenz a cunhar a celebre frase: "o bater de asas de uma borboleta de um lado do planeta pode desencadear um tufão do outro lado (“a butterfly flapping its wings in one part of the world might ultimately cause a hurricane in another part of the world”). Sistemas caóticos têm como princípio fundamental o grau de desordem (entropia), onde tanto a ordem quanto à desordem são considerados como válidos aspectos sistêmicos. [Naveira 1998] propõe que a teoria do caos seja entendida como uma possível alternativa para a formalização matemática, onde os resultados são, em teoria, perfeitamente previsíveis, e a incerteza de modelos estocásticos, onde as ocorrências de eventos que não podem ser previstos, são normalmente descartados. Deve-se entender que a utilização do termo "caos", que comumente é associado a distúrbios, é de fato enganosa. Na teoria do caos, o termo “caos” não é necessariamente associado à desordem, mas à "ordem mascarada de aleatoriedade" [Naveira 1998]. Este conceito é utilizado em DP. Todo o material enviado via internet é considerado como importante e válido, enfatizando-o não como desordem ou mero erro, mas como uma ordem codificada, disfarçada em aleatoriedade. Como explicado na seção 2, o próprio título do projeto DP ("Destino Pirilampos") é baseado nesta premissa estética, associando o bater das asas de um inseto (no caso, um pirilampo) com a emergência de ordem, onde o efeito final, não é apenas organizado, mas também independente e distinto do resultado (tufão) à soma de suas causas (o bater das asas da borboleta). O recurso de organização espontânea de um fluxo caótico de dados desvenda a informação significativa anteriormente como que disfarçada de caos, o que é aqui entendido como um processo de auto-organização; onde um sistema complexo e aberto produz a emergência espontânea de regularidades que são posteriormente percebidas como significado [Ashby 1947]. Este conceito se entrelaça e avizinha à vários outros conceitos usados na contemporaneidade, tais como: as organizações em rede, as equipes autogeridas, e a aprendizagem organizacional; conforme definidos em [Naveira 1998]. Relacionando música com auto-organização, [Furlanete e Manzolli 2005] apresentou uma proposta de criação de um jogo sonoro em rede que possuía a premissa de conectar vários indivíduos afins que os mesmos possam se comunicar sonoramente. Estes eventos ocorrem através de ciclos reflexivos e retroalimentados. Estes são definidos pela: 1) maneira pela qual o compositor inicia sua obra, 2) o número de ciclos da interação sonora, 3) forma musical que gradualmente emerge. [Manzolli 1996] ressalta que a auto-organização no processo composicional tende a tornar-se uma vantajosa ferramenta uma vez que permite que a espontaneidade faça parte do processo criativo, como um dos aspectos estruturais do sistema. Isto permite a adaptação dos modelos computacionais interativos para serem incorporados como agentes autoorganizadores do sistema, numa forma eficiente de aumentar a autonomia criativa do compositor. Sistemas de composição com base em modelos interativos, como aquele definido em [Mazzolli 1996], referem-se particularmente ao aspecto da interatividade, desconsiderando a magnitude ou a duração dos eventos sonoros. O que se valida assim é a dinâmica da composição e suas fusões temporais. Isso acontece no campo musical quando a figura do compositor e a do intérprete se funde num único agente composicional, o que permite que as estruturas formais interativas e gestuais (ou improvisacionais) intercorram e cooperem [Manzolli 1996]. 6. Métodos e Resultados O modelo computacional de DP foi desenvolvido no ambiente de programação Puredata, também conhecido como Pd (www.puredata.info)) inicialmente desenvolvida por [Puckette 1996]. Pd é uma plataforma de programação visual de código aberto (open-source), multiplataforma (Linux, OSX e Windows) e gratuita, que viabiliza a criação de algoritmos (chamado em Pd de “patch”) para: o controle, a análise, a transformação e a síntese de dados multimidiáticos (áudio, vídeo, controle, etc.) em tempo-real. Para o desenvolvimento computacional do projeto DP, inicialmente foi utilizada a versão do Pd-extended instalada no sistema operacional Linux. Entretanto, devido a problemas técnicos que impediam a comunicação de dados do áudio com o modelo computacional de DP, este foi instalado no sistema operacional Windows. Todo conteúdo do software Pd funciona a partir dos patches. Patches podem ser considerados estruturas pelas quais os algoritmos são desenvolvidos, gerenciados e controlados em Pd. Estes utilizam à manipulação de objetos (conteúdos singulares ao software Pd) para o desenvolvimento dos algoritmos desejáveis pelo desenvolvedor. Para o projeto DP, três patches foram construídos, juntos estes abrangem todas as seis áreas de música ubíqua, conforme detalhado na seção 4. O primeiro patch (figura 1) foi desenvolvido com o intuito de gerar e manipular objetos gráficos (formas geométricas ou estruturas lineares), associados aos aspectos sonoros recebidos, que se modificam dinamicamente em termos de formas e cores, criando uma associação com os dados de áudio recebido e os dados gestuais. Ou seja, quando o som recebido através do software voip e as imagens captadas pela webcam são introduzidos no patch número 1, as variações deste conteúdo podem alterar os comandos algorítmicos dos objetos gráficos, os tornando conteúdos mutáveis, dependentes das variações sonoras. Fig. 1: Imagem do primeiro patch do projeto DP Desse modo, o primeiro patch também contém o módulo de aquisição de dados gestuais que são coletados em tempo-real a partir de gestos do performer (ver figura 2). Eles são dinamicamente capturados pela webcam de um laptop comum, onde o Pd é executado. Durante o procedimento foi utilizado uma webcam comum, imbuída no notebook, que trabalha diretamente com algoritmo desenvolvido em Pd (figura 2). Fig. 2: Imagem do patch da captação dos gestos através do webcam. A figura 1 e 2 demostram o conteúdo produzido para o primeiro patch do sistema em sua forma detalhada, sendo possível, caso necessário, sua reutilização em outros sistemas. A interface gestual aqui utilizada não se baseia num sensor em contato direto com o performer, mas apenas lê os gestos à distância. Por este fato, esta é chamada de interface gestual imaterial, conforme descrita em [Fornari 2012], onde é dito que esta categoria de interfaces gestuais captam os gestos do artista sem a necessidade de contato físico com seu corpo. Os instrumentos musicais tradicionais necessitam do contato com o corpo do instrumentista para que a música seja executada. Desse modo o artista tem que se adaptar à interface gestual física. Já os instrumentos virtuais cuja interface gestual é imaterial, como é o caso do DP, o gesto artístico não precisa se adaptar à uma interface. Desse modo, este pode explorar intuitivamente e desenvolver seu próprio repertório de gestos que corresponderão à sonoridades desejadas.. A figura 3 apresenta um momento desta performance. Fig. 3: Imagem de um momento da performance do projeto DP, detalhando um gesto do interprete, que controla a geração sonora e também gráfica, observada na estrutura verde-amarelo ao fundo. Esta é gerada dinamicamente pelo modelo computacional contido no primeiro patch. O segundo patch é um modelo computacional de síntese sonora subtrativa dinâmica que emula sons contínuos e ruidosos, como o característico som de vento ou de ondas do mar. Para isto foi utilizado um objeto do Pd que cumpre a função de um gerador de ruído branco (ver na figura 3, o objeto “noise~”). O áudio produzido por este objeto foi, em seguida, processado por outro objeto que implementa o algoritmo Chamberlin de filtro de estadovariável. Este implementa 3 filtros simultâneos: passa-baixa, passa-alta, passa-faixa, e rejeita- faixa (ver o objeto "svf~"). No caso deste patch, utilizou-se apenas a saída correspondente ao filtro passa-baixa (low-pass). Este modelo de síntese visa proporcionar uma sonorização para o streaming de áudio digital, dinamicamente controlado, coletado de múltiplas paisagens sonoras. Devido à inesperada característica de variação de dados de áudio deste sistema, foi necessário elaborar uma estratégia que ajudasse a manter o conteúdo sonoro mais interessante durante toda a performance. Observou-se durante os testes que ocorriam momentos onde o fluxo de áudio mantinha-se pouco intenso ou pouco variante, tornando a performance monótona. A maneira de minimizar este efeito foi a utilização do módulo de síntese sonora subtrativa, que gera sons parecidos ao “som de vento”. Isto propiciou maior apelo estético à performance, intercalando-se ao áudio proveniente das paisagens sonoras e permitindo assim com que este se tornasse mais inerente e contextualizado ao resultado sonora da peça; o metasoundscape. O som sintetizado é controlado pela intensidade dos gestos do interprete, que através da exploração dinâmica e intuitiva com este sistema computacional, desenvolveu seu próprio repertório gestual. Os dados destes gestos (neste caso, dado o posicionamento da câmera, foram em sua maioria gestos corporais acima da cintura do interprete, envolvendo movimentos de dorso, braços e cabeça) são coletados pela câmera de vídeo do laptop, que alimenta o modelo computacional do primeiro patch (figura 1 e 2), funcionando este como uma interface imaterial. Detalhes da implementação desta interface podem ser encontradas em [Fornari 2012]. Fig4: Imagem do segundo patch do projeto DP O terceiro patch é um modelo de aquisição de áudio digital que recebe os dados de um aplicativo VoIP (voz sobre protocolo de internet). Neste experimento, o VoIP utilizado foi o Skype um conhecido software de comunicação utilizado por milhões de usuários. Este permite a comunicação por voz em tempo-real de vários usuários simultaneamente. Toda a comunicação é feita pela internet. A proposta artística aqui apresentada utiliza dados de áudio de várias paisagens sonoras localizadas remotamente. Os dados desses ambientes são coletado em tempo-real e transmitido a um único local, através de uma conexão do VoIP em modo “conferência' (conference call), onde todos os dados de informação de todas as diversas paisagens sonoras são canalizados a um único fluxo de áudio. Este fluxo de áudio é recebido pelo terceiro patch (figura 5) e mixado com o áudio resultante da síntese subtrativa do segundo patch, que é intuitivamente controlada em tempo real pelos gestos do performer de DP. Os mesmos gestos também controlam a animação em tempo-real que é dinamicamente renderizada pelo primeiro patch. Juntos, estes três patches criam a experiência multimídia imersiva, dinâmica e ubíqua que se expressa na forma daquilo que é aqui chamado de metasoundscape. Fig. 5: Imagem do terceiro patch do projeto DP 7. A comunicação entre softwares Durante a implementação deste projeto, constatou-se que a comunicação de áudio entre Pd e VoIP não era uma tarefa trivial, como se imaginava a princípio, ao se utilizar o Pd em Linux. Ao pesquisar aplicações de softwares gratuitos e de código-livre que realizassem tal tarefa encontrou-se uma aplicação open-source simples, desenvolvida apenas para Windows, que foi capaz de realizar com sucesso a tarefa de comunicação de áudio entre estes softwares. Este aplicativo é denominado Virtual Audio Cable (VAC)2. Trata-se de um aplicativo gratuito capaz de transferir canais de áudio de um software para outro dentro do mesmo ambiente computacional. Podem existir outras aplicações disponíveis com função similar. No entanto, de todas aquelas testadas para Linux e Windows, apenas o VAC foi capaz de reconhecer e ser reconhecido pelo VoIP utilizado; o Skype. A fim de permitir a transferência de áudio do Skype para Pd através do VAC, deve-se criar dois "cabos virtuais" neste software, que apresenta diversas entradas e saídas para vários canais de áudio. Uma vez que estes cabos virtuais são criados, o Skype e o Pd são instantaneamente reconhecidos e conectados. Para a interação dos envolvidos foi utilizado uma rede de internet de alta velocidade (banda larga). Esta integração será aqui apresentada em forma de um diagrama com o intuito de apresentar os mecanismos capazes de propiciar a interação do software Skype com a plataforma Pd. A figura a seguir demonstra a delineação da integração destes três softwares (Pd, Skype e VAC) em execução e comunicando áudio entre si, em tempo-real. Fig. 6: Diagrama da conexão entre os 3 aplicativos utilizados nessa obra. Através desta interligação, foi viabilizada a comunicação de áudio em tempo-real, que constitui o sistema computacional do projeto DP. 8. Conclusão Este projeto teve como objetivo a exploração artística de criação do que é aqui 2 http://www.virtualaudiocable.net referido pelo nome de "meta-soundscape"; uma paisagem sonora criada pelos dados de distantes e distintas paisagens sonoras, através da coleta e transmissão em tempo-real de seus eventos sonoros. O objetivo almejado inicialmente neste projeto de investigar a possibilidade de unificar múltiplos soundscapes em um único local foi alcançado, através da superação das limitações físicas impostas pela localidade geográfica. Para tal, empregaram-se recursos tecnológicos que permitiram a redução virtual das distâncias entre paisagens sonoras localizadas remotamente criando um fluxo informacional sonoro, enviado para um único local onde a performance artística do projeto DP ocorre. O fato de que contemporaneamente cada vez mais indivíduos estão se conectados através do ciberespaço e compartilhando diversos tipos de dados, em distintos formatos e mídias, interagindo simultaneamente com múltiplos usuários, faz com que projetos artísticos como DP sejam uma consequência natural da exploração artística proporcionada pelos novos meios tecnológicos. Esta é uma performance artística multimodal, que pode futuramente ocorrer através das redes sociais da internet. Sua intenção estética não é pré-estabelecida, mas sim espontaneamente auto-organizada. Este se baseia num modelo computacional interativo que media várias paisagens sonoras remotamente localizadas. Os dados de áudio destas múltiplas paisagens sonoras são transmitidas através de VoIP, permitindo assim a criação de um meta-soundscape que é dinamicamente manipulado por um único performer. DP não pretende ser uma proposta iconoclasta, mas representar uma continuação e expansão da exploração artística do sistema de eco-composição. Enquanto este preserva a figura gerenciadora do artista, a composição é ao mesmo tempo fruto da interação e da colaboração de todos os eventos sonoros das paisagens sonoras distantes, que atuam como produtores de novas possibilidades e significados sonoros, expressos nos objetos da meta-soundscape resultante. Uma das premissas deste projeto é considerar o caos como facilitador de um processo auto-organizacional, que gera meta-soundscapes. Através de uma simples associação com o efeito borboleta, de Lorenz, este projeto também aceita e usa os resultados sonoros imprevisíveis, mantendo a natureza acústica típica das paisagens sonoras. O desenvolvimento computacional centrou na criação de uma interface modular capaz de gerenciar múltiplos fluxos de áudio, criando padrões sonoros que podem ser controlados em tempo-real, durante o período da performance. Este processo foi concebido e implementado por meio de uma interligação entre o modelo computacional de DP, composto pelo: Pd (em três patches), o VoIP (que viabiliza a coleta e a transmissão de dados de áudio) e o VCA (que permite a transferência que dados de áudio entre o VoIP e o Pd). O conceito de manipulação simultânea de várias paisagens sonoras estende a premissa inicialmente desbravada pela eco-composição, permitindo a exploração ubíqua de múltiplos fluxos de material sonoro, o que é aqui considerado como uma singela porém valiosa contribuição para futuras pesquisas acadêmicas e desenvolvimentos artísticos computacionais, para compositores de música contemporânea interativa. Referência ASHBY, W. R. (1947). Principles of the self-organizing dynamic system. Journal of General Psychology 37: 125–128. BARBOSA, A. 2010. Performance Musical em Rede in Criação musical e tecnologias: teoria e prática interdisciplinar, pp. 188-208 - Goiânia: Anppom (Série Pesquisa em Música no Brasil, v. 2). ISBN: 978-85-63046-01-7. BARREIRO, D. L.; KELLER, D. (2010). “Composição com modelos sonoros: fundamentos e aplicações eletroacústicas”. In: Damián Keller e Rogério Budasz (ed.). Criação Musical e Tecnologias: Teoria e Prática Interdisciplinar. Goiânia: ANPPOM, p.97-126. <http://anppom.com.br/editora/Pesquisa_em_Musica-02.pdf> BASANTA, A. (2010). Syntax as Sign: The use of ecological models within a semiotic approach to electroacoustic composition. Organised Sound 15, 125-132. (Doi: 10.1017/S1355771810000117.) BURTNER, M. (2005). Ecoacoustic and shamanic technologies for multimedia composition and performance. Organised Sound 10 (1), 3-19. (Doi: 10.1017/S1355771805000622.) CHION, M. (1982) La musique électroacoustique. Paris: PUF (Presses Universitaires de France). DENORA, T. (2003) After Adorno: Rethinking Music Sociology. Cambridge University Press. UK. 2003. P.02-39 FORNARI, J (2010) Percepção, Cognição e Afeto Musical. In: Anais do XX Congresso da ANPPOM. Criação Musical e Tecnologias: Teoria e Prática Interdisciplinar, CD-ROM. FORNARI, J (2010) Interatividade Musical à Distância. Anais do 6º Encontro de Música e Mídia. 15-17 Setembro 2010. ECA - USP FORNARI, J. (2012). Designing Bodiless Musical Instruments. In: AES BRASIL 2012. 8 10 maio. Expo Center Norte. São Paulo. Os anais da AES Brasil estão disponíveis no link: http://aesbrasil.org/congressos/anais/. FURLANETE, F. P.; MAZOLLI, J. . Interações Musicais em Rede. In: X Simpósio Brasileiro de Computação e Música, 2005, Belo Horizonte. X Simpósio Brasileiro de Computação e Música. Belo Horizonte: Hugo Bastos de Paula, 2005. p. 325-328. IAZZETTA, F. (2008). Proceedings do III Seminário de Música, Ciência e Tecnologia SMCT 2008. http://www.eca.usp.br/mobile/smct2008/. Disponível no link: http://www.eca.usp.br/mobile/smct2012/f/SMCT-2008.pdf KELLER, D. (1999). touch'n'go: Ecological Models in Composition. Master's Thesis in Interdisciplinary Arts, Simon Fraser University, Burnaby, BC, Canada. http://www.sfu.ca/sonic-studio/srs/EcoModelsComposition/Title.html. KELLER, D.; CAPASSO, A. (2000). Social and perceptual processes in the installation The Trade. Organised Sound 5 (2), 85-94. (Doi: 10.1017/S1355771800002053.) KELLER, D. (2000). Compositional processes from an ecological perspective. Leonardo Music Journal, 55-60. (Doi: 10.1162/096112100570459.) http://muse.jhu.edu/journals/leonardo_music_journal/v010/10.1keller.pdf. KELLER, D.; BARROS, A. E. B.; FARIAS, F. M.; NASCIMENTO, R. V.; PIMENTA, M. S.; FLORES, L. V.; MILETTO, E. M.; RADANOVITSCK, E. A. A.; SERAFINI, R. O. & BARRAZA, J. F. (2009). Música ubíqua: conceito e motivação. In Anais do Congresso da Associação Nacional de Pesquisa e Pós-Graduação em Música - ANPPOM (pp. 539-542). Goiânia, GO: ANPPOM. KELLER, D. (2004) Paititi: a multimodal journey to El Dorado. Tese de Doutorado em Artes Musicais. Stanford University. Stanford, CA. 2004. https://ccrma.stanford.edu/~dkeller/pdf/Paititi2004.pdf LOCKHART, A.; KELLER, D. (2006). Exploring cognitive process through music composition. In Proceedings of the International Computer Music Conference (ICMC 2006) (pp. 9-12). Ann Arbor, MI: MPublishing, University of Michigan Library. http://quod.lib.umich.edu/cgi/p/pod/dod-idx/exploring-cognitive-process-through-musiccomposition.pdf?c=icmc;idno=bbp2372.2006.026. MANZOLLI, J. (1996) Auto-organização um Paradigma Composicional. In AutoOrganização: Estudos Interdisciplinares, Campinas, CLE/Unicamp, ed. Debrun, M. Gonzales, M.E.Q. Pessoa Jr. O. 1996. p.417-435. NAVEIRA, R. B. (1998) Caos e complexidade nas organizações. Dissertação de Mestrado. Departamento de Engenharia da Universidade Federal do Rio de Janeiro. Rio de Janeiro: UFRJ. PIMENTA, M. S., FLORES, L. V., CAPASSO, A., TINAJERO, P. & KELLER, D. (2009). Ubiquitous music: concept and metaphors. In Proceedings of the Brazilian Symposium on Computer Music (XII SBCM) (pp. 139-150). Recife, PE: SBC. PUCKETTE, M. (1996). Pure Data: another integrated computer music environment. Proceedings, Second Intercollege Computer Music Concerts, Tachikawa,(pp. 37-41) Japan. PUCKETTE, M. (1996). Pure Data. Proceedings, International Computer Music Conference. (pp. 269-272.) San Francisco: International Computer Music Association,. PUCKETTE, M. (1997). Pure Data: recent progress. Proceedings, Third Intercollege Computer Music Festival. (pp. 1-4) Tokyo, Japan. PUCKETTE, M., APEL, T. (1998). Real-time audio analysis tools for Pd and MSP. Proceedings, International Computer Music Conference. (pp. 109-112) San Francisco: International Computer Music Association. RADANOVITSCK, E. A. A., KELLER, D., FLORES, L. V., PIMENTA, M. S. & QUEIROZ, M. (2011). mixDroid: Marcação temporal para atividades criativas. In Proceedings of the XIII Brazilian Symposium on Computer Music (SBCM 2011). Vitória, ES: SBC. http://compmus.ime.usp.br/sbcm/2011. SCHAFER, R. M. (2001) A afinação do mundo. São Paulo: Ed. UNESP. SMALLEY, D. (1990) Spectro-morphology and Structuring Processes In The Language of Electroacoustic Music, ed. Emmerson, 1990. p. 61-93. TRAUB, P. (2005) Sounding the Net: Recent Sonic Works for the Internet and Computer Networks. Contemporary Music Review. Vol. 24, 2005. p. 459 – 481. TRUAX, B. (1992). Electroacoustic Music and the Soundscape: The inner and the Outer World. In Paynter, John. Companion to Contemporary Musical Thought. Routledge. pp. 374–398. TRUAX, B. (2002). Genres and techniques of soundscape composition as developed at Simon Fraser University. Organised Sound 7 (1), 5-14. (Doi: 10.1017/S1355771802001024.) WEISER, M. (1991) The Computer for the Twenty-First Century. Scientific American, v. 265, n. 3, 1991. p. 94-101. WESTERKAMP, H. (2002). Linking soundscape composition and acoustic ecology. Organised Sound 7, 51-56. (Doi: 10.1017/S1355771802001085.) Websites Primeira performance do projeto DP [Internet]. UNICAMP, Campinas/SP (Brasil): 2013 [em Setembro de 2013]. Disponível em: http://youtu.br/xtxr2XMaM18 Int. J. , Vol. x, No. x, xxxx 1 An Evolutionary Algorithm to Create Artificial Soundscapes of Birdsongs José Fornari Interdisciplinary Nucleus for Sound Communication (NICS), University of Campinas (UNICAMP) Campinas, São Paulo, Brazil. [email protected] Abstract. Birdsongs are an integral part of many landscapes, in urban and countryside areas. Together they constitute an ecological network of interacting sonic agents that are self-organized into an open complex system of similar cognitive aspects, yet with original acoustic content. This work presents a preliminary study and development of an Evolutionary Algorithm (EA) used here for the generation of virtual birdsongs that create an artificial sonic landscape; a soundscape of birdsongs. They are reproduced by genetic operators that build sequences of parameters to control instantiations of a computer model that emulates a bird syrinx. Such models are capable of synthesizing a wide range of realistic birdsongs that altogether compound a dynamic network of artificial bird calls. This system can also be interactive as external input data can be received in real-time through instant text messages from the micro-blog Twitter. These messages are mapped as new individuals living in the EA system population set. As further described, by means of an aimless evolutionary process, the EA system presented here is capable of creating realistic artificial soundscapes of birdsongs. Keywords: Evolutionary Algorithm, Soundscape, Computer model, Birdsongs. 1 Introduction It's remarkable the amount and variety of places where birdsongs can be found and heard. These chunks of acoustical information are exchanged between birds whose identity can even be analysed by specific sonic aspects of their birdcalls. Together they create a sonic network that forms a natural landscape of sounds, known as Soundscape. This term was coined by Murray Schafer and refers to an immersive sonic environment. Soundscapes are immediately perceived by listeners that do not require any training or expertise to recognise them. Most of the time listeners are also immersed in the soundscape and consequently become the agents that are also part of its creation [1]. Such organic-like sonic textures are effortlessly recognizable by means of the automatic sound cognition processes of our mind. Yet, in terms of its acoustical aspects, soundscapes are constantly changing and virtually never repeated. Schafer mostly worked with natural soundscapes, such as the ones found in forests, Copyright © 2012 Inderscience Enterprises Ltd. Jose Fornari waterfalls, or nearby seashores. However, these natural soundscapes are nowadays merged with other man-made soundscapes, such as the ones generated by operating machines, traffic jams and crowds. Instead of being mutually exclusive, they are blended together creating new types of soundscapes, which can be seen as an immersive cybernetic sonic environment, ubiquitously found in most areas where humans inhabit [2]. This intertwinement of organisms and mechanisms – both acting as the agents that constitute an open complex open system – creates a sonic environment with emergent regularities that are acoustically new and cognitively similar. This work presents an evolutionary system that aims to emulate part of the sonic natural emergent capacity of soundscapes. For that, an evolutionary computer model was used here to generate some of the natural characteristics of a true soundscape. This system is able to create a stream of sounds that is, at the same time, similar and novel. This work presents the development of this system; an introductory volutionary algorithm (EA) designed to create artificial soundscapes of birdsongs. 1.1 Inspired by nature The physiological apparatus that allow birds to generate sounds with perceptual diversity and enriching acoustics is utmost sophisticated. Its core is found inside a tiny little organ known as Syrinx, which is roughly the equivalent of human Larynx. Several researchers have developed and presented computer models emulating some of the sonic behaviour of a syrinx, in the attempt of understanding and emulating its sonic properties. Examples of such works are found in [7,8]. However, a syrinx computer model has a large number independent control parameters that need to be properly set in order to generate a specific bird-like sound. This can turn the exploration of new artificial birdcalls, by means of manual tweaking, very difficult, counter-intuitive and cumbersome. Indeed, the simultaneous control of a large number of parameters is a hard task to be conducted by formal (deterministic) mathematical models (such as a system of linear equations) and controlled by typical gestural interfaces (such as the computer mouse and keyboard). On the other hand, natural evolutionary systems, such as the human motor cortex, are capable of easily performing similar tasks, such as simultaneously controlling a large number of parameters involved in each human gesture. The control of all body parts, joints rotations, limbs displacements, and so forth, is a task that is extremely hard to be performed by a deterministic computer model. However, an evolutionary approach can be successfully used to handle complex problems of such category. Similar to the control of multiple body parts that compound a movement, and the control of multiple syrinx models that compound a A Computational Environment for the Evolutionary Sound Synthesis of Birdsongs soundscape of birdsongs are both complex tasks that involve a very large number of parameters to be controlled simultaneously. The system here presented intends to reach this goal, by simultaneously controlling several syrinx models, while also handling the dynamic processes of reproduction and selection of individuals, which will altogether generate the artificial soundscape of birdsongs. The control of a large number of independent parameters in the pursue of solving a complex unbounded problem has been approached by the usage of adaptive computer models. A significant part of the research in this area came from the computing field known as Artificial Intelligence (AI). As many other fields of human knowledge, AI was also inspired by the direct observation of natural strategies of problem solving. Although there are many others, [9] mentions two fundamental sources of inspiration: 1) Human brain, 2) Natural evolution. From the study of human brain, came the development of neural-networks and nonsupervised methodologies to deal with complex systems, such as the researches in the field known as Artificial Neural Networks (ANN). From the observation of Natural evolution – as described by the Darwinian theory of natural evolution of biological species – new computing methodologies were developed, such as the Evolutionary Algorithm (EA) approach that is used in this work. However, here the EA approach is used in a novel manner. Instead of having the evolutionary process guided towards generating and finding a best possible solution, here the evolutionary process is aimless. There is no final goal to be reached or any specific problem to be solved, but to maintain the continuous evolutionary process of soundscape generation. All solutions generated (the birdsongs) are simultaneously part of the artificial soundscape. This EA system is said to be aimless because it is not trying to find unique solutions as there is no specific solution that is the best one. Which is important here is not reaching a final goal but keeping an evolutionary process running. In other words, the result of our EA system is the evolutionary process in itself. The current implementation of our EA system controls up to 20 individuals in a varying-size population set. Each individual is an instantiation of a syrinx model (as described in section 2) which is controlled by a sequence of 16 parameters; the genotype of each individual. Thus, the artificial soundscape of birdsongs is created by all individuals in the population set. 1.2 The computing environment Our EA system was implemented in Pd (www.puredata.info); a free, open-source, multi-platform software environment designed for the programming of real-time data processing. We used an enhanced (also Jose Fornari free) version of Pd, named: “Pd-extended”. This one can handle several types of data, such as: control, audio, image and video; to create computer models for media analysis, transformation and synthesis. Individuals were programmed as a separated model. Each individual is an instantiation of this model: the artificial syrinx model; a procedural physical modelling sound synthesis, controlled by the sequence of 16 parameters (i.e. the genotype). Each instantiation controlled by one genotype generates the sonic behaviour of one perceptually unique birdsong, which turns to its individual's phenotype. Instead of using audio samples recorded from real birds singing – which would in fact make it impossible to create a true artificial soundscape of birdsongs – this work uses a artificial syrinx model, which allows full control of its sonic features and consequently the creation of a virtually infinite amount of realistic and distinct birdsongs. Therefore, in the work here presented, there are no audio recordings of actual birdsongs, or of any other sort, nor any type of permanent data being stored. Nevertheless, most of the time, the artificial soundscape generated by our EA system brings about sonorities that are considered by many listeners as being very realistic, even sometimes leading them to mistakenly believe that our implementation actually embeds audio data from real birdsongs. This EA system has total control on the creation and selection of new individuals, although sometimes it can also generate birdsongs that are quite distinct, but still keeping an inheritable similarity with their predecessors, which bounds them together as belonging to the same population set, so the balance between novelty and similarity is always maintained. For that reason, each individual has its own genotype, represented by a text file containing a sequence of parameters to control one instantiation of the physical modelling sound synthesis. The slight change of values in this genotype corresponds to a clear perceptual modification in the generated birdsong in the population set. It means that the sound of a birdsong generated by this computer model, as perceived by the human auditory system, varies significantly when its genotype is changed. Inside the population set, individuals are born, reproduce in pairs and – after completing their lifespan – they die. In each instant, the sound generated by all “alive” individuals creates the unique soundscape. To start the system, it is required to have at least two individuals' genotypes. They can be randomly generated or provided by the user, as specific birdsong sonorities chosen to start the evolutionary process. A single pair of individuals, by means of the reproduction process, is enough to generate a steady yet variable number of individuals in the population set. The current implementation of our EA system has 4 global control A Computational Environment for the Evolutionary Sound Synthesis of Birdsongs parameters: 1) recombination rate (or crossover rate), 2) mutation rate, 3) lifespan rate (how much, on average, each individual will remain alive) and 4) proliferation rate (how fast each pair of individuals will reproduce). By default these parameters are set to a steady generation of overlapped birdsongs that will hold enough of their sonic identity, at the same time that keeping it novel – although, as further explained, this system will virtually never create clones. These parameters can be changed while the system is running, in order to let the user to explore new and unusual sonorities emerging from different parametrizations of the artificial soundscape being generated. 1.3 Tweeting genotypes A fundamental condition to have true emergence of self-organization in a complex system is to allow internal and external agents acting on it, thus turning it into an open system [15]. In order to turn the population set of our EA system into an open system, it has to be able to receive external data. The chosen way to receive external data, and also turning this an interactive EA system, was through data input from Twitter; the famous internet micro-blog social network service (www.twitter.com). By sending messages to a specific Twitter account, linked to our EA system, it is possible to insert in it new genotypes, mapped from the incoming Twitter text message, thus becoming new virtual birdsong, as further explained. Interesting enough, birdsongs also inspired the creation of Twitter. This micro-blog had its name chosen after a metaphor; by comparing birds tweets with small text messages exchanged among users of this social network. Together they create a single contextual meaning for groups of small text messages. In the interview referred in [3], Jack Dorsey, the creator of Twitter, compares this micro-blog with a soundscape of birdsongs. He says that, “in nature, chirps of birds may initially sound like something seemingly devoid of meaning, order or intention; however, the context is inferred by the cooperation between these birds, as individuals that each one can transmit (by singing) and receive (by listening to the songs) data (birdsongs) with each other. The same applies to Twitter, where many messages, when taken out of context, seem as being completely random or meaningless, but in a thread of correlated messages, they gain significance that unifies them into a single context.” The work presented here followed a similar path, during its development. When receiving Twitter messages, our EA system maps their text characters into a new individual's genotype. The entire EA system was implemented as a Pd patch; a modular, reusable unit of code written in Pd, forming an standalone program. The individuals were implemented as a separated Pd patch that acts as a sub-patch for the main EA patch. This is given by a Pd encapsulation mechanism known as “abstraction”. Each Jose Fornari individual within the population set is an instantiation of this abstraction. Therefore, each Twitter message received into our EA system requires it to instantiate a new individual in the population set which is controlled by the respective genotype mapped from its Twitter message. By inserting a new individual into the population set, the users creates not only a new birdsong but also influences the evolutionary process of the entire EA system, once that this individual will eventually participate into the reproduction process. The reproduction occurs in individuals' pairs. They are chosen by proximity and proliferation rate. At each time interval set by the proliferation rate the closest pair of individuals are chosen to participate in the reproduction process. The selection process is in charge of eliminating individuals whose genotype is too different from the average genotype of the population set. This helps to keep the number of individuals within the population set under 20 (as said before, the maximum amount of individuals allowed in this current implementation). This also contributes to maintain the entire population set within an approximate cognitive similarity (i.e. the individuals phenotypes will be alike). It's important to notice that this EA system does not necessarily require external input data to create an artificial soundscape of birdsongs. Through the action of the mutation operation an artificial soundscape can be successfully generated by running our EA system even without interactivity (i.e. without receiving external data from Twitter messages). The contribution of interactivity in this current implementation is still secondary. We plan to further explore the sonic contributions of interactivity in future and more complex implementations. Also as an enhancement, a simple visual feedback for the population set was built. In this graphical interface, individuals are represented by numbers (from 1 to 20) depicting as random walk icons inside a square plane; a window in the computer screen. Through this graphical representation, we can see interesting moments of the evolutionary process, as individuals getting closer (thus prone to reproduce) or disappearing (when they die). This currently intends to offer a complementary information through the realtime visualization of the soundscape behaviour while it's is being generated (and heard). This may enhance the possibility of an immersive experience for the listeners, considering that in a natural soundscape sonic information is most of the time accompanied by its visual reference. This graphical implementation was also programmed in Pd-extended, using the GEM library, embedded in the main EA system patch. As further described, the implementation here presented is a simple yet unusual aimless EA system. Instead of trying to find a final solution for a complex problem, our system constantly generates a variety of original yet similar solutions with the same aesthetical goal, for the creation of a A Computational Environment for the Evolutionary Sound Synthesis of Birdsongs soundscape of birdsongs. As often observed in nature and arts, in this EA system there are also no problems to be solved but solutions to be created. 2 Emulating Birdsongs Songbirds belong to the biological order known as Passeriformes. This group is very large and diverse, formed by approximately 5,400 species, representing more than half of all known birds. They are divided into two sub-groups: 1) Tyranno (Suboscines, also known as "shouter birds") and 2) Passeri (Oscines, also known as "singing birds"). Both ones have syrinxes as the main organ responsible for the creation of their birdcalls [4]. Unlike humans, birds can independently control their lungs, which allow them to inhale with one lung while exhaling with the other. This allow them to simultaneously sing and breathe, so they can generate very long melodies; way beyond the volumetric capacity of their tiny lungs. In the anatomy of birds, the syrinx corresponds to the larynx in mammals. Syrinx has three groups of muscles that can be independently controlled; one for the trachea and other two for the bronchi. By constricting and expanding these muscles, birds can modify the anatomical aspects of the syrinx, thus modifying the sound generated by it, in a broad range of perceptual possibilities. Inside of the syrinx there is a membrane suspended by a cartilaginous cavity; the tympanic membrane. This is placed on the top of an inflated air bag; the clavicular sac, that let the membrane to freely move sideways. This is the main oscillator of the syrinx and can be compared with the reed of a woodwind musical instrument, such as an Oboe. Birds can also control the flux of air flowing in the trachea, that passes through the clavicular sac and each bronchus. they can also control the sturdiness of the tympanic membrane, by the action of minute lateral and medial muscles muscles located in it, similarly to the ones found in human lips [5]. Figure 1 shows the major parts of a syrinx, depicting the three groups of muscles and the tympanic membrane, where the sound of a birdsong is initially generated. Jose Fornari Figure 1. Basic diagram of a syrinx. There are several computer models developed to emulate the syrinx behaviour [6]. Our work uses the one created by Hans Mikelson, originally developed in Csound programming language [7]. This algorithm was later improved and implemented as a Pd patch, by Andy Farnell, who created an algorithm that emulates the entire birdsong (timbre generation and melodic phrase) [8]. Figure 2 shows a simplified version of the algorithmic structure of the Pd patch used in the syrinx emulation. This is a basic version of this procedural physical modelling sound synthesis programming code. Physical modelling is a sound synthesis technique that emulates by the use of dynamic equations the physical properties and behaviour of a sound source [17]. Figure 2 also shows the dynamic equation of this physical modelling sound synthesis of the syrinx. This one is used as a part of the Pd abstraction sub-patch of the individual, whose instantiations create all individuals in the population set of our EA system. A Computational Environment for the Evolutionary Sound Synthesis of Birdsongs Figure 2. PD patch and corresponding equation of a simplified physical modelling version of the syrinx, where 3 sine-wave oscillators (objects osc~) are controlled by 5 parameters (A1, F1, A2, F2 and Fi). As seen in Figure 2, the core of the syrinx model requires only 5 parameters to create the timbre of a birdsong. The other 11 parameters – of the total of 16 elements of the genotype – are used to control the creation of the melodic phrase of a birdsong, as further explained. 3 The Evolutionary Algorithm Evolutionary Algorithms (EA) have been used as a non-supervised approach for problem solving. EA is a subset of Evolutionary Computation (EC); an adaptive computing methodology inspired in the biological strategy of automatically searching for the best possible solution for a generic and often complex problem [9]. Such methods are commonly used in the attempt of finding the best solution for an unbounded problem, specially when there is insufficient information to model it using formal (deterministic) computational methods. Different from the typical EA usage, the generation of an artificial soundscape is not an optimization problem. There is no evolutionary search towards a single best solution, once that there is no actual problem Jose Fornari to be solved at the end of the evolutionary path. Instead, the system is designed to maintain a steady process of creating similar and variant solutions. Thus, this EA system doesn't deal with the reduction of a convergence time [19]. As it is, the convergence time of our EA system can be seen as limitless. In typical EA applications, convergence time is an obstacle that can be eventually minimized but never eliminated, as a computer model will always require a time duration (often above the designers expectations) to evolve possible solutions and find the best one. Thus, typical EA systems frequently have problems to operate in real time. In this work however, our EA system keeps the steady generation of solutions (birdsongs) and all of them are used as part of the soundscape once that it is formed by the sonic merging of all birdsongs. Thus, our EA system has no trouble to operate in real-time because its convergence time, instead of being very small, is infinite. Our EA system carries on the evolutionary process indefinitely and takes advantage of one interesting evolutionary byproduct; given by the fact that in the evolutionary path, created by the action of the reproduction and selection processes, new solutions are created but usually not repeated (clones), which is particularly interesting in terms of generating true soundscapes, where sounds are also usually not repeated. The concept of using an EA system to create a soundscape belongs to a thread of previous works. The most influentials ones are: 1) Vox Populi; a system able to generate complex musical phrases and harmony by using genetic operators [10], 2) Roboser; a system created in collaboration with the SPECS UPF group, in Barcelona, that uses Adaptive Control Distribution to develop a correlation between the adaptive behaviour in robotic algorithmic compositions [11], and mostly important 3) ESSynth, the evolutionary synthesis of sound segments (waveforms); an EA method that uses waveforms as individuals within a population set that is manipulated by reproduction and selection processes, with a fitness function given by a distance measurement of the perception of acoustic aspects, known as psychoacoustic features [12]. ESSynth was used in several artwork installations. For instance, it was used to create RePartitura; a multimodal evolutionary artwork installation that is based on a synaesthetic computational system that mapped graphic objects from a series of conceptual drawings into sound objects that became dynamically evolving individuals in the population set of an EA system [13]. The first version of ESSynth already showed the potential of generating sound segments perceptually similar but never identical, which is, as said before, one of the fundamental features of natural soundscape. This system was later expanded to include parameters of spatial sound location for each individual, thus allowing the creation of a more realistic soundscape A Computational Environment for the Evolutionary Sound Synthesis of Birdsongs and also the implementation of sexual (in pairs) reproduction process, now being done through pairs of genderless individuals, instead of in an asexual manner, such as a mitotic reproduction [14]. Both features (spatial sound location and sexual reproduction) are also implemented in the current version of our EA system. The implementation of our EA system was developed as a Pd patch named “evopio.pd”. As said, individuals are instances of a Pd abstraction named “ind.pd”. Each instance of ind.pd generates an individual which corresponds to a birdsong belonging to the population set inside evopio.pd. Each instantiation is an independent physical modelling synthesizer of a syrinx. Each genotype is stored as a text file within a folder accessed by evopio.pd, each one corresponding to a single instantiation of ind.pd, manipulated by evopio.pd. Details of the genotype implementation are described in the next section. 3.1. Genes, Chromosomes and Genotypes These 16-element sequences that control each instantiation of ind.pd represents a single and unique genotype. However, in the current implementation, the genotype of our EA system is compounded of one single chromosome. Therefore, this is also seen here as a chromosome. The system temporarily stores these sequence as text files, in a folder that contains all genotypes of the individuals currently alive in the population set. Each element of the sequence is here seen as a gene, which corresponds to one single parameter of physical modelling synthesis (syrinx model) responsible for the birdsong generation. In the current implementation there is still no gender assigned to individuals nor dominance-recessiveness chromosomic hierarchy. Therefore, in our EA system, the 16-element chromosome will control the entire birdsong along its lifespan. When using external data from Twitter messages to inject new genotypes into the population set, each message is mapped into a new genotype. Once that each Twitter message can have up to 140 ASCII characters, all these ones are currently mapped into a single 16-element genotype. The ASCII characters of a Twitter message can be easily mapped to integers between 0 and 127, each number corresponding to a specific ASCII character. For instance, the message “H e l l o W o r l d” corresponds to the numeric sequence “72 101 108 108 111 87 111 114 108 100”. Then, each number of the numeric sequence can be normalized from 0 to 1, and subdivided into sequences of 16 elements, each one corresponding to a chromosome. As the Twitter message can have up to 140 elements, each message can be mapped in up to 8 chromosomes per message. For simplicity this current implementation uses only the first chromosome of each message. In future implementations, the other Jose Fornari chromosomes will be used, specially to handle multi-gender and polyploid genotypes. In this work, although reproducing in pairs, all individuals are genderless and haploids. They control all parameters of the procedural synthesis of a birdsong, as described by the Pd model in [8]. This is an extension of the syrinx model that also handles the articulation of throat (tracheal cavity) muscles and beak, thus not only the characteristic timbre of each birdsong is parametrized by each chromosome, but also the entire melodic phrase that corresponds to the birdsong. The 16 genes that compound the single chromosome of the individual's genotype are: 1) Ba: Beak articulation (control the beak openness rate) 2) Rt: Random “Tweet-ness” (control the rate of the tweet random generator) 3) Ff: Frequency of the first formant (for the first bronchus in the syrinx) 4) Af: Amplitude of the first formant (for the first bronchus in the syrinx) 5) Fs: Frequency of the second formant (for the second bronchus in the syrinx) 6) As: Amplitude of the second formant (for the second bronchus in the syrinx) 7) F0: Fundamental frequency (fundamental frequency, for the entire birdsong) 8) Fe: Fundamental Extent (fundamental sweep extent, for the entire birdsong) 9) Fm: Fundamental frequency Modulation Amount 10) Fb: Fundamental frequency Modulation Base 11) Ft: Frequency of the first tracheal formant 12) At: Amplitude of the first tracheal formant 13) Fj: Frequency of the second tracheal formant 14) Aj: Amplitude of the second tracheal formant 15) Tr: Trachea resonance rate (trachea filter resonance) 16) Ao: Overall amplitude (for the entire birdsong) Figure 3 depicts the organizational sequence of the 16 genes in the single chromosome sequence that constitutes the genotype. Figure 3. The single chromosome sequence of one artificial birdsong genotype. 3.2. Fitness function Once that our EA system conducts an aimless evolutionary process, in A Computational Environment for the Evolutionary Sound Synthesis of Birdsongs theory, to generate an artificial soundscape of birdsongs, this system would not require a fitness function. However, in order to help the evolutionary process to maintain a closer sonic similarity while avoiding the occurrence of super-population, a fitness function was also used here. This one calculates a psychoacoustic distance (D) as explained in [12]. D is given by the Euclidean distance between the values of three psychoacoustic descriptors: 1) Loudness (L), the perception of sound intensity; 2) Pitch (P), the perception or clarity of a fundamental frequency; and 3) Spectral centroid (S), the median of frequency distribution in the sound spectrum. D is given by the following equation: D= √ (( L1− L2) +( P1− P2) +(S1−S2) ) 2 2 2 (1) The psychoacoustic parameters: L, P and S, can be easily calculated by lower-level acoustic descriptors that are commonly found in MIR (Music Information Retrieval), as the ones described in [16]. Selection process calculates Di, the psychoacoustic distance of each newborn individual created in the population set, and also Dp; the average D of all individuals in the population set. The individual whose |Di – Dp| is larger than a threshold T will be marked to not participate in the reproduction process, which means that this individual will live its entire lifespan in the population set but will not pass its genetic traits to further generations. In the current implementation T is hardcoded as T = Da, which means that if a newborn individual has its Di > 2.Da, it will not participate in the reproduction process. 3.3. Genetic operators The reproduction process in this EA system uses the two classic genetic operators: 1) Recombination (or crossover) and 2) Mutation. Acting together, they generate a new individual genotype out of the genotypical information of a pair of individuals in the population set. As said, all individuals in the current implementation are genderless and their genotypes are made of one single haploid chromosome. Recombination creates a new chromosome by calculating the weighed average of the respective genes in each chromosome of the the individual's pairs, according to the reproduction rate. They are chosen by the EA system to reproduce according to their mutual proximity in the population set. This one is calculated by their virtual sound location. In order to have a more realistic soundscape, we emulated each individuals' location in a virtual space by using two simple strategies: Inter-aural Time Difference (ITD) and Inter-aural Level Difference (ILD) [14]. By varying these locations parameters – which is Jose Fornari automatically done by the system, in this current version – the birdsongs are actually heard as if their sounds were moving around an horizontal plan. To hear this effect, the computer running this system needs to be connected to a stereophonic (two-channel) sound system, and this effect is even more realistic through headphones. Mutation operators inserts weighvariability to the new chromosome by multiplying each gene value of the new chromosome with random variables bound to a mutation rate. Let's suppose that there is a pair of individuals whose chromosomes: A and B, in a certain moment, are the closest ones in the entire population set (in terms of the spatial sound location parameters of their respective individuals). If the proliferation rate is such that requires the system to have a reproduction process, then A and B are chosen to create a new individual chromosome: C. This new chromosome will be calculated by the product of each correspondent gene in the 16-element sequences of A and B, but with a weight determined by the recombination rate, tr. This e a scalar real value between -1 and 1, which determines how A and B will be mixed in C. Considering that there would be no action of the mutation operator, if tr = -1, the chromosome C wuold be identical to A. Similarly, if tr = 1, the chromosome C would be identical to B. If tr = 0, each gene of C would be the arithmetic average of the correspondent genes of A and B. If recombination were the only operator, the birdsongs would, at some point, tend to repeat themselves, as there wouldn't be variability inserted in the population set (also considering that this system did not receive any external genotype input data). By default, tr = 0, which delivers a uniform mixing of chromosomes pairs. The equation (2) shows the calculation of the reproduction operator, for the ith gene: A Computational Environment for the Evolutionary Sound Synthesis of Birdsongs (2) What guarantees that there will be no repetition of birdsongs (or, at least, that it will be extremely rare) is the action of the mutation operator. As already suggested, mutation operator is responsible for inserting novelty into the new genotypes, thus helping to avoid the occurrence of clones in the population set. Its action is regulated by the mutation rate, tm, that varies between 0 and 1.This one determines the amount of variability that will be inserted into the genotype of a new individual. This variation is given by the product of each gene in the 16-element genotype sequence by the corresponding elements of another 16-element sequence of random real values (known as the novelty sequence) ranging between [(1-tm), 1]. If tm = 0, the novelty sequence is equivalent to a sequence of ones, so there is no variability inserted into this new chromosome once that the products of the gene values by ones are equal to the same original values. If tm = 1, the sequence of C will be multiplied by a novelty sequence of random values ranging from 0 to 1. Thus, the resulting chromosome will also be another random sequence with values ranging from 0 to 1. This means that all genotypical information of the original chromosome is lost, as there will be no traces of the chromosome previously calculated by the recombination operator. For that reason, it is advisable that mutation rate should be kept small. By default, our system has tm=0.1. This way there will be only 10% of novelty inserted into the new genotypes, while remaining with most of the information related to the sonic aspects of the parents. Equation (3) shows the calculation for the mutation operator, where rand is a random variable ranging from 0 to 1, and i is the ith gene of the 16-element chromosome sequence: (3) Both rates (recombination and mutation) are global controls of our EA system. They are continuous variables that can be dynamically modified by the user while the evolutionary process is running. This allows the user to explore new evolutionary (and consequent sonorities) of the artificial soundscape being generated. Other important global controls are: lifespan and proliferation rates. Lifespan rate controls the average lifespan of each individual in the population set. For each individual, the system by default includes a random variable of about 10% of the global lifespan rate. This guarantees Jose Fornari that although lifespan is globally controlled, each individual will have a slight different lifespan. In future implementations the lifespan may become influenced by a new gene inserted into the individual's genotype. In the current version, usual values for the birdsongs lifespan range from 1 to 60 seconds. Proliferation rate controls the rate of reproductions in the population set. This is done by inserting a time delay in the calculation of genetic operator (recombination and mutation). In the current version, usual values of the proliferation rate range from 0.5 to 3 seconds. Together, lifespan and proliferation rates can guide the variable-size population set to opposite extremes. If the procreation rate is kept always smaller than the lifespan rate, individuals will die faster than they reproduce and the number of them in the population set will decrease until its extinction. On the other hand, if the procreation rate is kept bigger than the lifespan rate, individuals will reproduce faster than others are dying, so the number of individuals in the population set will increase until it becomes overpopulated. If the superior limit of 20 individuals in the population set were not hardcoded, in the occurrence of overpopulation the system would eventually consume all processing and memory resources of the machine running it and the EA system would be halted by overflow. In the current implementation, however, this will not happen. The system will keep running with the top capacity of 20 individuals in the population set until the user changes the lifespan and proliferation rates, or manually stop this evolutionary process. 4 Artificial Soundscapes This section explains the perceptual sonic results of the current version of this EA system. As briefly described in the introduction, soundscapes are immersive landscapes of sounds, mostly found in nature – such as the sonic environment created by waterfalls, storms, birdsongs, and so forth – but also found in urban areas – such as in traffic jams, building constructions and crowds. Any listener can immediately recognize a soundscape that he/she had previously experienced. Often, listeners are also agents of their composition (e.g. as in a traffic jam, where each driver is listening and also creating its typical soundscape). Therefore, soundscapes are immersive environments also because their listers are frequently their formant agents [1]. Soundscape are the result of 3 processes: 1) Sensation, 2) Perception and 3) Interaction. According to Schafer, these processes can be classified by the following cognitive aspects: 1) Close-up, 2) Background, 3) Contour, 4) Pace, 5) Space, 6) Density, 7) Volume, and 8) Silence. A Computational Environment for the Evolutionary Sound Synthesis of Birdsongs Soundscapes can be formed by five categories of sonic analytical concepts. They are: 1) Tonic, 2) Signs, 3) Sound marks, 4) Sound objects, and 5) Sound symbols. Tonics are the active and omnipresent sounds, usually in the background of the listener's perception. Signs are the sounds in the foreground that quickly draw listener's conscious attention, once they may contain important information (i.e. a lion roaring, squealing tires, a thunder etc.). Sound marks are sounds that are unique of a specific soundscape, that can not be found elsewhere. Sound objects, as defined by Pierre Schaeffer (who coined its term) are acoustic events that perceived by the listener as a single and unique sonic information. For that reason, sound objects represent the systemic agents that compound a soundscape. Symbols are sounds that evoke cognitive (memory) and affective (emotional) responses, according to listeners' ontogenic and phylogenic background. These cognitive aspects are emergent features that imbue contextual meaning for the self-organizing process of complex open systems that create soundscapes. As such, these units can be retrieved and analysed in order to classify the soundscapes features. However, they are not sufficient to define a process of artificial soundscape generation. In order to do so, it is necessary to have a generating process of symbols with inherent characteristics of similarity and variability. In this work, this was achieved by the usage of an aimless EA system. Such adaptive computer model proved to be able of generating an effective artificial soundscape of birdsong. By the interaction of individuals (sound objects) within the evolutionary population set (soundscape), our system spontaneously presents tonics, signals and sound marks, as defined by Schafer. In a systemic viewpoint, a soundscape can be seen as a self-organized complex open system formed by sound objects acting as dynamic agents. Together they orchestrate a sonic environment rich of interacting sound objects that are always acoustically unique and perceptually similar, which allow their immediate identification and discrimination by any listener who had already heard a birdsong. 5 Experimental Results The experimental results described here show that this EA system was able to generate artificial soundscapes of birdsongs even without receiving messages from Twitter messages. This external input is an enhancement of the current system to turn it interactive. By the action of recombination and mutation operators, this system could create realistic soundscapes of birdsongs, similar to the ones found in nature, also without the usage of recorded audio data from real birdsongs. Jose Fornari The insertion of external data through Twitter messages is, for this current implementation, an enhancement that turns the population set in an actual open system. However, this is not required to actually create a convincing soundscape as the variability is provided by the action of the mutation operator. The following link presents an audio recording of our EA system running without receiving external data, for about 3 minutes: http://soundcloud.com/tutifornari/evopio. This other link presents a video of this EA system creating a true soundscape of birdsongs, also without receiving any external messages (http://youtu.be/o8LtGbRa-FI). This video shows a 3-minute talk at TEDxSummit 2012, in Doha, where the author presented this EA system. This video can be found in Youtube, under the title “Jose Fornari: An algorithm to mimic nature's birdsongs”. Finally, the following link shows a video of the computer screen of a typical run of our EA system. It is available in Youtube under the title “EVOPIO” and its direct link is: http://youtu.be/q544QrL4-Nw. In this demonstration, the system starts with 50% of crossover rate and 30% of mutation rate. The first birdsong is heard in the instant 0m03s. In 0m37s mutation rate is lowered to zero. In consequence, the soundscape of birdsongs becomes less variant. In 1m10s, mutation rate is raised to 50% which allows the slow emerging of distinct and unusual birdsongs. In 1m38s lifespan rate is lowered, which slowly shorten the birdsongs duration. In 2m04s proliferation rate is raised, then, in 2m17s, it is lowered to its minimum, which raises the amount of short birdsongs in the population set. In 2m40s lifespan is raised again. In 3m07s proliferation rate is raised and lifespan rate is lowered to its minimum. In 3m27s proliferation rate is raised to almost its maximum, which makes impossible for the EA system to create new individuals faster than other individuals are dying (resulted by the small lifespan rate). The result is that the entire population is finally extinct. All these modifications were done to demonstrate the sonic perceptual changes in the soundscape generated in real-time by the manipulation of global parameters in the current implementation of our EA system. 6 Discussion and Conclusions This paper presented a preliminary study on the creation of a computer model that generates artificial soundscapes of birdsongs by means of a novel EA system that carries an aimless evolutionary process. This one proved to be effective in the creation of artificial soundscapes, a task that seems impossible to be reached by means of deterministic methods. The major difference between our EA system and a typical one is that it does A Computational Environment for the Evolutionary Sound Synthesis of Birdsongs not seek for the best possible solution but focus on the process itself, as a steady generation of similar and variant solutions that together compound the soundscape. This EA system has an infinite convergence time where similar yet variant birdsongs are born, reproduce and die. For that reason our EA system can easily operate in real-time, performing its major task of keeping a process of generating and controlling an artificial soundscape. This system was enhanced by incorporating a visual real-time representation of the soundscape that can be watched in the videos previously mentioned. This simple graphical representation of the individuals moving inside the population set shows their basic behaviours. Each individual is represented by a number. The variation of the position of each individual is represented by the corresponding variation of spatial sound location parameters that control ITD and ILT algorithms, as described in [14]. The reproduction is triggered by the proximity between pairs of individuals through the calculation of the values of these sound location parameters. Although represented in a plane (i.e. a windows in a computer screen) individuals actually move in the three dimensions of space. The size of the number in the windows (representing the individual) corresponds to the depth of this individual's location (i.e. the bigger the number, the near is the birdsong). When the individual dies, its number disappear for awhile and reappears when it is reallocated by the system, as a new birdsong. Therefore, each number works as a slot for a birdsong that is currently active (alive). The maximum number of 20 simultaneous individuals in the population set was chosen not because of computational but cognitive capacity. When experimenting with larger populations set for this current EA systems, we realised that more than 20 individuals would not make a perceptual difference in the sonification process. Any typical computers nowadays can easily run this computer model without major processing or memory restrictions. The full version of this Pd implementation can be downloaded by the following link: http://sites.google.com/site/tutifornari/academico/pd-patches. Each birdsongs is a sound object of the artificial soundscape. Sound objects are generated by the instantiation of a physical modelling synthesis algorithm of a generic syrinx computer model controlled by a sequence of 16-element parameters (genes). In the current implementation, this sequence represents both the chromosome and the genotype (as the genotype here is compounded of one single chromosome). The initial genotypes of the population set are randomly created or inserted by the user. This can be done manually or through a Twitter text message, while the system is running. As said, this external input is an enhancement that our EA system does not really depend upon to create a realistic Jose Fornari soundscape of birdsongs, but that turns its population set into an open system, which is one of the fundamental conditions to have the emergence of self-organization. We aim to further explore this interesting feature in future and more complex implementations of this EA system. As said, this current implementation still lacks individuals' gender, although in this system individuals already reproduce in pairs. Future implementations may explore the design of multiple genders and experiment with them about the distinctions in the sonic aspects of soundscapes generated by n-gender individuals. Currently, individuals' pairs are selected by spatial sound location proximity. Each individual moves aimlessly inside a sonic field defined by their location parameters. In future implementations this continuous aimless movement can be replaced by a goal-oriented movement, such as individuals foraging for energy intake and preservation (i.e. food, shelter) whose performance may also influence individual's lifespan. From time to time, the selection process seeks and eliminates individuals with genotype too distant from population average. That helps the entire population set to maintain a certain phenotypical similarity among individuals, specially after long periods of running. However that does not avoid the opposite problem; the occurrence of clones. Mutation is the most important process that avoids the creation of clones. By the action of this operator, the chances of having a clone in the population set are virtually null. Considering that each gene had a numeric scale of only one decimal place (e.g. 0.5) the probability of having a clone (i.e. the same exact 16-element genotype sequence), is (10 -1)16 = 10-16, which implies in the probability of having one single clone after 1,000,000,000,000,000 reproductions. The syrinx model was developed as a physical modelling sound synthesizer. As said, this is an adaptation of the algorithm originally introduced by Hans Mikelson and extended by Andy Farnell. This late one also incorporated extra 11 parameters for the emulation of an entire bird melodic phrase, which is (with minor adjustments and adaptations) the computer model used in this work to generate these birdsongs. This syrinx model is very sensitive to parametric changes, which means that the birdsong generated by the syrinx model noticeably changes by any small change of its control parameters. This control is given by the 16-element sequence that is the single chromosome genotype of the EA system. This sequence is inserted into the population set by the reproduction process or, less frequently, by external input data from Twitter messages. In this work, the Twitter interface was implemented using JSON (JavaScript Object Notation) library (www.json.org); a lightweight datainterchange format that handles the communication between Twitter and Pd. This one uses a JSON-based library built for Processing A Computational Environment for the Evolutionary Sound Synthesis of Birdsongs (www.processing.org), which is another computer environment for realtime data processing, based on Java text programming; instead of visual programming, as Pd. This implementation is called TwitterStream and was able to receive a timeline data from a Twitter account specifically created for this project (named @evopio), and send its retrieved data from Processing via OSC (Open Sound Protocol) to Pd, where the EA system was built. Besides the seemingly computational awkwardness of this implementation, the overall system worked well and was able to retrieve messages from the Twitter account and map them into birdsongs. As said, with external input data, the population set behaves as a CAS (Complex Adaptive Systems) with emergent properties, that is selforganized and thus presenting eventual and unexpected sonic changes, created by sound objects acting as interacting agents immersed into an artificial evolutionary process. This complex open system which selfsimilar features presents a flow of information built by independent and interacting agents; the birdsongs. This CAS presents emergent properties similar to the ones found in natural systems, created by means of natural evolution [15]. Future implementations of this EA system may explore the possibility of self-organizing soundscapes through data insertion of other types, such as from computer vision (e.g. images retrieved from people walking inside an art installation running this EA system); by motion detection, light sensors, temperature variations; and so forth. This may allow the interaction of multiple users with a single EA system. Although this multiple-user interaction was not tested yet, it seems feasible to suppose that it may create feedbacks between users and the EA system similar to the ones observed in cybernetic sonic environments, created by the interaction of birds and machines, mostly found in urban areas. This can also be enhanced by the usage of a yet to be implemented computer graphic model that generates visual objets corresponding to the sound objects created by each external input data, thus informing each human agent (i.e. users) which one is his/her birdsong in the population set. In the current development of these work, the graphical objects generated here were built by a Pd-extended sub-patch developed using objects from GEM library. The current version of the visual feedback of our EA system aims to help the users to grasp some of the swarming behaviour of individuals participating the evolutionary process. Future implementations may explore the development and implementation of herds and band movement behaviours, as defined by [18]. With that, a future version of this EA system can have the emulation of flocks of individuals moving within a larger and more complex population set. In this current implementation, it may become difficult for the user to observe the birdsong corresponding to his/her Twitter message (if any) as the individuals are represented by numbers. In future implementations Jose Fornari individuals can present a more elaborate graphical representation, thus contributing to create a visual metaphor of its sound objects, as an animation more likely to identify and resemble the development of birdsongs. With this, the EA system will have two layers of systemic interactivity: 1) internal and 2) external. The internal one will be given by the individuals interaction throughout the processes of selection and reproduction, compounding the soundscape created by a mesh of simultaneous sound-synthesis processes corresponding to the various sorts of similar yet variants birdsongs flourishing from the aimless evolutionary process. The external one will be given by the insertions of external data (Twitter messages, sensors, etc.) from multiple users that will influence the overall genetic pool of the population set. Users will be able to visualized the behaviour of the genotypes they inserted in the population set, by a further and more realistic graphical representation of these individuals, phenotypically expressed as virtual birdsongs. In future works, these two interactive degrees are expected to corroborate with the initial premiss of this work, which is the creation of an evolutionary computer model able to successfully emulate the emerging properties of a complex open system composed by internal and external agents that altogether self-organize the population set into a recognizable and meaningful sonic context; a true artificial soundscape of birdsongs. References [1] Schafer, M., R. (1977) "The soundscape: our sonic environment and the soundscape." Destiny Books. ISBN 0-89281-455-1. [2] Wiener, N. (1968) "Cybernetics and society: the human use of human beings." New York: Cultrix. [3] Dorsey, Jack. (2009) "Twitter creator Jack Dorsey illuminates the site's founding document." LA Times. David Sarno. February 18 2009, http://latimesblogs.latimes.com/technology/2009/02/twittercreator.html (accessed February, 2014). [4] Clarke, Julia A. (2004) "Morphology, Phylogenetic Taxonomy, and Systematics of Ichthyornis and Apatornis (Avialae: Ornithurae)." Bulletin of the American Museum of Natural History 286: 1-179. A Computational Environment for the Evolutionary Sound Synthesis of Birdsongs [5] Allison J. Doupe (1999) BIRDSONG AND HUMAN SPEECH: Common Themes and Mechanisms, Neuroscience, 22, 567-631. [6] Ole Naesbye Larsen and Franz Goller (1999) Role of Syringeal vibrations in bird vocalizations, The Royal Society, 266, 1609-1615. [7] Mikelson, Hans. (2000) Bird calls. Csound Magazine, Winter, 2000. [8] Farnell, A. (2010) "Designing Sound". MIT Press, Cambridge, Massachusetts, London, England. [9] Eiben, AE, Smith, JE, (2007) "Introduction to Evolutionary Computing." 2nd Ed, Springer Natural Computing Series. [10] Moroni, A., Manzolli, J., Von Zuben, F., Gudwin, R. (2000) "Vox populi: an interactive evolutionary system for algorithmic music composition." Leonardo Music Journal 10, 49-54. [11] Manzolli, J., Verschure, P. (2005) "Robots: A real-world composition system." Computer Music Journal 29 (3), 55-74. 2005 [12] Fornari, J., Maia, A., Manzolli J., (2008) "Soundscape Design Through Evolutionary Engines." Journal of the Brazilian Computer Society, 2008, Volume 14, Number 3, Pages 51-64 [13] Manzolli, J., Shellard M. C.; Oliveira, L. F.; Fornari, J., (2010). "Abduction and Meaning in Evolutionary Soundscapes", 01/2010, Científico Internacional, MODEL-BASED REASONING IN SCIENCE AND TECHNOLOGY - Abduction, Logic, and Computational Discovery (MBR_BRAZIL), Vol. 1, pp.407-428, CAMPINAS, SP, BRASIL, 2010 [14] Fornari, J. Shellard, M., Manzolli, J. (2009) "Creating soundscapes with gestural evolutionary time." Article and presentation. SBCM Brazilian Symposium on Computer Music. [15] Holland, J. (2006) "Studying Complex Adaptive Systems." Journal of Systems Science and Complexity 19 (1): 1-8. Jose Fornari [16] Fornari, J. and Eerola, T. (2009) “The Pursuit of Happiness in Music: Retrieving Valence with Contextual Music Descriptors.” Lecture Notes in Computer Science, 2009, Volume 5493, Computer Music Modeling and Retrieval. Genesis of Meaning in Sound and Music, Pages 119-133 [17] Smith, J. O. “A Basic Introduction to Digital Waveguide Synthesis, for the Technically Inclined.” http://ccrma.stanford.edu/~jos/swgt/swgt.html (Last accessed: February 2014) [18] Reynolds, C. W. (1987). “Flocks, Herds, and Schools: A Distributed Behavioral Model”, in Computer Graphics, 21(4) (SIGGRAPH '87 Conference Proceedings) pages 25-34. [19] Asoh H and Muhlenbein H (1994). “On the mean convergence time of evolutionary algorithms without selection and mutation”. Parallel Problem Solving from Nature III. Proc. Int. Conf. Evol. Comput. (Lecture Notes in Computer Science vol 866) pp 88-97. XXIV Congresso da Associação Nacional de Pesquisa e Pós-Graduação em Música – São Paulo – 2014 Aplicações artísticas de ubimus MODALIDADE: PAINEL Desafios da pesquisa em música ubíqua José Fornari (Tuti) NICS / UNICAMP – e-mail: [email protected] Resumo: Ubimus, ou música ubíqua, trata da música computacional feita por diversos usuários, próximos ou remotamente localizados, cuja interatividade é propiciada e mediada pela tecnologia informacional, tais como os recursos oferecidos pela: internet, telefonia móvel e redes sociais do cyberspace. Este trabalho apresenta 7 frentes de pesquisa relacionadas ao ubimus que, apesar de distintas, se interseccionam e convergem no sentido de fomentar o desenvolvimento de aplicações artísticas para este específico e original tipo de arte sonora computacional. Palavras-chave: Música ubíqua. Arte sonora computacional. Interfaces gestuais, Síntese sonora Title of the Paper in English Challenges of the ubiquitous music research: ubimus artistic applications Abstract: Ubimus, or ubiquitous music, is the computer music made by many users, nearby or remotely located, whose interaction is fostered and mediated by information technology resources, such as the ones offered by: internet, mobile communication and the social networks of cyberspace. This paper presents 7 fields of research directly related to the ubimus that, although distinct from each other, intersect and converge toward the development of artistic applications for this specific and unique type of computational sound art. Keywords: Ubiquiotus music. Computational sound art. Gestural interfaces. Sound synthesis. 1. Introdução Música ubíqua, ou Ubimus (de Ubiquitous Music), pode ser definida como a música feita por múltiplos usuários, usando uma variedade de dispositivos tecnológicos, tanto fixos quanto portáteis [Keller 2009]. A idéia desta forma musical está relacionada à fusão entre a computação e o ambiente, tal como proposta por Mark Weiser no final dos anos 1980, que iniciou o trabalho em computação ubíqua [Weiser 1991]. Atualmente existem diversos grupos trabalhando em música móvel (por exemplo, a música criada com celulares e smartphones). Porém, até 2008, ao que se sabe, não existia qualquer proposta formal e sistemática de estudo e performance de música ubíqua. Este trabalho apresentará distintas linhas de pesquisa da música ubíqua, primando pelas suas aplicações artísticas e aspectos performáticos musicais. Tais linhas convergem para a Ubimus através da criação de métodos e modelos frequentemente utilizados em performances de música ubíqua. Neste trabalho, serão apresentadas as seguintes linhas de pesquisa: Métodos adaptativos; Descritores musicais; Interfaces gestuais; Arte sonora remota; Arte sonora interativa; Multimodalidade; e Música Auto-Organizada. XXIV Congresso da Associação Nacional de Pesquisa e Pós-Graduação em Música – São Paulo – 2014 2. Métodos adaptativos Métodos adaptativos são modelos computacionais capazes de, até certo ponto, de modificarem sua estrutura algorítmica, de acordo com o comportamento de sua entrada. Um desses é a computação evolutiva, que é inspirados no processo de evolução das espécies, tal como inicialmente formulado por Darwin, e baseado nos processos de reprodução e seleção. Dentre estes modelos, destaca-se aqui a instalação multimidiática RePartitura. Este trabalho trata do mapeamento sinestésico de uma série de desenhos em objetos sonoros, que compõem uma paisagem sonora (soundscape). A imagem de um desenho é aqui vista não como um fim, mas como a representação de uma forma no decorrer do tempo. Esta por sua vez é o registro de um gesto, que é um movimento contendo uma intenção expressiva. O som, aqui visto como objeto sonoro, é uma unidade formadora de um sistema maior que evolui através de processos adaptativos na direção de uma paisagem sonora sintética auto-organizada. Repartitura foi um dos ganhadores do prêmio Itaú Cultural Rumos, na categoria: Arte Cibernética [Shellard 2009] Uma outra aplicação de computação evolutiva na criação de soundscapes é o “EvoPio”. Este é um algoritmo adaptativo que cria uma paisagem sonora artificial de cantos de pássaros dinâmica e interativa. Estes são criados através de um modelo físico de siringe. Não existem sons gravados neste modelo. A paisagem sonora criada jamais se repete, mas sempre mantém uma similaridade acústica. Os usuários podem inserir novos "pios" na população virtual através do Twitter. Basta enviar uma mensagem com a palavra "evopio" que esta será transformada em tempo-real num novo "indivíduos", ou seja, um canto de pássaro que fará parte dessa população artificial. Link: http://goo.gl/Kku7xZ. EvoPio foi apresentado durante o TEDxSummit de 2012, no Qatar; numa breve apresentação do autor, que pode ser assistida através do link: http://goo.gl/qVtAHF. 3. Descritores musicais Descritores musicais são algoritmos capazes de coletar informação de aspectos sonoros específicos, tal como a audição humana é capaz de realizar. A utilização destes descritores em Ubimus permite a criação de modelos mais alinhadas ao processo humano de percepção e cognição musical. O desenvolvimento de descritores vem da área de MIR (Music Information Retrieval); uma ciência interdisciplinar, iniciada no final da década de 1990, se dedicada a estudar e coletar aspectos musicais tais como são percebidos pela audição e identificados pela mente humana. A literatura de MIR define “descritor musical” como um modelo computacional capaz de predizer aspectos musicais emulando a capacidade perceptual e cognitiva humana. Um aspecto musical é uma característica única da informação musical XXIV Congresso da Associação Nacional de Pesquisa e Pós-Graduação em Música – São Paulo – 2014 que é facilmente distinguida pela mente. Estes podem ser qualitativos (ex: gênero musical), ou quantitativos (ex: pulsação rítmica, complexidade harmônica). Descritores simbólicos predizem aspectos musicais pela coleta de dados paramétricos musicais, como os da notação musical (partituras) e de arquivos MIDI (Musical Interface Digital Instrument). Descritores acústicos coletam dados de arquivos de áudio. A música, como expressão artística, apresenta três áreas de atuação: Análise musical (o estudo da lógica de estruturação de uma peça musical), Composição (o processo de estruturação de uma criação musical) e Performance (a manifestação sônica da estrutura composicional). Este projeto deu prosseguimento à pesquisa do autor em seu PosDoc no projeto Europeu: Braintuning (www.braintuning.fi) onde desenvolveu algoritmos de aquisição de aspectos musicais que apresentaram grande eficiência, tais como em [Fornari 2008]. Este projeto tratou de estudar, classificar e desenvolver novos descritores musicais, afim de aplicá-los em processos de análise, performance e composição musical e foi financiado pela FAPESP, processo: 2010/06743-7. Utilizando o desenvlvimento dos descritores mencionados acima, [HIGUCHI 2010] desenvolveu um estudo sobre a distinção automática de performances pianísticas de cunho expressivo e de cunho técnico. Segundo a autora, estudos anteriores têm demonstrado uma forte correlação entre técnica e expressividade na execução pianística. Este trabalho objetivou entender melhor a influência da cognição e da emoção na expressividade musical. Para tanto, execuções pianísticas de nove interpretes, com atenção direcionada aos aspectos cognitivos, foram comparadas com execuções de outros 9 pianistas, porém com a atenção voltada aos aspectos emocionais. Para tanto foram utilizados dois descritores musicais. Estes demonstraram que as performances afetivas, apresentaram mais legatos e menor precisão rítmica, quando comparadas às cognitivas. Os resultados deste estudo apontaram para o fato de ser possível utilizar descritores musicais para auxiliar na classificação de performances pianísticas. [HIGUCHI 2010]. 4. Interfaces gestuais Interfaces gestuais são ferramentas essências nas performances de ubimus. Estas permitem coletar dados do movimento em tempo real e transmiti-los de modo a controlarem modelos computacionais de processamento ou síntese sonora. Dentre estas aplicações, destacamos aqui CybeRITMO. Esta é uma performance de arte interativa onde um grupo convidado de percussionistas irão realizar um evento performático com instrumentos musicais virtuais, desenvolvidos através de interfaces gestuais comerciais (Wiimotes) que se comunicam com patches de PD (PureData) e assim realizam em tempo real a síntese de diversos instrumentos musicais percussivos. Utilizam-se aqui diversas técnicas de síntese sonora, entre elas a Linear XXIV Congresso da Associação Nacional de Pesquisa e Pós-Graduação em Música – São Paulo – 2014 Aditiva, a Karplus-Strong, a Wavetable, a Subtrativa e a de Filtragem, para a criação das formantes vogais (voz digital). Os instrumentos virtuais inicialmente se apresentam bastante parecidos com os instrumentos tradicionais (ex. um surdo, um chocalho, um berimbau, etc.) porém, estes podem realizar parametrizações extremas de suas propriedades pseudo-físicas, atingindo facilmente sonoridades impossíveis aos instrumentos tradicionais, desse modo possibilitando ao interprete a exploração intuitiva de recursos artísticos estendidos, que são fisicamente intangíveis. Este projeto foi finalista do Festiva Internacional de Linguagem Eletrônica de São Paulo, o FILE PRIX LUX 2010, na modalidade: Arte Interativa. [Fornari 2010] O Cyberitmo foi desenvolvido a partir da vivência proporcionada pelo projeto de extensão comunitára PREAC 2009, na Casa de Cultura Tainã (www.taina.org.br). Esta é uma entidade cultural e social sem fins lucrativos fundada em 1989 por moradores da Vila Castelo Branco e região de Campinas, SP. Sua missão é possibilitar o acesso à informação, fortalecendo a prática da cidadania e a formação da identidade cultural, visando contribuir para a formação de indivíduos conscientes e atuantes na comunidade, atendendo em média 450 crianças e adolescentes a cada mês e 1.350 pessoas indiretamente, através de atividades sociais, oficinas e shows, realizados dentro ou fora da entidade. Uma entrevista com o coordenador da Casa Tainã e uma performance musical com tais modelos computacionais, pode ser assistida no link: http://goo.gl/Zb3SL0. Estas interfaces gestuais também foram utilizadas por outras importantes ocasiões acadêmicas. Citando uma delas, tivamos a apresentação com o grupo da Monash University, liderada pelo Prof. Reiner (http://goo.gl/9WlfKQ), um professor associado de música, na universidade de Monash, Austrália. Em abril de 2010, ele e sua equipe visitaram a UNICAMP e também o NICS. Durante esta visita, apresentamos para ele diversas interfaces gestuais que havíamos desenvolvido para a criação de Ubimus. Ele, juntamente com o Prof. Jônatas Manzolli, coordenador do NICS, e seu aluno de doutorado, Adriano Monteiro, realizaram uma performance improvisacional utilizando estas interfaces gestuais, criadas a partir de acelerômetros que coletam movimentos em tempo real, transmitem estes dados por ondas digitais de rádio, em protocolo bluetooth, e controlam modelos computacionais de sínteses sonoras programados em Pd (www.puredata.info). O vídeo desta apresentação pode ser assistido através do link: http://goo.gl/latHsQ XXIV Congresso da Associação Nacional de Pesquisa e Pós-Graduação em Música – São Paulo – 2014 5. Arte sonora remota A atividade performática em Ubimus se beneficia em muito através da utilização de recursos computacionais de comunicação remota em tempo real. Desse modo diversos usuários podem interagir musicalmente mesmo que distanciados geograficamente. Esta ideia culminou num projeto aprovado pelo CNPq Universal, processo 474012/2010-7. Este projeto criou um ambiente virtual, através do cyberspace da internet, para propiciar a interatividade musical remota, entre artistas localizados em diferentes localidades geográficas, mas que podem criar música juntos, em tempo-real, através do processamento de modelos computacionais que emulem instrumentos musicais virtuais através de métodos de síntese sonora que são controlados dinamicamente por dados gestuais dos participantes remotamente distribuídos. Com isso pretendeu-se tornar possível a exploração dinâmica e intuitiva de técnicas musicais contemporâneas de modelamento ecológico e música acusmática. Seguindo esta premissa, foi desenvolvida a performance de arte sonora remota "A Pedra". Esta explora a arte tecnológica contextual interativa, envolvendo a transversalidade entre: Poesia Digital, Paisagem Sonora Artificial, Gestualidade Livre e Sonoridade Improvisacional. Este projeto é inspirado no poema: "Havia uma pedra no meio do Caminho" de Carlos Drummond de Andrade, e na tradução do conto: "The Rock", de Neale D. Walsch. A primeira parte da narração é dada pela gravação original do poema "Havia uma pedra no meio do caminho" narrada pelo autor (Carlos Drummond de Andrade). Em seguida, tem-se a narração da tradução do conto "The Rock", pelo autor deste projeto. Através da câmera do laptop, o usuário (no caso, o autor) controla o deslocamentos de 3 figuras icônicas, que orbitam a grande esfera apresentada na animação interativa. Os deslocamentos dessas figuras também geram os objetos sonoros agregados à narração. Desse modo uma paisagem sonora é gerada através do controle gestual improvisado pelo usuário, agregando conteúdo e sendo influenciado pela transversalidade entre poesia digital e paisagem sonora artificial. Este trabalho foi selecionado para participar do FILE Mídia Arte que fez parte da exposição do FILE São Paulo 2012 - Festival Internacional de Linguagem Eletrônica, que aconteceu no Centro Cultural do SESI, localizado na Av. Paulista, 1313, na cidade de São Paulo, de 16 de julho a 19 de agosto de 2012. Uma performance pode ser assistida através do link: http://goo.gl/Uj4ZMZ XXIV Congresso da Associação Nacional de Pesquisa e Pós-Graduação em Música – São Paulo – 2014 6. Arte sonora interativa Em termos de interatividade, tEIMAS foi uma bem-sucedida experiência performática em Ubimus. Esta é uma performance artística especialmente desenvolvida para o EIMAS. Trata-se de um modelo de síntese aditiva interativa escrita em Pd. Em tEIMAS, temse 10 colunas de geração de dados simbólicos de controle da notação musical. Estes são conectados com objetos de síntese sonora FM (frequency modulation) com randomização de dados paramétricos, de acordo com os dados simbólicos. Estes são inicialmente gerados por um objeto de análise de ataque sonoro (onset detection). Outro interessante exemplo foi o “Patch Preto e Branco”, ou PPB. Trata-se de um modelo computacional escrito na linguagem de programação de código-livre, especialmente projetada para o desenvolvimento de sistemas de performance de arte tecnológica; o PureData, ou Pd . Em Pd, um modelo computacional é desenvolvido em um ambiente visual de conexão de blocos de processamento de dados em tempo-real. Cada estrutura visual é chamada de “patch”. O nome “Patch em Preto e Branco” é uma alegoria às teclas do piano, ao pentagrama musical e ao ambiente visual do PD; todos estes são canvas “pretos e brancos” desenvolvidos para viabilizar a criação de estruturas artísticas e musicais. Neste trabalho, foi desenvolvida uma estrutura virtual de um octágono com nove retângulos de tamanho variável (nos oito lados do octágono e no seu centro). Cada retângulo é um objeto sonoro determinístico (tonal) e cada haste entre estes é um objeto sonoro estocástico (ruidoso). A figura abaixo mostra esta estrutura. Esta estrutura capta o som externo, pelo microfone do laptop, e calcula o seu pitch (altura muscal) para criar os objetos sonoros dos retângulos e das hastes. Neste trabalho, temse dois laptops rodando simultaneamente estes patches. Um latop preto, roda um patch branco e preto (como o da figura acima). O outro laptop roda um ptach com uma estrutura de cor invertida (retângulos e hastes brancas e fundo preto). O resultado parcial (sem interatividade, com um instrumento musical acústico e o segundo laptop) pode ser visto no link: http://goo.gl/iW8gu2. 7. Multimodalidade Multimodalidade trata da possibilidade de cooperação artística entre distintas formas artísticas. Considerando que o Brasil é um país extremamente rico em cultura popular, especialmente no que tange a criação de ritmos e suas respectivas danças. Ritmo e dança estão assim intrinsecamente relacionados no contexto do gesto corporal e sua interveniente correspondência musical. Se o movimento com intenção é o gesto, a dança pode ser definida como a arte do gesto. Do mesmo modo, a música é a arte dos sons, com intenção ou XXIV Congresso da Associação Nacional de Pesquisa e Pós-Graduação em Música – São Paulo – 2014 significado. Sabe-se que os elementos que o compõe a música são: melodia, harmonia e ritmo. De todos, o ritmo é o elemento musical mais intimamente relacionado ao gesto corporal, seja referindo-se à ação corporal que gera o ritmo ou àquela que compõe a dança. Atualmente, novas tecnologias permitem resgatar o gesto à arte computacional, que havia sido relegada, frente à limitada capacidade de expressão oferecida pelas tradicionais interfaces computacionais, tais como: o teclado alfanumérico do computador e o mouse. Através da utilização de novas interfaces gestuais comerciais, como o Wii remote, é agora mais factível capturar os gestos de dança e ritmo e intercorrelaciona-los, de modo a criar uma interação sincrônica entre ambos, no contexto de uma didática coreográfica e musical. Este projeto foi elaborado com o título: "Interatividade Gestual Dinâmica entre Danças e Rítmos Brasileiros" desenvolvido na Casa de Cultura Tainã, em Campinas. Vídeos dessas atividades podem ser vistos nos links: Improviso coletivo com diversos modelos de música computacional interativa http://goo.gl/ipuQI2. Improviso da percussionista Glória Cunha com o coordenador da Casa de cultura Tainã , TC Silva, utilizando os modelos gestuais: Cyberitmos http://goo.gl/KMUuZl. 8. Música auto-organizada Por fim, foi explorara a possibilidade geracional de notação musical através de controle de modelos computacionais a partir de aspectos musicais de uma performance improvisacional. Este projeto foi posteriormente intitulado de: SOM (Self-Organized Music), que foi iniciado em cooperação entre o NICS e o CIDDIC. Este projeto foi aprovado pela FAEPEX, Linha extensão: Auxílio às atividades artísticas, científicas e culturais (Convênio: 519.292 Correntista: 722/10). Originalmente SOM propunha criar uma apresentação musical com a orquestra sinfônica da Unicamp, explorando o original conceito de música autoorganizada, chamada pelo autor deste projeto, pelo acronismo: SOM (Self-Organized Music). Através da utilização de modelos computacionais dinamicamente controlados por interfaces gestuais (equipamentos portáteis e sem-fio, de aquisição dinâmica de coleta de dados do gesto artístico), serão desenvolvidos para este projeto, algoritmos computacionais de criação musical dinâmica, de maneira que o gesto artístico passa a controlar a geração em tempo-real de notação musical, que é continuamente executada pela orquestra durante a performance artística. Em SOM, a performance musical da orquestra é realimentada pela contínua interação acústico-cognitivo-gestual, onde os músicos executam a partitura que está sendo dinamicamente criada pelo gesto. O resultado, após a performance, pretende ser uma partitura orquestral original, que foi criada enquanto era executada, pela primeira vez, durante a performance musical. XXIV Congresso da Associação Nacional de Pesquisa e Pós-Graduação em Música – São Paulo – 2014 No segundo semestre de 2012, o CIDDIC aprovou o SOM como participante do projeto PERFORMANCE, onde foram alocados 12 músicos da OSU (Orquestra Sinfônica da UNICAMP) e um saxofonista que desenvolvia uma tese de doutorado em Improvisação livre (Manuel Falleiros). O resultado foi registrado numa série de 4 vídeos que demonstram a partitura sendo gerado pelo modelo computacional. Estes vídeos podem ser vistos no segunite link: SOM - 1º Cordas (http://goo.gl/lqy2JB), 2º Madeiras (http://goo.gl/4lKom0), 3º Metais (http://goo.gl/MMC6NC), 4º Orquestra (http://goo.gl/Wl3GCH) 9. Referências bibliográficas WEISER, M. The Computer for the Twenty-First Century. Scientific American, v. 265, n. 3, p. 94-101, 1991. KELLER, D.; BARROS, A. E. B.; FARIAS, F. M.; NASCIMENTO, R. V.; PIMENTA, M. S.; FLORES, L. V.; MILETTO, E. M.; RADANOVITSCK, E. A. A.; SERAFINI, R. O.; BARRAZA, J. F. Música Ubíqua: Conceito e Motivação. In: CONGRESSO DA ANPPOM, 19., 2009, Curitiba. Anais... Curitiba: PPGM/UFPR, 539-542, 2009. SHELLARD, M., Fornari. A Imagem É o Som. Article and Presentation. XIX Congresso da ANPPOM. UFPR. Curitiba, PR. 24 - 28 de Agosto de 2009. FORNARI, J., T. Eerola. Prosody of Expressivity in Music and Speech. Expressivity in Music and Speech - EMUS. AGORA contemporary Music Festival. Paris, France. (2008). FORNARI, J., T. Eerola. The pursuit of happiness in music: retrieving valence with high-level musical descriptors. Computer Music Modeling and Retrieval - CMMR. Copenhagen, Denmark. (2008). FORNARI, J., T. Eerola. Automatic Estimation of Harmonic Complexity. Audio Engineering Society Brazil Section - AES Brasil. Sao Paulo, Brasil. (2008). FORNARI, J., T. Eerola. Estimating the Perception of Complexity in Musical Harmony. The 10th International Conference on Music Perception and Cognition - ICMPC 10. Sapporo, Japan. (2008). HIGUCHI, Márcia K., José Fornari, João Pereira Leite. A Influência da Técnica Pianística e da Expressividade na Articulação e Métrica da Execução Pianística. Trabalho escrito aprovado, Música e Interface - Cognição. ANAIS da Anppom pg. 757 - 762. XX Congresso da ANPPOM. Florianópolis - 23 a 27 de agosto de 2010. FORNARI, J., CyberRITMOs: Interfaces Gestuais Musicais Inspiradas em Percussões Brasileiras. Poster no III SIMTEC - Simpósio de Profissionais da Unicamp. de 25 e 26 de Maio de 2010, no Centro de Convenções da Unicamp. FORNARI, J., Interatividade Musical à Distância. 6o Encontro de Música e Mídia. 15 17 Setembro 2010. ECA - USP.