CoPEP

Spoken Corpus Linguistics: From Monomodal To Multimodal RECENSÕES ADOLPHS, S., & Carter, R. (2013). Spoken Corpus Linguistics: From Monomodal To Multimodal. London: Routledge.

M. Emília Pereira *Universidade do Minho, Portugal.

memilia@ilch.uminho.pt

O livro contém artigos publicados de 2004 a 2012. Os artigos, revistos para a publicação, dizem respeito a projetos financiados. Para o discurso monomodal, os estudos acederam ao corpus CANCODE, financiado pela Universidade de Cambridge. Para os demais projetos, que incluem subvenção para corpora multimodal sob o Conselho de pesquisa económica e social, relatórios foram atualizados.

O livro assim editado descreve corpora cujo esforço de constituição foi integrado. Com o benefício do tempo e das investigações que se lhe juntaram, informa acerca de corpora e pesquisa linguística, sob anotação. Outro tanto o faz para prosódia e gesto. Com respeito a estes, a partir de gravações de aulas universitárias e sessões tutoriais, infirma regularidades antes notadas na bibliografia específica acerca de gesto e condicionantes pragmáticas da interação, como a manutenção do turno, ou vez.

O capítulo final, “Future directions”, plausivelmente redigido em atenção à edição, de 2013, faz o ponto da situação de estudos de corpora multimodais.

Estes intersecionam a área da interação humana com os computadores e os estudos de pragmática linguística, tal como foi possibilitada por grandes bases de dados, congregadas no caso do inglês quer no British National Corpus (BNC) quer nas universidades de Cambridge e Nottingham. A vantagem deste último está em que as fontes são interações, ditas “discurso”, tal como fica no acrónimo “Cambridge and Nottingham Corpus of Discourse in English”, no que permite estudos de pragmática variacionista, pela integração de dados de variedades do inglês, como a britânica e irlandesa.

Donde, é-nos dada a panorâmica atual dos estudos de linguagem e comunicação, unidade interacional de uso linguístico, como a Pragmática o vem descrevendo nos últimos 50 anos. O que há de novo deriva de a descrição ser feita a partir de fontes potentes, como os grandes bancos de dados linguísticos e comunicacionais. Assim baseado no limiar de corpora escritos de mil milhões de palavras, o livro atende ao alcance menor da linguística de corpora orais, no que fundamentalmente abre para: a) a descrição da fala pelas suas especificidades de comunicação, em que há contribuições relevantes da prosódia; b) a descrição da fala em presença dos interlocutores, no que aparentes disfluências verbais devem ser supridas por descrição multimodal gestual; c) a integração adicional de dados da descrição linguística, baseados em corpora escritos, em novas descrições, já não puramente monomodais por terem em conta a evidência do som e da imagem do corpo (no que o gesto, “handtalk”, é complementado descritivamente por acenos, “headtalk”), mas multimodais, designadamente por a revisão de estudos identificar unidades neurolinguísticas na fluência verbal, permitido por subcorpus CANCODE de aprendentes de inglês como L2, em entrevistas longitudinais.

O volume é dedicado aos avanços notacionais em corpora orais. Em “Building and analyzing a spoken corpus”, ressalvam-se questões de obtenção de dados por gravação para ulterior publicitação, no que tem especial interesse questões de consentimento e (eventual) anonimização. Com vista à obtenção de descrições multimodais, total conhecimento é necessário, dado não ser possível proceder analogamente à distorção de vozes, como em estritos corpora áudio, por toda a informação visível ser pertinente, sem pixelização ou demais procedimentos de anonimização. De facto, a natureza descritiva determina as escolhas. Assim, quando aquela deixa de visar meros elementos gramaticais, que de outro modo poderiam ser obtidos quer em corpora escritos quer sem cuidados de desenho de projeto relativo à fala, escolhas são feitas com vista à validação na obtenção de dados de âmbitos descritivos comprometidos com o que lhe é próprio, por espontâneo, ou naturalístico. Donde, particularmente para fonética e prosódia bem assim como expressão facial e gestos, há que obter consentimento dos participantes gravados: “Alteration of vocal output for the purpose of anonymization can make for na inauthentic record and render the data unsuitable for naturalistic phonetic and prosodic analysis. A similar problem arises with the use of video data” (p.10/11).

É a questão da anotação o que valida academicamente um corpus, conferindo-lhe “reusability” por via de como o corpus é codificado: “This is the stage where qualitative records of events start to become quantifiable, as specific items that are relevant to the variables under consideration are marked up for future analysis. (…) The coding stage thus operates at a higher level of abstraction compared to the transcription stage, and may include, among other factors, annotation of grammatical, semantic, pragmatic or discoursal features.” (p.15) Se um corpus oral permite descrição da fala, há que atender a pronomes da interlocução e marcadores discursivos e de circularidade empática porque são “key differences in mode” (p.16). Logo, está em causa uma necessária explicação de um item discursivo pelo que carateriza de modo privativo a interação comunicacional: sujeitos vão verbalizando em infração da máxima da quantidade e modo, não vão sendo substantivamente suficientes na informação que vão dando nem vão sendo claros por estarem antes a observarem o princípio de cortesia: “When we interact with others, there are times when it is necessary to give accurate and precise information; in many informal contexts, however, speakers prefer to convey information vaguely which is, although such vagueness is often wrongly taken as a sign of careless thinking or sloppy expression, softened in some way or which is purposefully imprecise”(p.20).

O capítulo introdutório ao volume, cuja importância maior é metodológica, distingue, em corpora do inglês, o London-Lund. O capítulo seguinte define a unidade multipalavra no inglês falado. Corpora de fala são menores que escritos de forma que os padrões aí encontrados são diferentes. Esta constatação de base está em sintonia com a preocupação disciplinar antes enunciada pela qual a constituição de bancos da fala visa uma descrição de gramática oral e léxico.

Na linguística feita a partir de corpora, tais unidades, como padrões colocacionais (“Collocations are the probabilistic outcomes of [these] repeated combinations”), destacam-se: “Corpora reveal the regular, patterned preferences for modes of expression of language users in given contexts, and show how large numbers of users separated in time and space repeatedly orient towards the same language patterns when involved in comparable social activities. However, corpora also reveal that much of our lexical output consists of multi-word units; language occurs in formulaic patterns much more commonly than a description of language that looks at vocabulary and grammar as separate entities can account for” (p.23).

Dados de corpora orais estabeleceram para o inglês norte-americano que a frequência de certas unidades multipalavra é mais elevada que vocábulos simples comuns. A despeito de algumas sequências serem fragmentos sintáticos, a alta frequência tem justificações pragmáticas: “it is in the domain of pragmatics rather than in those of syntax or semantics that we are likely to find the reasons why many of these units are so frequent. Pragmatic categories refer to the creation of speaker meanings in context (…); these include such functions as discourse marking and the expression of politeness, hedging and purposive vagueness, which creates a world of speakers and listeners interacting in real time rather than a purely propositional world, where the main emphasis is on the content of what is said.” (p.26). O presente capítulo informa ainda quanto a escolhas metodológicas de acesso aos dados contidos no corpus com vista à descrição específica de padrões de encadeamento cuja definição é pragmática, como a expressão do marcador discursivo “as far as I know”. Sob o intertítulo “Data and method for the present case study”, é explicado como a análise computacional extrai quer unidades com integridade sintática e/ou semântica frequentes, sem, contudo, necessariamente assim ficarem obtidas unidades de sentido com estatuto psicolinguístico, i.e., tendo correspondido a apenas uma escolha do locutor de uma unidade compósita (cf. Sinclair, 1987 e Stubbs, 2009, citados), ao que estudos computacionais anteriores já obviaram, por incluírem “fragmentary strings”.

Se o capítulo dizia respeito a unidades multipalavra encontradas por métodos de linguística computacional, “From concordance to discourse”, o capítulo seguinte, centra-se nas alternâncias de vez, descritas pela pragmática, ou sociolinguística interacional, designadamente em como se responde, ou permite continuar no discurso, “listerner language”, no que assim se categoriza de modo diferente relativamente ao hiperónimo “back channell”. O contributo metodológico é, portanto, de ressaltar na questão “How to best represent a spoken language” cujo ascendente do caso inglês se respondeu por inclusão dos géneros discursivos informais sob os eixos relacional e de finalidade. O primeiro previu o grau de familiaridade em relações “intimate, sociocultural, professional, transactional and pedagogic”. As cinco categorias cruzaram-se com objetivos interacionais de tipo de “information provision”, de tipo unidirecional; “collaborative idea”, bidirecional; “collaborative tasks”.

O que o som previsivelmente traria para a unidade fraseológica, explorado em “Sound evidence”, era evidência de que esta vem limitada à esquerda e direita, sendo uma única unidade prosódica, estando, pois, em limite intonacional.

Donde, o seu caráter psicolinguístico de coerência fonológica (p.115) e a presumível busca única de toda a unidade compósita.

Na medida em que as unidades de análise se repetem no volume, há que ver o que aí está contido em estudos editados mais tarde e que dão destaque à descrição multimodal a partir de corpora orais. Quanto a uma explicação comunicacional holística, releva-se que pausas preenchidas, cujo input seria sonoro, estão frequentemente associadas a gestos, cujo deslinde apenas pode ser visual, v.

p.152 e bibliografia citada. Síncronos, som e gesto estão pela informação, que os interlocutores a todo o momento integram, mas que o pesquisador deve localizar e segmentar na análise possibilitada por alinhamento dos vários modos, de manutenção de vez.

O referido alinhamento é possibilitado pela técnica, reciprocamente, desenvolvimentos desta, como o comando remoto de fotografias temporizadas por um gesto diretivo percebido pela câmara frontal de telemóvel, por exemplo, veio a beneficiar de classificações advindas de estudos de comunicação humana. As tipologias de gesto contidas a partir de “Moving beyond the text” denotam que “There is thus a need to marry visual coding schemes to verbal coding schemes, which may then be exploited by machine learning techniques to codify recognizable multimodal patterns”, p.155.

Muito cedo o volume equaciona, sob revisão bibliográfica, como a linguística de corpora tem que optar entre “breath” e “depth” (p.8). Tais fôlego e profundidade são permitidos por uma judiciosa escolha de como constituir bancos de dados linguísticos, como obtê-los, para que descrição de itens linguísticos e/ou princípios comunicacionais usá-los.

Lido por um linguista, a conceção de corpora e estudos de linguagem aqui contida vale sobretudo por informação do que está produzido para o inglês, também pelo advento da gramática do discurso, a cujo repto Paul J. Hopper, designadamente, chama: “When grammar is viewed from the perspective of its emergence in conversational texts transcribed from real time spoken interactions, significant differences from sentence-level grammar are apparent” (Gee & Handford, 2012: 304).

Representação em texto

EuPTHUHu0807-89672015000100021

Opções de representação