FALA
E LINGUAGEM HUMANAS
PHILIP LIEBERMAN
Extraído do livro "The Cambridge Encyclopedia
of Human Evolution",
p. 134-137, publicado pela Cambridge University Press
(UK), 1995.
Tradução:
Pedro Lourenço Gomes
A
nossa linguagem envolve mecanismos neurais e anatômicos
inatos e geneticamente transmitidos. Alguns deles,
particularmente aqueles relacionados com a fala, são
encontrados apenas nos humanos, e o mesmo pode ser
verdadeiro quanto a alguns aspectos da linguagem,
tais como uma sintaxe complexa governada por regras,
e uma complexa estrutura de palavras. Permanecem grandes
hiatos em nossa compreensão da fala e da linguagem
humanas, mas pensamos que estes mecanismos neurais
e anatômicos singularmente humanos se desenvolveram
para melhorar nossa capacidade de utilizar a linguagem.
Em contraste, a capacidade de adquirir e de usar palavras
de maneira simples está presente em animais
não-humanos.
Johannnes
Muller demonstrou em 1848 que a produção
da fala humana envolve a modulação de
energia acústica através da passagem
de ar acima da laringe (o trato supralaringeal). Esta
energia acústica é gerada pela laringe
ou pelo turbulento fluxo de ar quando da constrição
da passagem de ar. Mas até a década
de 1960 não se compreendeu que a própria
fala é um importante componente da capacidade
humana de usar a linguagem. A fala nos permite transmitir
"segmentos" fonéticos (que são
aproximados pelas letras do alfabeto) à notável
taxa de até 25 por segundo. Em contraste, é
impossível identificar informações
não-faladas (NT - sem o caráter de fala)
a taxas maiores do que 7 a 9 itens por segundo. Uma
frase curta, como esta, contém uns 50 sons
de fala. Estes segmentos fonéticos podem ser
ditos em dois segundos. Se esta frase fosse transmitida
à taxa de não-fala, levaria tanto tempo
que o ouvinte bem poderia esquecer o começo
da frase antes de escutar seu final.
A
alta taxa de transmissão da fala humana é,
então, parte integral de nossa capacidade linguística,
já que permite que idéias complexas
sejam transmitidas dentro dos limites da memória
de curto prazo. Apesar da linguagem de sinais também
poder alcançar uma taxa de transmissão
de dados, as mãos do sinalizador não
podem ser usadas simultaneamente para outras tarefas.
A linguagem vocal representa uma continuação
da tendência evolutiva dos hominídios
em direção à liberação
das mãos, tendência que adveio da locomoção
ereta bipedal.
A
alta taxa de transmissão da fala é obtida
pela geração de padrões de frequência
formante e de rápidas disposições
temporais e espectrais através da singular
passagem de ar supralaringeal (PAS) humana, e seus
mecanismos de controle. Um órgão de
tubos deixa passar energia acústica máxima
em certas frequências. As frequências
formantes sãos os "picos' de energia acútica
passando pela PAS. Tanto o órgão de
tubos como o trato PAS, assim, agem como "filtros",
deixando passar relativamente mais energia acústica
em frequências particulares.
A
energia sonora da fala é gerada na laringe
para as vogais e consoantes "fonadas" como
[m] e [v]. O ruído turbulento gerado nas constrições
da passagem de ar também pode servir de energia
acústica, como, por exemplo, na produção
de sons como [t] e [s]. Durante a fonação
as cordas vocais da laringe se abrem e fecham rapidamente
em uma taxa que determina a frequência fundamental
( Fo ) da fonação. As vozes com altura
(intensidade) (NT - pitch) mais altas têm frequências
fundamentais médias mais altas. A energia média
está presente na frequência fundamental
e seus harmônicos - isto é, em múltiplos
integrais de Fo ( 2Fo , 3Fo , 4Fo , etc.).
Quando as pessoas cantam elas variam sistematicamente
a frequência fundamental da fonação.
Muitas linguagens "tonais", como o chinês,
também diferenciam palavras utilizando variações
padronizadas da frequência fundamental. Mas
a frequência fundamental é independente
do padrão de frequência formante, que
deriva da filtragem que o trato vocal supralaringeal
faz da energia acústica da fonte; esta energia
é a frequência fundamental e seus harmônicos
mais altos para a fonação, ou espectro
de energia total do ruído turbulento.
As
frequências formantes são determinadas
pela forma e comprimento da PAS. O processo não
é diferente daquele que ocorre quando olhamos
uma janela de vidros foscos : a luz do dia que atinge
a janela é a fonte de energia, e a imagem que
vemos deriva das propriedades filtrantes do vidro
fosco agindo sobre a fonte.
Durante
o processo da fala, continuamente nós mudamos
a forma da PAS e fazemos pequenos ajustes em seu comprimento,
gerando assim um padrão variante de frequência
formante. Por isto os sons da fala humana diferem
tanto em seus padrões de frequência formante
com respeito ao timing e à fonte acústica
que é filtrada.
O
APARELHO DA FALA
A
PAS humana difere daquela de qualquer outro mamífero
adulto. Nos chimpanzés, por exemplo, a língua
está posicionada inteiramente dentro da cavidade
bucal, e forma sua margem inferior. A posição
da longa e relativamente fina língua reflete
a posição alta da laringe. A laringe
move-se para cima em direção ao interior
da nasofaringe durante a respiração,
fornecendo ao ar uma passagem do nariz para os pulmões,
que fica isolada de qualquer líquido que possa
entrar na boca do animal.
Até
a idade de três meses os bebês humanos
têm uma passagem de ar com a mesma forma que
a dos mamíferos não-humanos, e podem
respirar e beber ao mesmo tempo. O líquido
se move para um dos lados da laringe suspendida, que,
como um periscópio que se alça para
cima na cavidade bucal, conecta os pulmões
com o nariz. Nos adultos humanos a laringe abaixou
até o nível do pescoço. A língua
arredondada forma a margem frontal da faringe, assim
como a margem inferior da cavidade bucal. O ar, os
líquidos e a comida sólida, todos utilizam
uma passagem comum através da faringe. Por
isso os humanos tendem mais do que qualquer outro
animal a engasgar quando comem, porque a comida pode
cair na laringe e obstruir o caminho para os pulmões.
Durante
o crescimento o palato humano se desenvolve para trás
ao longo da base do crânio, que é ele
próprio reestrututrado de maneira singular
para se obter a PAS. Os adultos humanos são
menos eficientes na mastigação porque
o céu da boca e a mandíbula inferior
foram reduzidos, em comparação com os
primatas não-humanos e os hominídios
arcaicos. Esta redução do palato e da
mandíbula inferior junta muito nossos dentes
e pode levar a infecção por causa da
inclusão (NT - impaction) - uma condição
potencialmente fatal antes da medicina moderna.
Estas
deficiências na boca do adulto humano são
compensadas pelo âmbito fonético aumentado
da PAS. O trato vocal humano pode selar a passagem
de ar que vem do nariz e passa pela boca, produzindo
assim sons não-nasais. Isto resulta em padrões
de frequência formante mais claros e mais prontamente
identificáveis. A fala anasalada está
inerentemente mais sujeita a erros de interpretação
do que a fala não-anasalada. Por exemplo, de
30 a 50 % de taxa de erro para as vogais anasaladas,
contra 5 % para as vogais não-anasaladas, sob
condições similares.
Além
disso, a língua arredondada humana, movendo-se
no espaço definido pelo palato e coluna espinhal,
pode gerar os padrões de frequência formante
que definem vogais como [i] , [u] , e [a] , (as vogais
das palavras dica, tubo e cama) e consoantes como
[k] e [g]. Estes sons, e consoantes como [b], [p],
[d] e [t], têm padrões de frequência
formante que os tornam mais adequados para a comunicação
vocal do que outros sons. Eles são os sons
mais comuns em diferentes linguagens humanas, e são
adquiridos bem cedo pelas crianças. A taxa
de erro na má identificação da
vogal [i] é particularmente baixa. Pode servir
como uma disposição ótima (NT
- isto é, como o melhor parâmetro disponível)
para a normalização do trato vocal na
percepção da fala, na qual um ouvinte
compensa o comprimento do trato vocal supralaringeal
de um falante individual.
A
PERCEPÇÃO DA FALA
Apesar
da percepção da fala humana envolver
mecanismos auditivos gerais que desempenham certo
papel na audição de outros sons, a percepção
da fala é um processo complexo que foi "adaptado"
(NT - ou "tornado condizente") com a PAS
por meio da seleção natural. Mecanismos
neurais especializados operam em diferentes estágios
de um modo perceptivo da fala, no qual os ouvintes
parecem aplicar à fala estratégias diferentes
das aplicadas a sinais não-falados.
Primeiro
os ouvintes devem extrair as frequências formantes
e fundamentais dos sinais falados. Podem fazer isto
mesmo quando estes sinais tiverem sido degradados
por circuitos telefônicos ou ruídos (sistemas
computadorizados de reconhecimento da fala não
podem). Parece que extraímos as frequências
formantes utilizando um conhecimento neural interno
das características filtrantes de nossa PAS.
Os ouvintes humanos utilizam um processo de normalização
do trato vocal, no qual inconscientemente estimam
o comprimento provável da PAS do falante para
atribuir um padrão particular de frequência
formante a um som falado particular.
O
comprimento da PAS humana difere grandemente : a passagem
de ar de uma criança tem apenas a metade do
tamanho da de um adulto. Por causa desta variação
há superposição (NT - overlap)
de padrões de frequência formante que
transmitem diferentes sons falados. Por exemplo, apesar
das frequências da palavra bit serem sempre
mais altas do que as da palavra bet, ditas pelo mesmo
falante, a palavra bit falada por um falante masculino
adulto e grande pode ter o mesmo padrão de
frequência que a palavra bet produzida por um
indivíduo menor. A PAS mais longa do falante
maior produz formantes de frequência menores
para seu bit do que a passagem da pessoa menor, e
seu bit pode igualar-se ao bet da pessoa menor.
Os
diferentes padrões de frequência formante
que sinalizam o mesmo som podem ser extremos : aqueles
de crianças de 4 anos são tipicamente
o dobro dos padrões adultos. Ainda assim os
ouvintes humanos são capazes de identificar
corretamente os sons falados porque inconscientemente
normalizam (o que escutam), levando em consideração
o comprimento provável do trato vocal supralaringeal
de um dado falante. Deste modo a vogal fornece uma
vantagem seletiva, no processo de percepção
da fala, para os hominídios que são
capazes de produzí-la.
Quando
ouvem a fala os seres humanos também tiram
vantagem de disposições acústicas
e restrições contextuais tais como taxa
(NT - rate) e contexto fonético. Por exemplo,
diferentes padrões de frequência formante
sinalizarão a consoante de parada [d] quando
ela ocorrer antes da vogal [i] , ao contrário
da vogal [u] . Estes diferentes padrões de
frequência formante resultam das restrições
inerentes à fisiologia da fala. Neste caso,
o trato supralaringeal deve se mover da forma que
produz o som para as diferentes formas que produzem
[i] e [u]; os padrões de frequência formante
refletem as duas diferentes transições.
Apesar de o padrão de frequência formante
na emissão das sílabas [di] e [du] ser
bastante diferente, nós ouvimos o "mesmo"
som [t] na posição inicial para ambas
as sílabas.
Nós
identificamos tais padrões e disposições
espectrais de curto prazo como categorias discretas
(NT - discretas matematicamente, não comportamentalmente)
de uma maneira que sugere que temos uma série
de detetores neurais afinados para responderem aos
sinais acústicos particulares produzidos pelos
órgãos da fala humana. Estes detetores
são análogos àqueles mais simples
que existem em outras espécies, tais como sapos
e grilos, e que podem ser identificados usando-se
eletrofisiologia e técnicas comportamentais.
Há
mais de um século o cirurgião francês
Paul Broca identificou a área do cérebro
humano na qual os programas que controlam a produção
da fala humana são armazenados e acessados.
As manobras articulatórias que ocorrem durante
a fala estão entre as mais complexas. As crianças
com menos de 10 anos não podem chegar a padrões
adultos, mesmo com relação às
manobras básicas como as posições
labiais que produzem diferentes vogais. O dano aos
caminhos neurais que conectam a área de Broca
às outras áreas do cérebro resulta
em falhas na produção da fala. O dano
não precisa envolver a própria região
de Broca. Os pacientes com este defeito ( NT - defect)
não podem produzir sons distintos de fala,
mas podem mover articuladores individuais, ou usar
a língua e os lábios para engolir comida.
Os
grandes macacos (aos quais falta um equivalente funcional
da área de Broca, e caminhos de conexão)
não podem ser ensinados a controlar suas PASs
para produzirem sons em qualquer grau similares aos
da fala humana. Apesar de a passagem de ar pongídea
(NT - dos macacos) ser inerentemente incapaz de produzir
todos os sons da fala humana, ela tem o potencial
mecânico para produzir ao menos alguns deles.
Mas os primatas não-humanos, que não
têm os mecanismos cerebrais necessários
para controlar as manobras articulatórias voluntárias
que são pré-condições
da fala humana, são intencionalmente incapazes
de produzir mesmo estes sons.
SINTAXE
Também
parece haver um elo entre os mecanismos neurais envolvidos
no controle motor da fala e os mecanismos neurais
responsáveis pela sintaxe. As vítimas
da afasia de Broca e do mal de Parkinson, nas quais
os mecanismos cerebrais que regulam o controle motor
da fala estão danificados, são quase
sempre deficientes em gramática e perdem o
comando dos aspectos mais complexos da sintaxe. Nisto
elas lembram as crianças de pouca idade, que
são incapazes de compreender frases que tenham
uma sintaxe complexa. Alguns chimpanzés foram
ensinados a se comunicar por meio da linguagem de
sinais, mas eles não parecem usar qualquer
sintaxe complexa na comunicação.
Outras
atividades motoras complexas, como as que estão
envolvidas na fabricação de ferramentas,
podem ter feito parte da evolução dos
mecanismos cerebrais que são necessários
para a fala e a sintaxe humanas. Mas a capacidade
sintática parece estar ligada à produção
da fala, e provavelmente chegou ao seu nível
atual em épocas comparativamente recentes,
com o aparecimento do anatomicamente moderno Homo
sapiens. Em contraste, a capacidade de utilizar palavras
pode se basear em mecanismos neurais que estão
presentes de forma reduzida em outras espécies
vivas, e que foram elaborados bem cedo durante a evolução
dos hominídios.
A
EVOLUÇÃO DO APARELHO DA FALA
A
contrapartida da área de Broca em primatas
não-humanos pode ser o córtex pré-central
lateral, que está envolvido na regulação
dos movimentos da face e da boca utilizados na comunicação.
A elaboração de tais movimentos, juntamente
com a evolução da PAS, pode ter promovido
a evolução da área de Broca nos
humanos.
A
combinação evolutiva do aparelho humano
da fala com um mecanismo de percepção
da fala é similar à combinação
entre anatomia e percepção de sons em
outras espécies, como os grilos, sapos e macacos.
A fala humana utiliza estruturas e mecanismos neurais
que estão presentes em outras espécies;
a laringe é similar em todos os hominídios,
e os roedores têm os mecanismos necessários
à audição de disposições
linguísticas tais como a coordenação
entre a fonação e a abertura dos lábios
que diferencia os sons [b] e [p].
As
estruturas e os mecanismos neurais de controle necessários
para a produção dos complexos padrões
da fala humana parecem ter se desenvolvido apenas
nos últimos 1,6 milhões de anos, mais
ou menos. A anatomia comparada de primatas vivos e
de hominídios fósseis sugere que a evolução
do trato vocal supralaringeal humano provavelmente
começou nas primeiras populações
africanas do Homo erectus e não se completou
até o aparecimento dos humanos totalmente modernos.
Os
homens de Neanderthal foram os últimos a reter
o antigo trato vocal supralaringeal não-humano.
Mas há uns cem mil anos havia outros hominídios,
predadores do Neanderthal - por exemplo, aqueles dos
sítios israelitas de Skhul e Jebel Qafzeh -
que tinham a PAS humana. Como estes hominídios
tinham outras semelhanças com os humanos modernos,
provavelmente tinham os mecanismos cerebrais necessários
à produção da fala humana.
A
existência de uma forma moderna de PAS em hominídio
fóssil sugere que havia controles motores neurais
e mecanismos perceptivos combinantes. As deficiências
da PAS humana quanto à respiração
e ao ato de engolir devem ser superadas pelo valor
adaptativo da fala rápida. A fala pode mesmo
ter servido de mecanismo isolante, promovendo a especiação
na evolução, que levou ao aparecimento
do anatomicamente moderno Homo sapiens.