Embora relacionado ao problema mais geral da origem da linguagem, a evolução das capacidades de fala distintamente humana tornou -se uma área distinta e, de muitas maneiras, separada da pesquisa científica. O tópico é separado porque o idioma não é necessariamente falado: pode ser igualmente escrito ou assinado. O discurso é, nesse sentido, opcional, embora seja a modalidade padrão para a linguagem.
Macacos, macacos e humanos, como muitos outros animais, desenvolveram mecanismos especializados para produzir som para fins de comunicação social. Por outro lado, nenhum macaco ou macaco usa sua língua para tais propósitos. O uso sem precedentes da nossa espécie da língua, lábios e outras partes móveis parece colocar a fala em uma categoria bastante separada, tornando sua emergência evolutiva um intrigante desafio teórico aos olhos de muitos estudiosos.
No entanto, informações recentes sobre a evolução humana-mais especificamente, a evolução litoral do Pleistoceno para DHA e outros nutrientes específicos do cérebro em frutos do mar), respiração voluntária (mergulho na respiração para mariscos, etc.) e alimentação de sucção de frutos do mar de esnubramento suave. A alimentação de sucção explica por que os seres humanos, em oposição a outros hominóides, descendência hioidal evoluída (osso da língua descendente na garganta), linhas de dentes fechadas (com dentes caninos incisiformes) e uma língua globular perfeitamente adequada em um palato liso e arborizado (sem transversal Cíders como nos macacos): tudo isso permitiu a pronúncia de consoantes. Outros, provavelmente pré-adaptações mais antigos para a fala humana, são músicas territoriais e dueto e aprendizado vocal semelhantes a gibões.
Aprendizagem vocal, a capacidade de imitar sons - como em muitos pássaros e morcegos e várias cetacea e Pinnipedia - é indiscutivelmente necessária para localizar ou encontrar de volta (em meio à folhagem ou no mar) a prole ou os pais. De fato, linhas de evidência independentes (comparativas, fósseis, arqueológicas, paleo-ambientais, isotópicas, nutricionais e fisiológicas) mostram que o homo "arcaico" do Pleistoceno no início se espalhou intercontinealmente ao longo das margens do Oceano Índico (eles até chegaram às ilhas no exterior, como lâmpadas) onde eles mergulhavam regularmente para alimentos litorâneos, como conchas e lagostins, que são extremamente ricos em nutrientes específicos do cérebro, explicando o aumento do cérebro de Homo. O mergulho superficial para frutos do mar requer controle voluntário das vias aéreas, um pré -requisito para a linguagem falada. Frutos do mar, como moluscos, geralmente não requer mordida e mastigar, mas o uso de ferramentas de pedra e a alimentação de sucção. Esse controle mais refinador do aparato oral era sem dúvida outra pré-adaptação biológica à fala humana, especialmente para a produção de consoantes.
A modalidade do termo significa o formato representacional escolhido para codificar e transmitir informações. Uma característica marcante da linguagem é que ela é independente da modalidade. Se uma criança prejudicada for impedida de ouvir ou produzir som, sua capacidade inata de dominar um idioma poderá encontrar a expressão igualmente na assinatura. Os idiomas de sinalização dos surdos são inventados independentemente e têm todas as principais propriedades da linguagem falada, exceto a modalidade da transmissão. A partir disso, parece que os centros de linguagem do cérebro humano devem ter evoluído para funcionar de maneira ideal, independentemente da modalidade selecionada.
"O desapego de entradas específicas da modalidade pode representar uma mudança substancial na organização neural, que afeta não apenas a imitação, mas também a comunicação; apenas os humanos podem perder uma modalidade (por exemplo, audição) e compensar esse déficit ao se comunicar com completa competência em uma modalidade diferente (ou seja, assinatura). "
Os sistemas de comunicação animal se combinam rotineiramente visíveis com propriedades e efeitos audíveis, mas nenhum é independente da modalidade. Por exemplo, nenhuma baleia, golfinho ou pássaro de canções de deficiência vocal poderia expressar seu repertório de músicas igualmente em exibição visual. De fato, no caso de comunicação, mensagem e modalidade animal, não são capazes de serem libertados. Qualquer mensagem que esteja sendo transmitida deriva das propriedades intrínsecas do sinal.
A independência da modalidade não deve ser confundida com o fenômeno comum da multimodalidade. Macacos e macacos dependem de um repertório de "chamadas de gestos" específicas de espécies-vocalizações emocionalmente expressivas inseparáveis dos monitores visuais que os acompanham. Os seres humanos também têm chamadas de gestos específicas de espécies-risos, gritos, soluços, etc.-juntamente com gestos involuntários que acompanham o discurso. Muitas exibições de animais são polimodais, pois cada uma delas aparece projetada para explorar vários canais simultaneamente.
A propriedade linguística humana da independência da modalidade é conceitualmente distinta da polimodalidade. Ele permite que o alto -falante codifique o conteúdo informativo de uma mensagem em um único canal enquanto alterna entre os canais conforme necessário. Os moradores da cidade modernos mudam sem esforço entre a palavra falada e a escrita em suas várias formas-manuscrito, digitação, email etc. Qualquer que seja a modalidade escolhida, pode transmitir com segurança o conteúdo completo da mensagem sem assistência externa de qualquer tipo. Ao falar ao telefone, por exemplo, quaisquer gestos faciais ou manuais que o acompanham, por mais natural do falante, não são estritamente necessários. Ao digitar ou assinar manualmente, por outro lado, não há necessidade de adicionar sons. Em muitas culturas aborígines australianas, uma seção da população-talvez as mulheres que observam um tabu ritual-tradicionalmente se restringem por períodos prolongados a uma versão silenciosa (assinada manualmente) de seu idioma. Então, quando liberado do tabu, esses mesmos indivíduos retomam narrando histórias à beira do fogo ou no escuro, mudando para o som puro sem sacrifício de conteúdo informativo.
Falar é a modalidade padrão para a linguagem em todas as culturas. O primeiro recurso dos humanos é codificar nossos pensamentos em som - um método que depende de capacidades sofisticadas para controlar os lábios, a língua e outros componentes do aparato vocal.
Os órgãos da fala evoluíram em primeira instância, não para a fala, mas para funções corporais mais básicas, como alimentação e respiração. Os primatas não humanos têm órgãos amplamente semelhantes, mas com diferentes controles neurais. Os macacos usam suas línguas altamente flexíveis e manobráveis para comer, mas não para vocalizar. Quando um macaco não está comendo, o controle motor fino sobre a língua é desativado. Ou está realizando ginástica com sua língua ou está vocalizando; Não pode executar as duas atividades simultaneamente. Como isso se aplica a mamíferos em geral, o Homo sapiens é excepcional em mecanismos de aproveitamento projetados para respiração e ingestão para os requisitos radicalmente diferentes da fala articulada.
A palavra "linguagem" deriva da língua latina, "língua". Os fonéticos concordam que a língua é o articulador mais importante da fala, seguido pelos lábios. Uma linguagem natural pode ser vista como uma maneira particular de usar a língua para expressar o pensamento.
A língua humana tem uma forma incomum. Na maioria dos mamíferos, é uma estrutura longa e plana contida em grande parte dentro da boca. Está conectado na parte traseira ao osso hióide, situado abaixo do nível oral na faringe. Nos seres humanos, a língua tem um contorno sagital quase circular (linha média), grande parte dela verticalmente por uma faringe estendida, onde é presa a um osso hióide em uma posição abaixada. Em parte como resultado disso, os tubos horizontais (dentro da boca) e vertical (abaixo da garra) que formam o trato vocal supralaríngeo (SVT) são quase iguais em comprimento (enquanto que em outras espécies, a seção vertical é mais curta ). À medida que movemos nossas mandíbulas para cima e para baixo, a língua pode variar a área da seção transversal de cada tubo de forma independente em cerca de 10: 1, alterando as frequências formantes de acordo. Que os tubos são unidos em um ângulo reto que permite a pronúncia das vogais [i], [u] e [a], o que os primatas não humanos não podem fazer. Mesmo quando não é executado com muita precisão, em humanos a ginástica articulatória necessária para distinguir essas vogais produzem resultados acústicos consistentes e distintos, ilustrando a natureza quantal [esclarecimento necessária] dos sons da fala humana. Pode não ser coincidência que [i], [u] e [a] sejam as vogais mais comuns nas línguas do mundo. As línguas humanas são muito mais curtas e mais finas que outros mamíferos e são compostas por um grande número de músculos, o que ajuda a moldar uma variedade de sons na cavidade oral. A diversidade de produção sonora também aumenta com a capacidade do humano de abrir e fechar as vias aéreas, permitindo que quantidades variadas de ar saem pelo nariz. Os movimentos motores finos associados à língua e às vias aéreas tornam os seres humanos mais capazes de produzir uma ampla gama de formas complexas, a fim de produzir sons a taxas e intensidades diferentes.
Nos seres humanos, os lábios são importantes para a produção de paradas e fricativas, além de vogais. Nada, no entanto, sugere que os lábios evoluíram por esses motivos. Durante a evolução dos primatas, uma mudança da atividade noturna para a diurna em tarsiers, macacos e macacos (os haplorhines) trouxe consigo uma crescente dependência da visão às custas da olfação. Como resultado, o focinho foi reduzido e o rinário ou o "nariz molhado" foram perdidos. Os músculos do rosto e dos lábios, consequentemente, tornaram-se menos restritos, permitindo que sua cooptação servir a propósitos de expressão facial. Os lábios também ficaram mais espessos, e a cavidade oral escondida atrás ficou menor. Portanto, de acordo com Ann MacLarnon, "a evolução dos lábios móveis e musculares, tão importante para a fala humana, foi o resultado exptativo da evolução da diurna e comunicação visual no ancestral comum dos haplorhines". Não está claro se os lábios humanos foram submetidos a uma adaptação mais recente aos requisitos específicos da fala.
Comparados com primatas não humanos, os seres humanos aumentaram significativamente o controle da respiração, permitindo que as exalações sejam estendidas e as inalações reduzidas enquanto falamos. Enquanto estamos falando, os músculos abdominais intercostais e interiores são recrutados para expandir o tórax e atrair ar para os pulmões e, posteriormente, controlar a liberação do ar como os pulmões deflatam. Os músculos envolvidos são marcadamente mais inervados em humanos do que em primatas não humanos. Evidências de homininos fósseis sugerem que o aumento necessário do canal vertebral e, portanto, as dimensões da medula espinhal, podem não ter ocorrido no Australopithecus ou no Homo erectus, mas esteve presente nos neandertais e nos primeiros humanos modernos.
A laringe ou caixa de voz é um órgão no pescoço que abriga as dobras vocais, responsáveis pela fonação. Nos seres humanos, a laringe é descendente, está posicionada menor do que em outros primatas. Isso ocorre porque a evolução dos humanos para uma posição vertical mudou a cabeça diretamente acima da medula espinhal, forçando todo o resto para baixo. O reposicionamento da laringe resultou em uma cavidade mais longa chamada faringe, responsável por aumentar o alcance e a clareza do som que está sendo produzido. Outros primatas quase não têm faringe; Portanto, seu poder vocal é significativamente menor. Os seres humanos não são únicos a esse respeito: cabras, cães, porcos e tamarins abaixam a laringe temporariamente, para emitir chamadas altas. Várias espécies de veados têm uma laringe permanentemente reduzida, que pode ser reduzida ainda mais pelos homens durante suas exibições rugindo. Leões, Jaguars, Cheetahs e Gatos Domésticos também fazem isso. No entanto, a descendência laríngea em não -humanos (de acordo com Philip Lieberman) não é acompanhada pela descida do hióide; Portanto, a língua permanece horizontal na cavidade oral, impedindo -a de agir como um articulador faríngeo.
Apesar de tudo isso, os estudiosos permanecem divididos sobre o quão "especial" o trato vocal humano realmente é. Foi demonstrado que a laringe desce até certo ponto durante o desenvolvimento em chimpanzés, seguida de descendência hiocal. Com isso, Philip Lieberman ressalta que apenas os seres humanos evoluíram a descendência laringe permanente e substancial em associação com a ascendência hioidal, resultando em uma língua curva e trato vocal de dois tubos com proporções 1: 1. [Citação necessária] exclusivamente no caso humano , o contato simples entre a epiglote e o velum não é mais possível, interrompendo a separação normal dos mamíferos dos tratos respiratórios e digestivos durante a deglutição. Como isso implica custos substanciais - aumentando o risco de sufocar enquanto engolir alimentos - somos forçados a perguntar quais benefícios podem ter superado esses custos. Alguns afirmam que o benefício claro deve ter sido o discurso, mas outro concurso. Uma objeção é que os seres humanos não correm seriamente em risco de sufocar os alimentos: as estatísticas médicas indicam que acidentes desse tipo são extremamente raros. Outra objeção é que, na visão da maioria dos estudiosos, o discurso como o conhecemos surgiu relativamente tarde na evolução humana, aproximadamente contemporânea com o surgimento do Homo sapiens. Um desenvolvimento tão complexo quanto a reconfiguração do trato vocal humano exigiria muito mais tempo, implicando uma data de origem precoce. Essa discrepância em escalas de tempo mina a idéia de que a flexibilidade vocal humana foi inicialmente impulsionada pelas pressões de seleção para a fala.
Pelo menos um orangotango demonstrou a capacidade de controlar a caixa de voz.
Para diminuir a laringe, é aumentar o comprimento do trato vocal, por sua vez, diminuindo as frequências do formante para que a voz soe "mais profunda" - dando uma impressão de maior tamanho. John Ohala argumentou que a função da laringe reduzida em humanos, especialmente os homens, provavelmente é melhorar as exibições de ameaças em vez de a própria fala. Ohala apontou que, se a laringe abaixada fosse uma adaptação para a fala, esperaríamos que os homens humanos adultos fossem melhor adaptados a esse respeito do que as mulheres adultas, cuja laringe é consideravelmente menos baixa. De fato, as mulheres invariavelmente superam os homens em testes verbais, falsificando toda essa linha de raciocínio. William Tecumseh Fitch também argumenta que essa era a vantagem seletiva original da redução da laringe em nossa espécie. Embora, de acordo com a Fitch, a redução inicial da laringe em humanos não tivesse nada a ver com a fala, o aumento da gama de possíveis padrões formantes foi subsequentemente cooptada para a fala. O exagero de tamanho continua sendo a única função da descendência da laringe extrema observada em veados masculinos. Consistente com o tamanho da hipótese de exagero, uma segunda descida da laringe ocorre na puberdade em humanos, embora apenas nos homens. Em resposta à objeção de que a laringe é descendente em fêmeas humanas, Fitch sugere que as mães vocalizando para proteger seus bebês também teriam se beneficiado dessa habilidade.
A maioria dos especialistas credita os neandertais com habilidades de fala não radicalmente diferentes das do Homo sapiens modernas. Uma linha de argumento indireta é que suas táticas de fabricação de ferramentas e caça teriam sido difíceis de aprender ou executar sem algum tipo de discurso. Uma extração recente de DNA dos ossos neandertais indica que os neandertais tinham a mesma versão do gene Foxp2 que os humanos modernos. Esse gene, erroneamente descrito como o "gene da gramática", desempenha um papel no controle dos movimentos orofaciais que (em seres humanos modernos) estão envolvidos na fala.
Durante a década de 1970, acreditava -se amplamente que os neandertais careciam de capacidades de fala modernas. Afirmou -se que eles possuíam um osso hióide tão alto no trato vocal que impedia a possibilidade de produzir certos sons de vogal.
O osso hióide está presente em muitos mamíferos. Ele permite uma ampla gama de movimentos de língua, faríngeo e laringeal, preparando essas estruturas juntas uma com a outra para produzir variação. Agora se percebe que sua posição reduzida não é exclusiva do Homo sapiens, enquanto sua relevância para a flexibilidade vocal pode ter sido exagerada: embora os homens tenham uma laringe mais baixa, eles não produzem uma gama mais ampla do que mulheres ou de dois anos de idade bebês. Não há evidências de que a posição da laringe dos neandertais impediu a faixa de sons de vogal que eles poderiam produzir. A descoberta de um osso hióide de aparência moderna de um homem neandertal na caverna de kebara em Israel levou seus descobertos a argumentar que os neandertais tinham uma laringe descendente e, portanto, as capacidades de fala humanas. No entanto, outros pesquisadores alegaram que a morfologia do hióide não é indicativa da posição da laringe. É necessário levar em consideração a base do crânio, a mandíbula, as vértebras cervicais e um plano de referência craniano.
A morfologia da orelha externa e média dos homininos do Pleistoceno médio de Atapuerca, Espanha, que se acredita ser proto-neandertana, sugere que eles tinham uma sensibilidade auditiva semelhante aos humanos modernos e muito diferentes dos chimpanzés. Eles provavelmente foram capazes de diferenciar entre muitos sons de fala diferentes.
Hypoglossal canalHypoglossal nerveO nervo hipoglossal desempenha um papel importante no controle de movimentos da língua. Em 1998, uma equipe de pesquisa usou o tamanho do canal hipoglossal na base de crânios fósseis, na tentativa de estimar o número relativo de fibras nervosas, alegando com base nesse sentido que os homininos do Pleistoceno médio e os neandertais tinham mais controle de língua ajustada do que qualquer Australopithecines ou macacos. Posteriormente, no entanto, foi demonstrado que o tamanho do canal e os nervos hipoglossais não estão correlacionados, e agora é aceito que essa evidência não seja informativa sobre o momento da evolução da fala humana.
As vogais ao lado de pontos são: não arredondados • arredondado
De acordo com uma escola influente, o aparato vocal humano é intrinsecamente digital no modelo de um teclado ou computador digital (veja abaixo). Nada sobre o aparato vocal de um chimpanzé sugere um teclado digital, apesar das semelhanças anatômicas e fisiológicas. Isso coloca a questão de quando e como, durante o curso da evolução humana, ocorreu a transição da estrutura e da função analógicas para digitais.
Diz -se que o trato supralaríngeo humano é digital, no sentido de que é um arranjo de alternantes móveis, cada um dos quais, a qualquer momento, deve estar em um estado ou outro. As cordas vocais, por exemplo, estão vibrando (produzindo um som) ou não vibrando (no modo silencioso). Em virtude da física simples, a característica distintiva correspondente - neste caso, "voz" - não pode estar em algum lugar intermediário. As opções são limitadas a "desligar" e "on". Igualmente digital é o recurso conhecido como "nasalização". A qualquer momento, o palato mole ou o velum permite ou não permite que o som ressoe na câmara nasal. No caso de posições labial e língua, mais de dois estados digitais podem ser permitidos.
A teoria de que os sons da fala são entidades compostas constituídas por complexos de características fonéticas binárias foi avançada em 1938 pelo linguista russo Roman Jakobson. Um dos primeiros apoiadores dessa abordagem foi Noam Chomsky, que passou a estender -a da fonologia à linguagem de maneira mais geral, em particular ao estudo da sintaxe e semântica. Em seu livro de 1965, aspectos da teoria da sintaxe, Chomsky tratou conceitos semânticos como combinações de elementos atômicos binários digitais explicitamente no modelo de teoria de características distintas. O item lexical "Bacharel", nessa base, seria expresso como [+ humano], [+ masculino], [- casado].
Os apoiadores dessa abordagem vêem as vogais e consoantes reconhecidas pelos falantes de um idioma ou dialeto específico em um determinado momento como entidades culturais de pouco interesse científico. Do ponto de vista da ciência natural, as unidades que são importantes são aquelas comuns ao Homo sapiens em virtude de nossa natureza biológica. Ao combinar os elementos atômicos ou "recursos" com os quais todos os humanos estão equipados, qualquer pessoa pode, em princípio, gerar toda a gama de vogais e consoantes em qualquer uma das línguas do mundo, passada, presente ou futuro. As características distintas são nesse sentido componentes atômicos de uma linguagem universal.
Voicing contrast in English fricativesArticulationVoicelessVoicedPronounced with the lower lip against the teeth:[f] (fan)[v] (van)Pronounced with the tongue against the teeth:[θ] (thin, thigh)[ð] (then, thy)Pronounced with the tongue near the gums:[s] (sip)[z] (zip)Pronounced with the tongue bunched up:[ʃ] (pressure)[ʒ] (pleasure)CriticismNos últimos anos, a noção de uma variação fonológica inata de "gramática universal" foi questionada. A monografia mais abrangente já escrita sobre sons de fala, os sons das línguas do mundo, de Peter Ladefoged e Ian Maddieson, encontraram praticamente nenhuma base para a postulação de um pequeno número de características fonéticas fixas, discretas e universais. Examinando 305 idiomas, por exemplo, eles encontraram vogais que estavam posicionadas basicamente em toda parte ao longo do continuum articulatório e acústico. Ladefoged concluiu que as características fonológicas não são determinadas pela natureza humana: "As características fonológicas são melhor consideradas como artefatos que os linguistas criaram para descrever sistemas lingüísticos".
A auto-organização caracteriza sistemas em que as estruturas macroscópicas são formadas espontaneamente a partir de interações locais entre os muitos componentes do sistema. Em sistemas auto-organizados, as propriedades organizacionais globais não podem ser encontradas em nível local. Em termos coloquiais, a auto-organização é capturada aproximadamente pela idéia de "de baixo para cima" (em oposição à organização "de cima para baixo"). Exemplos de sistemas auto-organizados variam de cristais de gelo a espirais de galáxias no mundo inorgânico.
Segundo muitos fonéticos, os sons da linguagem organizam e se reorganizam através da auto-organização. Os sons da fala têm propriedades perceptivas (como se ouve) e articulatórias (como se produz), todas com valores contínuos. Os palestrantes tendem a minimizar o esforço, favorecendo a facilidade de articulação em relação à clareza. Os ouvintes fazem o oposto, favorecendo sons que são fáceis de distinguir, mesmo que difíceis de pronunciar. Como os palestrantes e ouvintes estão constantemente mudando de funções, os sistemas sílabas realmente encontrados nos idiomas do mundo acabam sendo um compromisso entre a distinção acústica, por um lado, e a facilidade articulatória, por outro.
Os modelos de computador baseados em agentes tomam a perspectiva de auto-organização no nível da comunidade ou população da fala. Os dois principais paradigmas são (1) o modelo de aprendizado iterado e (2) o modelo de jogo de idiomas. A aprendizagem iterada se concentra na transmissão de geração em geração, normalmente com apenas um agente em cada geração. No modelo de jogo de idiomas, toda uma população de agentes produz simultaneamente, percebe e aprende a linguagem, inventando novas formas quando surgir a necessidade.
Vários modelos mostraram como as interações vocais ponto a ponto relativamente simples, como imitação, podem se auto-organizar espontaneamente um sistema de sons compartilhados por toda a população e diferente em diferentes populações. Por exemplo, modelos elaborados por Berrah et al. (1996) e De Boer (2000), e recentemente reformulados usando a teoria bayesiana, mostraram como um grupo de indivíduos que jogam jogos de imitação pode auto-organizar repertórios de sons de vogal que compartilham propriedades substanciais com sistemas de vogais humanas. Por exemplo, no modelo de De Boer, as vogais inicialmente são geradas aleatoriamente, mas os agentes aprendem uns com os outros enquanto interagem repetidamente com o tempo. O agente A escolhe uma vogal de seu repertório e a produz, inevitavelmente com algum barulho. O agente B ouve essa vogal e escolhe o equivalente mais próximo de seu próprio repertório. Para verificar se isso realmente corresponde ao original, B produz a vogal que ela acha que ouviu, quando se refere mais uma vez ao seu próprio repertório para encontrar o equivalente mais próximo. Se isso corresponde ao que ela selecionou inicialmente, o jogo será bem -sucedido, caso contrário, falhou. "Através de interações repetidas", de acordo com De Boer, "emergem os sistemas de vogais que são muito parecidos com os encontrados nas línguas humanas".
Em um modelo diferente, o fonético Björn Lindblom foi capaz de prever, por motivos auto-organizacionais, as escolhas favoritas de sistemas de vogais que variam de três a nove vogais com base em um princípio de diferenciação perceptiva ideal.
Outros modelos estudaram o papel da auto-organização nas origens da codificação e combinatoria fonêmica, que é a existência de fonemas e sua reutilização sistemática para construir sílabas estruturadas. O Pierre-Yves Oudeyer desenvolveu modelos que mostraram que o equipamento neural básico para imitação vocal holística adaptativa, acoplamento diretamente de representações motoras e perceptivas no cérebro, pode gerar sistemas combinatórios de vocalização espontaneamente compartilhados espontaneamente, incluindo padrões fonotáticos, em uma sociedade de indivíduos com tagarelas. Esses modelos também caracterizaram como as restrições inatas morfológicas e fisiológicas podem interagir com esses mecanismos auto-organizados para explicar a formação de regularidades estatísticas e diversidade nos sistemas de vocalização.
A teoria gestual afirma que a fala era um desenvolvimento relativamente tardio, evoluindo por graus de um sistema que era originalmente gestual. Nossos ancestrais não conseguiram controlar sua vocalização no momento em que os gestos eram usados para se comunicar; No entanto, quando eles começaram a controlar lentamente suas vocalizações, a linguagem falada começou a evoluir.
Três tipos de evidência apóiam essa teoria:
Gestural language and vocal language depend on similar neural systems. The regions on the cortex that are responsible for mouth and hand movements border each other.Nonhuman primates minimise vocal signals in favour of manual, facial and other visible gestures in order to express simple concepts and communicative intentions in the wild. Some of these gestures resemble those of humans, such as the "begging posture", with the hands stretched out, which humans share with chimpanzees.Mirror Neurons[clarification needed]A pesquisa encontrou um forte apoio à idéia de que a linguagem e a assinatura faladas dependem de estruturas neurais semelhantes. Os pacientes que usaram linguagem de sinais e que sofreram de uma lesão de hemisfério esquerdo mostraram os mesmos distúrbios com sua linguagem de sinais que os pacientes vocais que fizeram com sua linguagem oral. Outros pesquisadores descobriram que as mesmas regiões cerebrais do hemisfério esquerdo estavam ativas durante a linguagem de sinais, como durante o uso da linguagem vocal ou escrita.
Os seres humanos usam espontaneamente gestos manuais e faciais ao formular idéias para serem transmitidos na fala. Obviamente, existem muitos idiomas de sinalização existentes, comumente associados a comunidades surdas; Como observado acima, eles são iguais em complexidade, sofisticação e poder expressivo, para qualquer idioma oral. A principal diferença é que os "fonemas" são produzidos na parte externa do corpo, articulados com mãos, corpo e expressão facial, em vez de dentro do corpo articulado com língua, dentes, lábios e respiração.
Muitos psicólogos e cientistas procuraram o sistema de espelhos no cérebro para responder a essa teoria e outras teorias comportamentais. As evidências para apoiar os neurônios espelhados como um fator na evolução da fala incluem neurônios espelhados nos primatas, o sucesso do ensino dos macacos a se comunicar gesturalmente e apontar/gesticular para ensinar a língua das crianças pequenas. Fogassi e Ferrari (2014) [citação necessária] Monitoraram a atividade do córtex motor em macacos, especificamente a área F5 na área de Broca, onde estão localizados neurônios espelhados. Eles observaram mudanças na atividade elétrica nessa área quando o macaco executou ou observou diferentes ações manuais executadas por outra pessoa. A área de Broca é uma região no lobo frontal responsável pela produção e processamento de idiomas. A descoberta de neurônios espelhados nessa região, que dispara quando uma ação é realizada ou observada especificamente com a mão, apóia fortemente a crença de que a comunicação já foi realizada com gestos. O mesmo se aplica ao ensinar a língua das crianças pequenas. Quando um aponta para um objeto ou local específico, os neurônios espelhados no fogo da criança como se estivessem fazendo a ação, o que resulta em aprendizado de longo prazo
CriticismOs críticos observam que, para os mamíferos em geral, o som acaba sendo o melhor meio para codificar informações para transmissão sobre distâncias em velocidade. Dada a probabilidade de que isso se aplicasse também aos primeiros humanos, é difícil ver por que eles deveriam ter abandonado esse método eficiente em favor de sistemas mais caros e complicados de gestação visual - apenas para retornar ao som posteriormente.
A título de explicação, foi proposto que, em um estágio relativamente tardio da evolução humana, as mãos de nossos ancestrais se tornaram tanta demanda por fabricar e usar ferramentas que as demandas concorrentes de gesticulação manual se tornaram um obstáculo. Diz -se que a transição para a linguagem falada ocorreu apenas naquele momento. Como os seres humanos em toda a evolução estão fazendo e usando ferramentas, no entanto, a maioria dos estudiosos permanece não convencidos por esse argumento. (Para uma abordagem diferente para esse problema - uma partida das considerações de confiabilidade e confiança do sinal - consulte "da pantomima para a fala" abaixo).
Pouco se sabe sobre o momento do surgimento da linguagem nas espécies humanas. Ao contrário da escrita, a fala não deixa rastreamento material, tornando -o arqueologicamente invisível. Na falta de evidências linguísticas diretas, os especialistas em origens humanas recorreram ao estudo de características anatômicas e genes associados à produção de fala. Embora esses estudos possam fornecer informações sobre se as espécies do Homo pré-modernas tinham capacidades de fala, ainda não se sabe se elas realmente falavam. Embora eles possam ter comunicado vocalmente, os dados anatômicos e genéticos não têm a resolução necessária para diferenciar a linguagem proto da fala.
Usando métodos estatísticos para estimar o tempo necessário para alcançar hoje a propagação e a diversidade atuais nas línguas modernas, Johanna Nichols - linguista da Universidade da Califórnia, Berkeley - argumentou em 1998 que as línguas vocais devem ter começado a diversificar em nossa espécie pelo menos 100.000 anos atrás.
Mais recentemente - em 2012 - os antropólogos Charles Perreault e Sarah Mathew usaram a diversidade fonêmica para sugerir uma data consistente com isso. "Diversidade fonêmica" denota o número de unidades perceptivamente distintas de som - consoantes, vogais e tons - em um idioma. O atual padrão mundial de diversidade fonêmica contém potencialmente o sinal estatístico da expansão do Homo sapiens moderno da África, a partir de 60-70 mil anos atrás. Alguns estudiosos argumentam que a diversidade fonêmica evolui lentamente e pode ser usada como relógio para calcular quanto tempo as línguas africanas mais antigas teriam que estar por perto para acumular o número de fonemas que possuem hoje. Quando as populações humanas deixaram a África e se expandiram para o resto do mundo, elas foram submetidas a uma série de gargalos - pontos nos quais apenas uma população muito pequena sobreviveu para colonizar um novo continente ou região. Alegadamente, esse acidente populacional levou a uma redução correspondente na diversidade genética, fenotípica e fonêmica. Hoje, as línguas africanas têm alguns dos maiores inventários fonêmicos do mundo, enquanto os menores inventários são encontrados na América do Sul e na Oceania, algumas das últimas regiões do mundo a serem colonizadas. Por exemplo, Rotokas, uma linguagem da Nova Guiné, e Pirahã, falados na América do Sul, ambos têm apenas 11 fonemas, enquanto! Xun, um idioma falado no sul da África tem 141 fonemas. Os autores usam um experimento natural - a colonização do continente do continente Por um lado, o sudeste da Ásia, as ilhas Andaman há muito isoladas, por outro-para estimar a taxa na qual a diversidade fonêmica aumenta ao longo do tempo. Usando essa taxa, eles estimam que os idiomas do mundo datam da Idade da Pedra Média na África, entre 350 mil e 150 mil anos atrás. Isso corresponde ao evento de especiação que deu origem ao Homo sapiens.
Esses e estudos semelhantes foram, no entanto, criticados por linguistas que argumentam que são baseados em uma analogia falha entre genes e fonemas, uma vez que os fonemas são frequentemente transferidos lateralmente entre idiomas, diferentemente dos genes, e em uma amostra falha dos idiomas do mundo, uma vez que a Oceania e As Américas também contêm idiomas com um número muito alto de fonemas, e a África contém idiomas com muito poucos. Eles argumentam que a distribuição real da diversidade fonêmica no mundo reflete o contato recente do idioma e não a história profunda da linguagem - uma vez que é bem demonstrado que os idiomas podem perder ou obter muitos fonemas em períodos muito curtos. Em outras palavras, não há razão linguística válida para esperar que os efeitos do fundador genético influenciem a diversidade fonêmica.
"Não posso duvidar de que a linguagem deve sua origem à imitação e modificação, auxiliadas por sinais e gestos, de vários sons naturais, as vozes de outros animais e os gritos instintivos do homem".
Em 1861, o linguista histórico Max Müller publicou uma lista de teorias especulativas sobre as origens da linguagem falada: essas teorias foram agrupadas sob a categoria denominada hipóteses de invenção. Essas hipóteses foram todas destinadas a entender como a primeira língua poderia ter se desenvolvido e postulando que a imitação humana de sons naturais eram como as primeiras palavras com significado foram derivadas.
Bow-wow. The bow-wow or cuckoo theory, which Müller attributed to the German philosopher Johann Gottfried Herder, saw early words as imitations of the cries of beasts and birds. This theory, believed to be derived from onomatopoeia, relates the meaning of the sound to the actual sound formulated by the speaker.Pooh-pooh. The Pooh-Pooh theory saw the first words as emotional interjections and exclamations triggered by pain, pleasure, surprise and so on. These sounds were all produced on sudden intakes of breath, which is unlike any other language. Unlike emotional reactions, spoken language is produced on the exhale, so the sounds contained in this form of communication are unlike those used in normal speech production, which makes this theory a less plausible one for language acquisition.Ding-dong. Müller suggested what he called the Ding-Dong theory, which states that all things have a vibrating natural resonance, echoed somehow by man in his earliest words. Words are derived from the sound associated with their meaning; for example, “crash became a word for thunder, boom for explosion.” This theory also heavily relies on the concept of onomatopoeia.Yo-he-ho. The yo-he-ho theory saw language emerging out of collective rhythmic labor, the attempt to synchronize muscular effort resulting in sounds such as heave alternating with sounds such as ho. Believed to be derived from the basis of human collaborative efforts, this theory states that humans needed words, which might have started off as chanting, to communicate. This need could have been to ward off predators, or served as a unifying battle cry.Ta-ta. This did not feature in Max Müller's list, having been proposed in 1930 by Sir Richard Paget. According to the ta-ta theory, humans made the earliest words by tongue movements that mimicked manual gestures, rendering them audible.Um conceito comum de onomatopéia como a primeira fonte de palavras está presente; No entanto, há um problema gritante com essa teoria. Onomatopeia pode explicar as primeiras duas palavras derivadas do fenômeno natural, mas não há explicação sobre como surgiram palavras mais complexas sem uma contraparte natural. Hoje, a maioria dos estudiosos considera todas essas teorias que não são tanto erradas - ocasionalmente oferecem idéias periféricas - como drasticamente limitadas. Essas teorias são muito estreitamente mecanicistas para explicar de forma abrangente a origem da linguagem. Eles assumem que, uma vez que nossos ancestrais haviam tropeçado no mecanismo engenhoso apropriado para vincular sons com significados, a linguagem evoluiu e mudou automaticamente.
Da perspectiva da ciência moderna, o principal obstáculo à evolução da comunicação semelhante à fala na natureza não é mecanicista. Em vez disso, é que os símbolos - associações arbitrárias de sons com significados correspondentes - não são confiáveis e podem muito bem ser falsos. Como diz o ditado, "as palavras são baratas". O problema da confiabilidade não foi reconhecido por Darwin, Müller ou por outros teóricos evolucionistas.
Os sinais vocais de animais são, na maioria das vezes, intrinsecamente confiáveis. Quando um gato ronrona, o sinal constitui evidências diretas do estado contente do animal. Pode -se "confiar" no sinal não porque o gato está inclinado a ser honesto, mas porque simplesmente não pode fingir esse som. As chamadas vocais de primatas podem ser um pouco mais manipuláveis, mas permanecem confiáveis pelo mesmo motivo - porque são difíceis de fingir. A inteligência social dos primatas é maquiavélica-egoísta e sem restrições por escrúpulos morais. Macacos e macacos geralmente tentam enganar um ao outro, enquanto, ao mesmo tempo, permanecem constantemente na guarda contra a queda de se enquadrar. Paradoxalmente, é com precisão a resistência dos primatas ao engano que bloqueia a evolução de seus sistemas de comunicação vocal ao longo de linhas semelhantes a linguagem. A linguagem é descartada porque a melhor maneira de se proteger contra ser enganada é ignorar todos os sinais, exceto aqueles que são instantaneamente verificáveis. Palavras falham automaticamente neste teste.
Palavras são fáceis de fingir. Se eles se mostrarem mentiras, os ouvintes se adaptarão ignorando-os em favor de índices ou pistas difíceis de falsificar. Para que o idioma funcione, os ouvintes devem estar confiantes de que aqueles com quem estão em termos de fala geralmente provavelmente serão honestos. Uma característica peculiar da linguagem é "Referência deslocada", o que significa referência a tópicos fora da situação atualmente perceptível. Essa propriedade impede que os expressões sejam corroborados no "aqui" e "agora". Por esse motivo, a linguagem pressupõe níveis relativamente altos de confiança mútua para se estabelecer ao longo do tempo como uma estratégia evolutivamente estável. Uma teoria das origens da linguagem deve, portanto, explicar por que os humanos poderiam começar a confiar em sinais baratos de maneiras que outros animais aparentemente não podem (consulte a teoria da sinalização).
"Kin selection"A hipótese das "línguas -mãe" foi proposta em 2004 como uma possível solução para esse problema. W. Tecumseh Fitch sugeriu que o princípio darwiniano de "seleção de parentes" - a convergência de interesses genéticos entre parentes - poderia fazer parte da resposta. Fitch sugere que as línguas faladas eram originalmente "línguas maternas". Se a fala evoluísse inicialmente para a comunicação entre as mães e seus próprios filhos biológicos, estendendo -se posteriormente para incluir parentes adultos, os interesses de palestrantes e ouvintes tendem a coincidir. Fitch argumenta que os interesses genéticos compartilhados levariam a confiança e cooperação suficientes para sinais vocais intrinsecamente confiáveis - palavras faladas - para serem aceitas como confiáveis e, assim, começar a evoluir pela primeira vez.
CriticismOs críticos dessa teoria apontam que a seleção de parentes não é exclusiva dos seres humanos. As mães macacas também compartilham genes com seus filhos, assim como todos os animais, então por que são apenas os humanos que falam? Além disso, é difícil acreditar que os primeiros humanos restrinjam a comunicação linguística aos parentes genéticos: o tabu do incesto deve ter forçado homens e mulheres a interagir e se comunicar com o não parente. Portanto, mesmo se aceitarmos as premissas iniciais da Fitch, a extensão das redes de "língua materna" postulada de parentes para não-relativos permanece inexplicável.
"Reciprocal altruism"Ib Ulbæk invoca outro princípio darwiniano padrão - "altruísmo recíproco" - para explicar os níveis incomumente altos de honestidade intencional necessários para que a linguagem evoluir. 'Altruísmo recíproco' pode ser expresso como o princípio de que, se você arranhar minhas costas, eu arranharei o seu. Em termos lingüísticos, isso significaria que, se você falar com sinceridade para mim, falarei com sinceridade com você. O altruísmo recíproco darwiniano comum, aponta Ulbæk, é um relacionamento estabelecido entre indivíduos com interação frequente. Para que a linguagem prevaleça em toda uma comunidade, no entanto, a reciprocidade necessária precisaria ser aplicada universalmente, em vez de ser deixada para a escolha individual. Ulbæk conclui que, para a linguagem evoluir, a sociedade primitiva como um todo deve ter sido sujeita à regulamentação moral.
CriticismOs críticos apontam que essa teoria não explica quando, como, por que ou por quem "altruísmo recíproco obrigatório" poderia ter sido aplicado. Várias propostas foram oferecidas para remediar esse defeito. De qualquer maneira, uma outra crítica é que a linguagem não funciona com base no altruísmo recíproco. Os seres humanos em grupos de conversação não reterem informações a todos, exceto os ouvintes que provavelmente oferecem informações valiosas em troca. Pelo contrário, eles parecem querer anunciar ao mundo seu acesso a informações socialmente relevantes, transmitindo -as para quem ouvirá sem pensar em retorno.
"Gossip and grooming"As fofocas, de acordo com Robin Dunbar, fazem para os seres humanos que vivem em grupo, o que a preparação manual faz por outros primatas-permite que os indivíduos atendam seus relacionamentos e, assim, mantenham suas alianças. Quando os seres humanos começaram a morar em grupos sociais maiores e maiores, a tarefa de preparar manualmente todos os amigos e conhecidos tornou-se tão demorada a ponto de não ser acessível. Em resposta a esse problema, os seres humanos inventaram "uma forma barata e ultra eficiente de higiene"-higiene vocal. Para manter seus aliados felizes, agora você precisava apenas "prepará-los" com sons vocais de baixo custo, atendendo a vários aliados simultaneamente, mantendo as duas mãos livres para outras tarefas. Preparação vocal (a produção de sons agradáveis sem sintaxe ou semântica combinatória) evoluiu de alguma forma para a fala sintática.
CriticismOs críticos dessa teoria apontam que a própria eficiência de "higiene vocal"-que as palavras são tão baratas-teriam prejudicado sua capacidade de sinalizar o comprometimento do tipo transmitido pelo tempo consumido e caro manual. Uma crítica adicional é que a teoria não faz nada para explicar a transição crucial da preparação vocal - a produção de sons agradáveis, mas sem sentido - para as complexidades cognitivas do discurso sintático.
From pantomime to speechDe acordo com outra escola de pensamento, a linguagem evoluiu da Mimesis - a "atuação" de cenários usando pantomima vocal e gestual. Charles Darwin, que era cético, levantou a hipótese de que a fala e a linguagem humanas são derivadas de gestos e pantomima da boca. Essa teoria, elaborada por vários autores, postula que o gênero Homo, diferente de nossos ancestrais dos macacos, desenvolveu um novo tipo de cognição. Os macacos são capazes de aprendizado associativo. Eles podem amarrar uma sugestão sensorial a uma resposta motora frequentemente treinada através do condicionamento clássico. No entanto, nos macacos, a sugestão sensorial condicionada é necessária para que uma resposta condicionada seja observada novamente. A resposta do motor não ocorrerá sem uma sugestão externa de um agente externo. Uma capacidade notável que os humanos possuem é a capacidade de recuperar voluntariamente memórias sem a necessidade de uma sugestão (por exemplo, estímulo condicionado). Isso não é uma habilidade que foi observada em animais, exceto os macacos treinados em idiomas. Ainda há muita controvérsia sobre se a pantomima é uma capacidade para macacos, selvagens e capturados. Desde que os enunciados precisassem ser emocionalmente expressivos e convincentes, não foi possível concluir a transição para sinais puramente convencionais. Sobre essa suposição, gestos e vocalizações pré-linguísticos seriam necessários não apenas para desambiguar significados pretendidos, mas também para inspirar confiança em sua confiabilidade intrínseca. Se os compromissos contratuais fossem necessários para inspirar a confiança em toda a comunidade em intenções comunicativas, seguiria-se que eles tivessem que estar em vigor antes que os seres humanos pudessem finalmente mudar para uma sinalização ultra-eficiente e de alta velocidade-em oposição à sinalização analógica- formato. Recursos distintos vocais (contrastes de som) são ideais para esse fim. Portanto, sugere -se que o estabelecimento de entendimentos contratuais permitisse a transição decisiva do gesto mimético para o discurso totalmente convencionalizado e codificado digitalmente.
"Ritual/speech coevolution"A teoria do ritual/coevolução da fala foi originalmente proposta pelo distinto antropólogo social Roy Rappaport antes de ser elaborado por antropólogos como Chris Knight, Jerome Lewis, Nick Enfield, Camilla Power e Ian Watts. O cientista cognitivo e o engenheiro de robótica Luc Steels é outro defensor proeminente dessa abordagem geral, assim como o antropólogo biológico/neurocientista Terrence Deacon.
Esses estudiosos argumentam que não pode haver uma "teoria das origens da linguagem". Isso ocorre porque a linguagem não é uma adaptação separada, mas um aspecto interno de algo muito mais amplo - a saber, a cultura simbólica humana como um todo. As tentativas de explicar a linguagem independentemente desse contexto mais amplo falharam espetacularmente, dizem esses cientistas, porque estão abordando um problema sem solução. Podemos imaginar um historiador tentando explicar o surgimento de cartões de crédito independentemente do sistema mais amplo do qual eles fazem parte? O uso de um cartão de crédito faz sentido apenas se você tiver uma conta bancária reconhecida institucionalmente em um certo tipo de sociedade capitalista avançada - uma que a tecnologia de comunicação já foi inventada e a fraude pode ser detectada e evitada. Da mesma maneira, a linguagem não funcionaria fora de uma variedade específica de mecanismos e instituições sociais. Por exemplo, não funcionaria para um macaco que se comunicava com outros macacos na natureza. Nem mesmo o macaco mais inteligente poderia fazer o idioma funcionar nessas condições.
"Mentira e alternativa, inerente à linguagem, ... representa problemas para qualquer sociedade cuja estrutura se baseie na linguagem, ou seja, todas as sociedades humanas. Portanto, argumentei que, se houver palavras, é necessário estabelecer A palavra e que a palavra é estabelecida pela invariância da liturgia. "
Os advogados desta escola de pensamento apontam que as palavras são baratas. Como alucinações digitais, elas são intrinsecamente não confiáveis. Se um macaco especialmente inteligente, ou mesmo um grupo de macacos articulados, tente usar palavras na natureza, eles não levariam condenação. As vocalizações dos primatas que carregam convicção - aquelas que realmente usam - são diferentes de palavras, pois são emocionalmente expressivas, intrinsecamente significativas e confiáveis porque são relativamente caras e difíceis de falsificar.
A fala consiste em contrastes digitais cujo custo é essencialmente zero. Como puras convenções sociais, os sinais desse tipo não podem evoluir em um mundo social darwiniano - eles são uma impossibilidade teórica. Por serem intrinsecamente confiáveis, o idioma funciona apenas se você puder construir uma reputação de confiabilidade dentro de um certo tipo de sociedade - a saber, um onde fatos culturais simbólicos (às vezes chamados de "fatos institucionais") podem ser estabelecidos e mantidos através do endosso social coletivo. Em qualquer sociedade de caçadores-coletores, o mecanismo básico para estabelecer confiança em fatos culturais simbólicos é o ritual coletivo. Portanto, a tarefa que os pesquisadores enfrentam sobre as origens da linguagem é mais multidisciplinar do que geralmente se supõe. Envolve abordar o surgimento evolutivo da cultura simbólica humana como um todo, com a linguagem um componente importante, mas subsidiário.
CriticismOs críticos da teoria incluem Noam Chomsky, que a chama de hipótese de "inexistência"-uma negação da própria existência da linguagem como um objeto de estudo para a ciência natural. A própria teoria de Chomsky é que a linguagem emergiu em um instante e em perfeita forma, levando seus críticos, por sua vez, para responder que apenas algo que não existe - um construto teórico ou uma ficção científica conveniente - poderia surgir de uma maneira tão milagrosa. A controvérsia permanece sem solução.
O ensaio "The Festal Origin of Human Speech", embora publicado no final do século XIX, causou pouco impacto até que o filósofo americano Susanne Langer redescobriu e divulgou-o em 1941.
"No início da história dos sons articulados, eles não podiam fazer sentido, mas preservaram e foram intimamente associados aos sentimentos e percepções peculiares que vieram com mais destaque nas mentes dos jogadores festivais durante sua emoção".
A teoria sai da observação de que os sons vocais dos primatas são acima de tudo emocionalmente expressivo. As emoções despertadas são socialmente contagiosas. Por esse motivo, um grande ataque de gritos, picadas ou cascas tendem a expressar não apenas os sentimentos desse ou daquele indivíduo, mas também os altos e baixos mutuamente contagiosos de todos ao alcance da voz.
Voltando aos ancestrais do Homo sapiens, a teoria da "origem festiva" sugere que, no "Excitação de brincadeiras" anteriores ou após uma caça comunitária ou outra atividade de grupo, todos podem ter combinado suas vozes de maneira comparável, enfatizando seu humor de união com ruídos como bateria rítmica e batida à mão. Variáveis vozes lançadas teriam formado padrões convencionais, de modo que o canto coral se tornou parte integrante da celebração comunitária.
Embora isso ainda não tenha sido o discurso, segundo Langer, desenvolveu as capacidades vocais a partir das quais a fala derivaria posteriormente. Haveria modos convencionais de ululação, palmas ou dança apropriados para diferentes ocasiões festivas, cada uma tão intimamente associada a esse tipo de ocasião que tenderia a defender e incorporar coletivamente o conceito. Qualquer pessoa que ouça um pedaço de som de tal música se lembraria da ocasião e do humor associados. Uma sequência melódica e rítmica de sílabas convencionalmente associadas a um certo tipo de celebração se tornaria, na verdade, sua marca vocal. Nessa base, certas seqüências de som familiares se tornariam "simbólicas".
Em apoio a tudo isso, Langer cita relatórios etnográficos de canções tribais que consistem inteiramente de "sílabas rítmicas". Ela admite que um equivalente em inglês como "Hey-Nonny-Nonny", embora talvez sugestivo de certos sentimentos ou idéias, não seja substantivo, verbo, adjetivo, nem qualquer outra parte sintática da fala. Enquanto o som articulado servido apenas na capacidade de "Hey Nonny-Nonny", "Alelujah" ou "Alack-A-Day", ainda não pode ter sido discurso. Para que isso surja, segundo Langer, era necessário que essas seqüências fossem emitidas cada vez mais fora de contexto - fora da situação total que lhes deu origem. Estender um conjunto de associações de um contexto cognitivo para outro, completamente diferente, é o segredo da metáfora. Langer invoca uma versão inicial do que hoje é denominado teoria de "gramaticalização" para mostrar como, a partir de um ponto de partida, a fala sintaticamente complexa pode ter surgido progressivamente.
Langer reconhece Emile Durkheim como tendo proposto uma teoria surpreendentemente semelhante em 1912. Para um pensamento recente em linhas amplamente semelhantes, veja Steven Brown em "Musilanguage", Chris Knight em "Ritual" e "Play", Jerome Lewis em "Mimicry", Steven Mithen em "Hmmmmm" Bruce Richman em "Sílabas sem sentido" e Alison Wray em "Protolanguage Holistic".
Hipótese do neurônio espelhado (MSH) e a teoria motora da percepção da fala
A hipótese do neurônio espelhado, baseado em um fenômeno descoberto em 2008 por Rizzolatti e Fabbri, suporta a teoria motora da percepção da fala. A teoria motora da percepção da fala foi proposta em 1967 por Liberman,