Banco de dados de fala não nativo

Content

Lista

Table 1: Abbreviations for languages used in Table 2ArabicAJapaneseJChineseCKoreanKCzechCzeMalaysianMDanishDNorwegianNDutchDutPortuguesePEnglishERussianRFrenchFSpanishSGermanGSwedishSweGreekGreThaiTIndonesianIndVietnameseVItalianI

A tabela real com informações sobre os diferentes bancos de dados é mostrada na Tabela 2.

Table 2: Overview of non-native DatabasesCorpusAuthorAvailable atLanguages#SpeakersNative Language#Utt.DurationDateRemarksAMI EUEDut and other100hmeeting recordingsATR-Gruhn GruhnATRE96C G F J Ind15000 2004proficiency ratingBAS Strange Corpus 1+10 ELRAG13950 countries7500 1998 Berkeley Restaurant ICSIE55G I H C F S J25001994 Broadcast News LDCE 1997 Cambridge-Witt WittU. CambridgeE10J I K S1200 1999 Cambridge-Ye YeU. CambridgeE20C1600 2005 Children News TomokiyoCMUE62J C7500 2000partly spontaneousCLIPS-IMAG TanCLIPS-IMAGF15C V 6h2006 CLSU LDCE 22 countries5000 2007telephone, spontaneousCMU CMUE64G4520.9h not availableCross Towns SchadenU. BochumE F G I Cze Dut161E F G I S72000133h2006city namesDuke-Arslan ArslanDuke UniversityE9315 countries2200 1995partly telephone speechERJ MinematsuU. TokyoE200J68000 2002proficiency ratingFischer LDCEmany200htelephone speechFitt FittU. EdinburghF I N Gre10E700 1995city namesFraenki U. ErlangenE19G2148 Hispanic Byrne E22S 20h1998partly spontaneousHLTC HKUSTE44C 3h2010available on requestIBM-Fischer IBME40S F G I2000 2002digitsiCALL ChenI2R, A*STARC30524 countries90841142h2015phonetic and tonal transcriptions (in Pinyin), proficiency ratingsISLE AtwellEU/ELDAE46G I400018h2000 Jupiter ZueMITEunknownunknown5146 1999telephone speechK-SEC RheeSiTECEunknownK 2004LDC WSJ1 LDC 10 8001h1994 LeaP GutUniversity of MünsterE G12741 different ones73.941 words12h2003 MIST ELRAE F G75Dut2200 1996 NATO HIWIRE NATOE81F Gre I S8100 2007clean speechNATO M-ATC PigeonNATOE622F G I S983317h2007heavy background noiseNATO N4 NATOE115unknown 7.5h2006heavy background noiseOnomastica D Dut E F G Gre I N P S Swe (121000) 1995only lexiconPF-STAR U. ErlangenE57G46273.4h2005children speechSunstar EUE100G S I P D40000 1992parliament speechTC-STAR HeuvelELDAE SunknownEU countries 13h2006multiple data setsTED LamelELDAE40(188)many 10h(47h)1994eurospeech 93TLTS DARPAA E 1h2004 Tokyo-Kikuko U. TokyoJ14010 countries35000 2004proficiency ratingVerbmobil U. MunichE44G 1.5h1994very spontaneousVODIS EUF G178F G2500 1998about car navigationWP Arabic RoccaLDCA35E8001h2002 WP Russian RoccaLDCR26E25002h2003 WP Spanish MorganLDCS E 2006 WSJ Spoke E10unknown800 1993

Lenda

Na tabela de bancos de dados não nativos, são usadas algumas abreviações para nomes de idiomas. Eles estão listados na Tabela 1. A Tabela 2 fornece as seguintes informações sobre cada corpus: o nome do corpus, a instituição onde o corpus pode ser obtido, ou pelo menos mais informações devem estar disponíveis, o idioma que foi realmente falado pelos falantes , o número de falantes, a língua nativa dos falantes, a quantidade total de expressões não nativas que o corpus contém, a duração em horas da parte não nativa, a data da primeira referência pública a este corpus, algum texto livre destacando aspectos especiais desse banco de dados e uma referência a outra publicação. A referência no último campo é, na maioria dos casos, ao artigo, especialmente dedicado a descrever esse corpus pelos colecionadores originais. Em alguns casos, não foi possível identificar esse artigo. Nesses casos, é referenciado um artigo que está usando este corpus.

Algumas entradas são deixadas em branco e outras são marcadas com desconhecido. A diferença aqui é que as entradas em branco se referem a atributos em que o valor simplesmente não é conhecido. Entradas desconhecidas, no entanto, indicam que nenhuma informação sobre esse atributo está disponível no próprio banco de dados. Como exemplo, no banco de dados climático de Júpiter, nenhuma informação sobre a origem dos alto -falantes é fornecida. Portanto, esses dados seriam menos úteis para verificar a detecção de sotaque ou problemas semelhantes.

Sempre que possível, o nome é um nome padrão do corpus, para algumas das corpora menores, no entanto, não havia nome estabelecido e, portanto, um identificador teve que ser criado. Nesses casos, é usada uma combinação da instituição e o coletor do banco de dados.

No caso em que os bancos de dados contêm discursos nativos e não nativos, apenas atributos da parte não nativa do corpus estão listados. A maioria dos corpora são coleções de discurso de leitura. Se o corpus consistir parcial ou completamente de enunciados espontâneos, isso é mencionado na coluna de especiais.