Áudio de entrada¶
Captura do áudio¶
Para obter melhores resultados, garanta a melhor qualidade possível na captura da fala. Adote as seguintes práticas:
- Fale próximo do microfone, especialmente se houver muito ruído de fundo.
- Use microfones direcionais.
- Os microfones devem ter resposta plana na faixa de frequência entre 100 Hz e 8000 Hz.
- Ajuste as configurações da gravação para garantir que o sinal capturado não esteja nem saturado nem muito baixo. Tente manter o nível RMS do sinal entre 1/3 e 2/3 da escala.
- Evite gravar com pessoas conversando ao seu lado.
Codificação do áudio¶
O CPqD ASR aceita áudio codificado em PCM-linear com 16-bits por amostra (LINEAR16). Usar algum tipo de codificação com perdas (ex.: mp3, m4a, Opus, Speex) pode reduzir a acurácia do sistema.
Upsampling¶
Aumentar a taxa de amostragem de 8 kHz para 16 kHz não resulta em aumento de acurácia. Se a gravação original foi feita em 8 kHz, não faça upsampling e use pacotes do idioma para 8 kHz.