Áudio de entrada¶
O áudio a ser reconhecido chega ao servidor CPqD ASR de formas diferentes dependendo da forma de integração usada.
Usando as APIs WebSocket e REST, o áudio é normalmente capturado diretamente pela aplicação (o desenvolvedor muitas vezes implementa esta parte), e enviado ao servidor ASR na chamada da própria API ASR usada.
Quando a aplicação usa a interface MRCP, o áudio do canal telefônico é direcionado ao servidor ASR pelo protocolo de streaming do próprio MRCP. Muitas vezes o desenvolvedor nem tem acesso direto a essa parte do código. Tanto o envio do áudio, quanto o controle do reconhecimento já estão implementados na plataforma de URA usada pelo desenvolvedor.
Qualidade¶
Para obter melhores resultados, garanta a melhor qualidade possível na captura da fala. Adote as seguintes práticas:
- Fale próximo do microfone, especialmente se houver muito ruído de fundo.
- Use microfones direcionais.
- Os microfones devem ter resposta plana na faixa de frequência entre 100 Hz e 8000 Hz.
- Ajuste as configurações da gravação para garantir que o sinal capturado não esteja nem saturado nem muito baixo. Tente manter o nível RMS do sinal entre 1/3 e 2/3 da escala.
- Evite gravar com pessoas conversando ao seu lado.
Codificação¶
O CPqD ASR aceita áudio codificado em PCM-linear com 16-bits por amostra (LINEAR16). Usar algum tipo de codificação com perdas (ex.: mp3, m4a, Opus, Speex) pode reduzir a acurácia do sistema.
Taxa de amostragem¶
O CPqD ASR aceita áudio com taxa de amostragem de 8 kHz (normalmente aplicações de telefonia) e também 16 kHz.
Em geral, um áudio com taxa de amostragem maior tem mais chance de apresentar melhor acurácia no reconhecimento de fala. Na prática, a acurácia depende do áudio e do modelo usados.
Cuidado: aumentar a taxa de amostragem (upsampling) de 8 kHz para 16 kHz não resulta em aumento de acurácia, pelo contrário. Se a gravação original foi feita em 8 kHz, não faça upsampling, use modelo acústico para 8 kHz.