Áudio de entrada¶

O áudio a ser reconhecido chega ao servidor ASR de formas diferentes dependendo da forma de integração usada.

Usando as APIs WebSocket e REST, o áudio é normalmente capturado diretamente pela aplicação (o desenvolvedor muitas vezes implementa esta parte), e enviado ao servidor ASR na chamada da própria API ASR usada.

Quando a aplicação usa a interface MRCP, o áudio do canal telefônico é direcionado ao servidor ASR pelo protocolo de streaming do próprio MRCP. Muitas vezes o desenvolvedor nem tem acesso direto a essa parte do código. Tanto o envio do áudio, quanto o controle do reconhecimento já estão implementados na plataforma de URA usada pelo desenvolvedor.

Qualidade¶

Para obter melhores resultados, garanta a melhor qualidade possível na captura da fala. Adote as seguintes práticas:

Fale próximo do microfone, especialmente se houver muito ruído de fundo.
Use microfones direcionais.
Os microfones devem ter resposta plana na faixa de frequência entre 100 Hz e 8000 Hz.
Ajuste as configurações da gravação para garantir que o sinal capturado não esteja nem saturado nem muito baixo. Tente manter o nível RMS do sinal entre 1/3 e 2/3 da escala.
Evite gravar com pessoas conversando ao seu lado.

Codificação¶

O ASR aceita um canal de áudio codificado em PCM-linear com 16-bits por amostra (LINEAR16). Além dessa codificação, é possível através das API’s REST e WebSocket, enviar áudios, codificados nos formatos MP3, OPUS, VORBIS, PCM aLaw/uLaw, GSM, FLAC e WAV, porém deve-se lembrar que usar algum tipo de codificação com perdas pode reduzir a acurácia do sistema. Para streams de áudio codificados é possível enviar áudio com 2 canais (stereo), o sistema irá fazer o reconhecimento sobre a resultante mono entre os dois canais, ou seja, canal 1 + 2. Como o áudio é processado como um áudio mono, é importante esclarecer que ocorrerá erros quando ocorrerem falas simultâneas nos dois canais.

Taxa de amostragem¶

O ASR aceita áudio com taxa de amostragem de 8 kHz (normalmente aplicações de telefonia) e também 16 kHz.

Em geral, um áudio com taxa de amostragem maior tem mais chance de apresentar melhor acurácia no reconhecimento de fala. Na prática, a acurácia depende do áudio e do modelo usados.

Cuidado: aumentar a taxa de amostragem (upsampling) de 8 kHz para 16 kHz não resulta em aumento de acurácia, pelo contrário. Se a gravação original foi feita em 8 kHz, não faça upsampling, use modelo acústico para 8 kHz.