Motor de reconhecimento de fala¶

O motor de reconhecimento de fala é o componente que recebe o sinal de áudio, identifica a fala, trata o ruído de fundo e gera a transcrição do que foi dito. Essas funções estão divididas entre os blocos de front-end e back-end, que estão mostrados na figura abaixo.

Motor de reconhecimento do CPqD ASR.

O papel de cada um dos blocos que compõem o motor de reconhecimento do CPqD ASR está explicado nas próximas seções.

Tuning log¶

O módulo tuning log é responsável por registrar o áudio e as informações geradas no reconhecimento. Esses dados são usados para tentar melhorar o desempenho do CPqD ASR. Ele é usado duas vezes no front-end com o objetivo de:

identificar possíveis problemas no áudio entregue;
detectar se algum processamento feito no front-end corrompeu o sinal de fala.

Detector de fala¶

O detector de fala é responsável por delimitar o início e o final da fala no sinal de áudio. Esse bloco evita que silêncio seja entregue desnecessariamente para o decodificador, diminuindo perdas de processamento.

Decodificador¶

O decodificador é a parte central do sistema, que implementa os algoritmos de reconhecimento automático de fala. Esse módulo recebe o sinal de fala e gera a sua transcrição.