Motor de reconhecimento de fala¶
O motor de reconhecimento de fala é o componente que recebe o sinal de áudio, identifica a fala, trata o ruído de fundo e gera a transcrição do que foi dito. Essas funções estão divididas entre os blocos de front-end e back-end, que estão mostrados na figura abaixo.
O papel de cada um dos blocos que compõem o motor de reconhecimento do CPqD ASR está explicado nas próximas seções.
Tuning log¶
O módulo tuning log é responsável por registrar o áudio e as informações geradas no reconhecimento. Esses dados são usados para tentar melhorar o desempenho do CPqD ASR. Ele é usado duas vezes no front-end com o objetivo de:
- identificar possíveis problemas no áudio entregue;
- detectar se algum processamento feito no front-end corrompeu o sinal de fala.
Detector de fala¶
O detector de fala é responsável por delimitar o início e o final da fala no sinal de áudio. Esse bloco evita que silêncio seja entregue desnecessariamente para o decodificador, diminuindo perdas de processamento.
Decodificador¶
O decodificador é a parte central do sistema, que implementa os algoritmos de reconhecimento automático de fala. Esse módulo recebe o sinal de fala e gera a sua transcrição.