Termos e Definições

A seguir alguns termos e definições relacionados ao ASR e à reconhecimento automático de fala em geral.

ASR

Reconhecimento automático de fala (Automatic Speech Recognition) é a tecnologia que permite a uma máquina transformar em texto aquilo que uma pessoa está falando.

AM

Modelo acústico (Acoustic Model) representa os sons que formam as palavras do idioma, sendo gerado a partir de grande quantidade de áudio com fala e sua transcrição.

LM

Modelo da língua (Language Model) define como as palavras podem ser combinadas para formar as frases do idioma. Pode ser uma gramática ou um modelo para fala livre.

Segmento de fala

Chamamos de “segmento de fala” o trecho do áudio onde está o sinal de fala, com uma pequena margem de silêncio de cada lado, cerca de 200ms no ínicio e 400ms no final do segmento. Um áudio completo pode ter 10s de duração, mas apenas 2s de fala (segmento de fala).

RTF

RTF (real time factor) é a razão entre o tempo de reconhecimento e o tempo do segmento de fala.

RTF igual ou menor que 1 significa que o sistema consegue realizar o reconhecimento em “tempo real” (desconsiderando o tempo de recebimento do áudio pela rede e qualquer processamento além do próprio reconhecimento). Valores de RTF maiores que 1, indicam que o resultado do reconhecimento será produzido apenas certo tempo depois do áudio ser entregue.

Por exemplo, RTF=0,5 significa que um segmento de fala de 3s levaria 1,5s para ser reconhecido. Neste caso, se o áudio for recebido pelo sistema ASR a medida que for coletado (do microfone, por exemplo), é possível entregar o resultado do reconhecimento assim que a coleta do áudio finalizar. Um RTF=1,5 significa que o segmento de fala de 3s levaria 4,5s para ser reconhecido. Neste caso, esperaríamos 1,5s após o recebimento completo do segmento de fala, para termos o resultado.

WER

WER (word error rate) é a taxa de erro de palavra medida como WER = (I + D + S)/N, onde:

  • I = erros de inserção

  • D = erros de deleção

  • S = erros de substituição

  • N = número total de palavras na frase de referência