Termos e Definições¶
A seguir alguns termos e definições relacionados ao ASR e à reconhecimento automático de fala em geral.
- ASR¶
Reconhecimento automático de fala (Automatic Speech Recognition) é a tecnologia que permite a uma máquina transformar em texto aquilo que uma pessoa está falando.
- AM¶
Modelo acústico (Acoustic Model) representa os sons que formam as palavras do idioma, sendo gerado a partir de grande quantidade de áudio com fala e sua transcrição.
- LM¶
Modelo da língua (Language Model) define como as palavras podem ser combinadas para formar as frases do idioma. Pode ser uma gramática ou um modelo para fala livre.
- Segmento de fala¶
Chamamos de “segmento de fala” o trecho do áudio onde está o sinal de fala, com uma pequena margem de silêncio de cada lado, cerca de 200ms no ínicio e 400ms no final do segmento. Um áudio completo pode ter 10s de duração, mas apenas 2s de fala (segmento de fala).
- RTF¶
RTF (real time factor) é a razão entre o tempo de reconhecimento e o tempo do segmento de fala.
RTF igual ou menor que 1 significa que o sistema consegue realizar o reconhecimento em “tempo real” (desconsiderando o tempo de recebimento do áudio pela rede e qualquer processamento além do próprio reconhecimento). Valores de RTF maiores que 1, indicam que o resultado do reconhecimento será produzido apenas certo tempo depois do áudio ser entregue.
Por exemplo, RTF=0,5 significa que um segmento de fala de 3s levaria 1,5s para ser reconhecido. Neste caso, se o áudio for recebido pelo sistema ASR a medida que for coletado (do microfone, por exemplo), é possível entregar o resultado do reconhecimento assim que a coleta do áudio finalizar. Um RTF=1,5 significa que o segmento de fala de 3s levaria 4,5s para ser reconhecido. Neste caso, esperaríamos 1,5s após o recebimento completo do segmento de fala, para termos o resultado.
- WER¶
WER (word error rate) é a taxa de erro de palavra medida como
WER = (I + D + S)/N
, onde:I = erros de inserção
D = erros de deleção
S = erros de substituição
N = número total de palavras na frase de referência