Termos e Definições¶
A seguir alguns termos e definições relacionados ao CPqD ASR e à reconhecimento automático de fala em geral.
- ASR
- Automatic Speech Recognition ou Reconhecimento automático de fala.
- Segmento de fala
- Chamamos de “segmento de fala” o trecho do áudio onde está o sinal de fala, com uma pequena margem de silêncio de cada lado, cerca de 200ms no ínicio e 400ms no final do segmento. Um áudio completo pode ter 10s de duração, mas apenas 2s de fala (segmento de fala).
- RTF
RTF (real time factor) é a razão entre o tempo de reconhecimento e o tempo do segmento de fala.
RTF igual ou menor que 1 significa que o sistema consegue realizar o reconhecimento em “tempo real” (desconsiderando o tempo de recebimento do áudio pela rede e qualquer processamento além do próprio reconhecimento). Valores de RTF maiores que 1, indicam que o resultado do reconhecimento será produzido apenas certo tempo depois do áudio ser entregue.
Por exemplo, RTF=0,5 significa que um segmento de fala de 3s levaria 1,5s para ser reconhecido. Neste caso, se o áudio for recebido pelo sistema ASR a medida que for coletado (do microfone, por exemplo), é possível entregar o resultado do reconhecimento assim que a coleta do áudio finalizar. Um RTF=1,5 significa que o segmento de fala de 3s levaria 4,5s para ser reconhecido. Neste caso, esperaríamos 1,5s após o recebimento completo do segmento de fala, para termos o resultado.
- WER
WER (word error rate) é a taxa de erro de palavra medida como
WER = (I + D + S)/N
, onde:- I = erros de inserção
- D = erros de deleção
- S = erros de substituição
- N = número total de palavras na frase de referência