Termos e Definições¶

A seguir alguns termos e definições relacionados ao CPqD ASR e à reconhecimento automático de fala em geral.

ASR

Automatic Speech Recognition ou Reconhecimento automático de fala.

Segmento de fala

Chamamos de “segmento de fala” o trecho do áudio onde está o sinal de fala, com uma pequena margem de silêncio de cada lado, cerca de 200ms no ínicio e 400ms no final do segmento. Um áudio completo pode ter 10s de duração, mas apenas 2s de fala (segmento de fala).

RTF

RTF (real time factor) é a razão entre o tempo de reconhecimento e o tempo do segmento de fala.

RTF igual ou menor que 1 significa que o sistema consegue realizar o reconhecimento em “tempo real” (desconsiderando o tempo de recebimento do áudio pela rede e qualquer processamento além do próprio reconhecimento). Valores de RTF maiores que 1, indicam que o resultado do reconhecimento será produzido apenas certo tempo depois do áudio ser entregue.

Por exemplo, RTF=0,5 significa que um segmento de fala de 3s levaria 1,5s para ser reconhecido. Neste caso, se o áudio for recebido pelo sistema ASR a medida que for coletado (do microfone, por exemplo), é possível entregar o resultado do reconhecimento assim que a coleta do áudio finalizar. Um RTF=1,5 significa que o segmento de fala de 3s levaria 4,5s para ser reconhecido. Neste caso, esperaríamos 1,5s após o recebimento completo do segmento de fala, para termos o resultado.

WER

WER (word error rate) é a taxa de erro de palavra medida como WER = (I + D + S)/N, onde:

I = erros de inserção
D = erros de deleção
S = erros de substituição
N = número total de palavras na frase de referência