Detecção de fala¶
Para configurar a detecção de fala (endpointer), altere o arquivo
/opt/cpqd/asr/config/engine/engine.conf
.
endpointer.enabled¶
Descrição: Habilita o detector de fala (endpointer). Se o endpointer estiver habilitado, apenas o trecho contendo fala será processado e o silêncio ao redor será ignorado. Caso contrário, todo o áudio recebido será processado, o que pode aumentar o tempo de reconhecimento. Adicionalmente, somente com o endpointer habilitado, os eventos de início e final de fala serão gerados.
Valores: «true» ou «false». Valor padrão: «true».
Exemplo:
--endpointer.enabled=true
endpointer.headMargin¶
Descrição: Trecho de silêncio mantido no início do segmento de fala.
Valores: Número inteiro em milissegundos. Valor padrão: 200.
Exemplo:
--endpointer.headMargin=200
endpointer.tailMargin¶
Descrição: Trecho de silêncio mantido no final do segmento de fala.
Valores: Número inteiro em milissegundos. Valor padrão: 400.
Exemplo:
--endpointer.tailMargin=400
endpointer.waitEnd¶
Descrição: Duração de silêncio necessária para a detecção de fim de fala.
Valores: Número inteiro em milissegundos. Valor padrão: 1000.
Exemplo:
--endpointer.waitEnd=1000
endpointer.levelMode¶
Descrição: Forma de cálculo do limiar de amplitude que será interpretado como silêncio.
Valores: Número (0, 1 ou 2). Valor padrão: 2
- Desligado. Ignora a amplitude.
- Automático. Usa a amplitude média do início do áudio, com duração «endpointer.autoLevelLen», somado ao valor percentual fixo definido por «endpointer.levelThreshold».
- Fixo. Limiar percentual definido por «endpointer.levelThreshold».
Exemplo:
--endpointer.levelMode=2
endpointer.levelThreshold¶
Descrição: Limiar percentual de amplitude do sinal que será compreendido como silêncio. Utilizado apenas quando levelMode = 2 ou levelMode = 1. Por exemplo, com levelMode=2 e levelThreshold=10, teremos fala detectada apenas quando o sinal estiver acima de 10% da amplitude máxima. Se levelMode=1, o nível médio de amplitude do trecho inicial de áudio será somado aos 10% da amplitude.
Valores: Número inteiro entre 0 e 100. Valor padrão: 5.
Exemplo:
--endpointer.levelThreshold=5
endpointer.autoLevelLen¶
Descrição: Duração do trecho inicial do áudio usado para o cálculo do limiar de silêncio. Utilizado se levelMode = 1.
Valores: Número inteiro em milissegundos. Valor padrão: 300.
Exemplo:
--endpointer.autoLevelLen=300