Detecção de fala

Para configurar a detecção de fala (endpointer), altere o arquivo /opt/cpqd/asr/config/engine/engine.conf.

endpointer.enabled

Descrição: Habilita o detector de fala (endpointer). Se o endpointer estiver habilitado, apenas o trecho contendo fala será processado e o silêncio ao redor será ignorado. Caso contrário, todo o áudio recebido será processado, o que pode aumentar o tempo de reconhecimento. Adicionalmente, somente com o endpointer habilitado, os eventos de início e final de fala serão gerados.

Valores: «true» ou «false». Valor padrão: «true».

Exemplo:

--endpointer.enabled=true

endpointer.headMargin

Descrição: Trecho de silêncio mantido no início do segmento de fala.

Valores: Número inteiro em milissegundos. Valor padrão: 200.

Exemplo:

--endpointer.headMargin=200

endpointer.tailMargin

Descrição: Trecho de silêncio mantido no final do segmento de fala.

Valores: Número inteiro em milissegundos. Valor padrão: 400.

Exemplo:

--endpointer.tailMargin=400

endpointer.waitEnd

Descrição: Duração de silêncio necessária para a detecção de fim de fala.

Valores: Número inteiro em milissegundos. Valor padrão: 1000.

Exemplo:

--endpointer.waitEnd=1000

endpointer.levelMode

Descrição: Forma de cálculo do limiar de amplitude que será interpretado como silêncio.

Valores: Número (0, 1 ou 2). Valor padrão: 2

  1. Desligado. Ignora a amplitude.
  2. Automático. Usa a amplitude média do início do áudio, com duração «endpointer.autoLevelLen», somado ao valor percentual fixo definido por «endpointer.levelThreshold».
  3. Fixo. Limiar percentual definido por «endpointer.levelThreshold».

Exemplo:

--endpointer.levelMode=2

endpointer.levelThreshold

Descrição: Limiar percentual de amplitude do sinal que será compreendido como silêncio. Utilizado apenas quando levelMode = 2 ou levelMode = 1. Por exemplo, com levelMode=2 e levelThreshold=10, teremos fala detectada apenas quando o sinal estiver acima de 10% da amplitude máxima. Se levelMode=1, o nível médio de amplitude do trecho inicial de áudio será somado aos 10% da amplitude.

Valores: Número inteiro entre 0 e 100. Valor padrão: 5.

Exemplo:

--endpointer.levelThreshold=5

endpointer.autoLevelLen

Descrição: Duração do trecho inicial do áudio usado para o cálculo do limiar de silêncio. Utilizado se levelMode = 1.

Valores: Número inteiro em milissegundos. Valor padrão: 300.

Exemplo:

--endpointer.autoLevelLen=300