Detecção de fala

Parâmetros para configurar a detecção do segmento de fala.

endpointer.useToneDetectors

Descrição: Habilita a supressão de tons de telefonia no reconhecimento.

Valores: “true” ou “false”. Valor padrão: “true”.

Local: /opt/cpqd/asr/config/engine/engine.conf, API

Exemplo:

--endpointer.useToneDetectors=true

endpointer.enabled

Descrição: Habilita a detecção do segmento de fala. Se estiver habilitada, apenas o trecho contendo fala será processado e o silêncio ao redor será ignorado. Caso contrário, todo o áudio recebido será processado, o que aumenta o tempo de reconhecimento. Somente habilitada, os eventos de início e final de fala serão gerados.

Valores: “true” ou “false”. Valor padrão: “true”.

Local: /opt/cpqd/asr/config/engine/engine.conf

Exemplo:

--endpointer.enabled=true

endpointer.headMargin

Descrição: Trecho de silêncio mantido no início do segmento de fala.

Valores: Número inteiro em milissegundos. Valor padrão: 200.

Local: /opt/cpqd/asr/config/engine/engine.conf, API

Exemplo:

--endpointer.headMargin=200

endpointer.tailMargin

Descrição: Trecho de silêncio mantido no final do segmento de fala.

Valores: Número inteiro em milissegundos. Valor padrão: 400.

Local: /opt/cpqd/asr/config/engine/engine.conf, API

Exemplo:

--endpointer.tailMargin=400

endpointer.waitEnd

Descrição: Duração de silêncio para assumir fim de fala.

Valores: Número inteiro em milissegundos. Valor padrão: 1000.

Local: /opt/cpqd/asr/config/engine/engine.conf, API

Exemplo:

--endpointer.waitEnd=1000

endpointer.levelMode

Descrição: Cálculo do limiar de amplitude que será interpretado como silêncio.

Valores: Número (0, 1 ou 2). Valor padrão: 2

  1. Desligado. Ignora a amplitude.

  2. Automático. Usa a amplitude média do início do áudio, com duração “endpointer.autoLevelLen”, somado ao valor percentual fixo definido por “endpointer.levelThreshold”.

  3. Fixo. Limiar percentual definido por “endpointer.levelThreshold”.

Local: /opt/cpqd/asr/config/engine/engine.conf, API

Exemplo:

--endpointer.levelMode=2

endpointer.levelThreshold

Descrição: Percentual de amplitude do sinal que será considerado como silêncio. Utilizado apenas quando endpointer.levelMode = 2 ou endpointer.levelMode = 1. Por exemplo, com endpointer.levelMode = 2 e endpointer.levelThreshold=10, teremos fala detectada apenas quando o sinal estiver acima de 10% da amplitude máxima. Se levelMode=1, o nível médio de amplitude do trecho inicial de áudio será somado aos 10% da amplitude.

Valores: Número inteiro entre 0 e 100. Valor padrão: 5.

Local: /opt/cpqd/asr/config/engine/engine.conf, API

Exemplo:

--endpointer.levelThreshold=5

endpointer.autoLevelLen

Descrição: Duração do trecho inicial do áudio usado para o cálculo do limiar de silêncio. Utilizado se levelMode = 1.

Valores: Número inteiro em milissegundos. Valor padrão: 300.

Local: /opt/cpqd/asr/config/engine/engine.conf, API

Exemplo:

--endpointer.autoLevelLen=300