Reconhecimento¶
Parâmetros relacionados ao reconhecimento de fala.
Aviso
Para configuração feita no arquivo /opt/cpqd/asr/config/engine/engine.conf
,
não deve haver espaço em torno no símbolo de igual «=».
hints.words¶
Descrição: Adiciona novas palavras ao Modelo de Língua ou aumenta a probabilidade de aparecimento de palavras já existentes.
Valores: Lista de palavras com ou sem atributos de
boost
oupronúncia
. Default: vazio.Formato:
<palavra>:<boost> [<pronúncia>], <palavra>:<boost> [<pronúncia>], ...Onde,
<boost>
e<pronúncia>
são opcionais.Importante:
A pronúncia deve sempre estar entre colchetes
[ ]
, e não deve haver espaço entre os colchetes e a pronúncia escrita dentro deles.Cada palavra, com seus atributos, deve estar separada por vírgula
,
.A cada palavra só pode ser atribuída uma pronúncia. Caso deseje mais de uma pronúncia por palavra, é necessário repetir a palavra.
A palavra só pode conter letras e traço
Local:
/opt/cpqd/asr/config/engine/engine.conf
, APIExemplo:
--hints.words=mexirica:1.8 [mixirica], siciliano:2, castanha-do-pará
textify.enabled¶
Descrição: Habilita a formatação automática de números, datas, horários, etc.
Valores: “true” ou “false”. Valor padrão: “false”.
Local:
/opt/cpqd/asr/config/engine/engine.conf
, APIExemplo:
--textify.enabled=true
am.models¶
Descrição: Indica que modelos acústicos devem ser carregados pelo motor ASR na sua inicialização. Atualmente, apenas um modelo pode ser indicado. O valor passado aqui deve ser um dos diretórios contidos no diretório
/opt/cpqd/asr/lang
.Valores: Texto. Valor padrão:
default
.Local:
/opt/cpqd/asr/config/engine/engine.conf
Exemplo:
--am.models=default
lm.preloadModels¶
Descrição: Indica que modelos da língua devem ser pré-carregados pelo motor ASR na sua inicialização. Os modelos carregados aqui nunca serão descarregados da memória e podem ser atualizados apenas com a reinicialização do ASR. Normalmente é usado para carregar o modelo de fala livre ou alguma gramática muito grande.
Valores: O valor deve ser a lista de modelos separados por vírgula.
Local:
/opt/cpqd/asr/config/engine/engine.conf
Exemplo:
--lm.preloadModels=builtin:slm/general
lm.timeToLive¶
Descrição: Tempo máximo depois do qual um modelo da língua será descarregado da memória. Trata-se do tempo de vida do modelo em memória.
Valores: Valor inteiro em minutos. Valor padrão: 60
Local:
/opt/cpqd/asr/config/engine/engine.conf
Exemplo:
--lm.timeToLive=60
lm.timeToIdle¶
Descrição: Tempo depois do qual um modelo da língua será descarregado da memória se não for usado para reconhecimento, ou seja, tempo máximo ocioso.
Valores: Valor inteiro em minutos. Valor padrão: 10
Local:
/opt/cpqd/asr/config/engine/engine.conf
Exemplo:
--lm.timeToIdle=10
decoder.partialResultEnabled¶
Descrição: Indica se resultados parciais estão habilitados. Um resultado parcial é o texto reconhecido quando o áudio ainda não foi recebido completamente.
Valores: “true” ou “false”. Valor padrão: “false”.
Local:
/opt/cpqd/asr/config/engine/engine.conf
Exemplo:
--decoder.partialResultEnabled=false
decoder.partialResultInterval¶
Descrição: Indica o intervalo de tempo para gerar um resultado parcial.
Valores: Valor inteiro em milissegundos. Valor padrão: 1000
Local:
/opt/cpqd/asr/config/engine/engine.conf
Exemplo:
--decoder.partialResultInterval=1000
noInputTimeout.enabled¶
Descrição: Habilita o temporizador noInputTimeout para todos os reconhecimentos.
Valores: “true” ou “false”. Valor padrão: “true”.
Local:
/opt/cpqd/asr/config/engine/engine.conf
, APIExemplo:
--noInputTimeout.enabled=true
noInputTimeout.value¶
Descrição: Tempo máximo de espera pelo início da fala. Depois desse tempo, o sistema finaliza o reconhecimento e retorna NO_INPUT_TIMEOUT.
Valores: Valor em milissegundos. Valor padrão: 10000.
Local:
/opt/cpqd/asr/config/engine/engine.conf
, APIExemplo:
--noInputTimeout.value=10000
recognitionTimeout.enabled¶
Descrição: Habilita o temporizador recognitionTimeout para todos os reconhecimentos.
Valores: “true” ou “false”. Valor padrão: “true”.
Local:
/opt/cpqd/asr/config/engine/engine.conf
, APIExemplo:
--recognitionTimeout.enabled=true
recognitionTimeout.value¶
Descrição: Tempo máximo de espera pelo resultado do reconhecimento. Se o reconhecimento não finalizar até o tempo definido, o sistema finaliza o reconhecimento e retorna RECOGNITION_TIMEOUT.
Valores: Valor inteiro em milissegundos. Valor padrão: 30000
Local:
/opt/cpqd/asr/config/engine/engine.conf
, APIExemplo:
--recognitionTimeout.value=30000
decoder.confidenceThreshold¶
Descrição: Valor mínimo de confiança do reconhecimento, para que ele seja considerado válido, caso contrário, retorna NO_MATCH.
Valores: Número inteiro de 0 a 100. Valor padrão: 30.
Local:
/opt/cpqd/asr/config/engine/engine.conf
, APIExemplo:
--decoder.confidenceThreshold=30
decoder.startInputTimers¶
Descrição: Inicia automaticamente os temporizadores habilitados (noInputTimeout e recognitionTimeout) juntamente com o início do reconhecimento. Se desativado, os temporizadores habilitados serão iniciados de forma manual, no recebimento da mensagem START INPUT TIMERS.
Valores: “true” ou “false”. Valor padrão: “true”.
Local:
/opt/cpqd/asr/config/engine/engine.conf
, APIExemplo:
--decoder.startInputTimers=true
decoder.maxSentences¶
Descrição: Número máximo de resultados prováveis gerados pelo reconhecimento (sentenças alternativas).
Valores: Número inteiro maior que zero. Valor padrão: 1.
Local:
/opt/cpqd/asr/config/engine/engine.conf
, APIExemplo:
--decoder.maxSentences=1
decoder.continuousMode¶
Descrição: Habilita o reconhecimento em modo contínuo.
Valores: “true” ou “false”. Valor padrão “false”.
Local:
/opt/cpqd/asr/config/engine/engine.conf
, APIExemplo:
--decoder.continuousMode=true
decoder.wordDetails¶
Descrição: Controla a exibição dos detalhes por palavra.
Valores: Inteiro (0, 1, 2). Valor padrão “1”.
nenhum detalhe,
somente o primeiro resultado do n-best,
todos os resultados do n-best.
Local:
/opt/cpqd/asr/config/engine/engine.conf
, APIExemplo:
--decoder.wordDetails=1
loggingTag¶
Descrição: Identificação fornecida pela aplicação cliente que é registrada nos logs do ASR com o objetivo de rastrear determinada interação com o usuário. Logging-Tag é definida pela aplicação cliente e enviada ao ASR pelas APIs.
Valor: Identificador que o usuário deseja que seja registrado nos logs.
Local: API
Exemplo:
--loggingTag=CompanhiaTelecom
Infer-age-enabled¶
Descrição: Habilita a classificação da idade do locutor do áudio fornecido.
Valores: “true” ou “false”. Valor padrão: “false”.
Local: API
Exemplo:
--Infer-age-enabled=true
Infer-gender-enabled¶
Descrição: Habilita a classificação do gênero do locutor do áudio fornecido.
Valores: “true” ou “false”. Valor padrão: “false”.
Local: API
Exemplo:
--Infer-gender-enabled=true
Infer-emotion-enabled¶
Descrição: Habilita a classificação do tom emocional do locutor do áudio fornecido.
Valores: “true” ou “false”. Valor padrão: “false”.
Local: API
Exemplo:
--Infer-emotion-enabled=true