Reconhecimento

Parâmetros relacionados ao reconhecimento de fala.

Aviso

Para configuração feita no arquivo /opt/cpqd/asr/config/engine/engine.conf, não deve haver espaço em torno no símbolo de igual «=».

hints.words

Descrição: Adiciona novas palavras ao Modelo de Língua ou aumenta a probabilidade de aparecimento de palavras já existentes.

Valores: Lista de palavras com ou sem atributos de boost ou pronúncia. Default: vazio.

Formato:

<palavra>:<boost> [<pronúncia>], <palavra>:<boost> [<pronúncia>], ...

Onde, <boost> e <pronúncia> são opcionais.

Importante:

  • A pronúncia deve sempre estar entre colchetes [ ], e não deve haver espaço entre os colchetes e a pronúncia escrita dentro deles.

  • Cada palavra, com seus atributos, deve estar separada por vírgula ,.

  • A cada palavra só pode ser atribuída uma pronúncia. Caso deseje mais de uma pronúncia por palavra, é necessário repetir a palavra.

  • A palavra só pode conter letras e traço

Local: /opt/cpqd/asr/config/engine/engine.conf, API

Exemplo:

--hints.words=mexirica:1.8 [mixirica], siciliano:2, castanha-do-pará

textify.enabled

Descrição: Habilita a formatação automática de números, datas, horários, etc.

Valores: “true” ou “false”. Valor padrão: “false”.

Local: /opt/cpqd/asr/config/engine/engine.conf, API

Exemplo:

--textify.enabled=true

am.models

Descrição: Indica que modelos acústicos devem ser carregados pelo motor ASR na sua inicialização. Atualmente, apenas um modelo pode ser indicado. O valor passado aqui deve ser um dos diretórios contidos no diretório /opt/cpqd/asr/lang.

Valores: Texto. Valor padrão: default.

Local: /opt/cpqd/asr/config/engine/engine.conf

Exemplo:

--am.models=default

lm.preloadModels

Descrição: Indica que modelos da língua devem ser pré-carregados pelo motor ASR na sua inicialização. Os modelos carregados aqui nunca serão descarregados da memória e podem ser atualizados apenas com a reinicialização do ASR. Normalmente é usado para carregar o modelo de fala livre ou alguma gramática muito grande.

Valores: O valor deve ser a lista de modelos separados por vírgula.

Local: /opt/cpqd/asr/config/engine/engine.conf

Exemplo:

--lm.preloadModels=builtin:slm/general

lm.timeToLive

Descrição: Tempo máximo depois do qual um modelo da língua será descarregado da memória. Trata-se do tempo de vida do modelo em memória.

Valores: Valor inteiro em minutos. Valor padrão: 60

Local: /opt/cpqd/asr/config/engine/engine.conf

Exemplo:

--lm.timeToLive=60

lm.timeToIdle

Descrição: Tempo depois do qual um modelo da língua será descarregado da memória se não for usado para reconhecimento, ou seja, tempo máximo ocioso.

Valores: Valor inteiro em minutos. Valor padrão: 10

Local: /opt/cpqd/asr/config/engine/engine.conf

Exemplo:

--lm.timeToIdle=10

decoder.partialResultEnabled

Descrição: Indica se resultados parciais estão habilitados. Um resultado parcial é o texto reconhecido quando o áudio ainda não foi recebido completamente.

Valores: “true” ou “false”. Valor padrão: “false”.

Local: /opt/cpqd/asr/config/engine/engine.conf

Exemplo:

--decoder.partialResultEnabled=false

decoder.partialResultInterval

Descrição: Indica o intervalo de tempo para gerar um resultado parcial.

Valores: Valor inteiro em milissegundos. Valor padrão: 1000

Local: /opt/cpqd/asr/config/engine/engine.conf

Exemplo:

--decoder.partialResultInterval=1000

noInputTimeout.enabled

Descrição: Habilita o temporizador noInputTimeout para todos os reconhecimentos.

Valores: “true” ou “false”. Valor padrão: “true”.

Local: /opt/cpqd/asr/config/engine/engine.conf, API

Exemplo:

--noInputTimeout.enabled=true

noInputTimeout.value

Descrição: Tempo máximo de espera pelo início da fala. Depois desse tempo, o sistema finaliza o reconhecimento e retorna NO_INPUT_TIMEOUT.

Valores: Valor em milissegundos. Valor padrão: 10000.

Local: /opt/cpqd/asr/config/engine/engine.conf, API

Exemplo:

--noInputTimeout.value=10000

recognitionTimeout.enabled

Descrição: Habilita o temporizador recognitionTimeout para todos os reconhecimentos.

Valores: “true” ou “false”. Valor padrão: “true”.

Local: /opt/cpqd/asr/config/engine/engine.conf, API

Exemplo:

--recognitionTimeout.enabled=true

recognitionTimeout.value

Descrição: Tempo máximo de espera pelo resultado do reconhecimento. Se o reconhecimento não finalizar até o tempo definido, o sistema finaliza o reconhecimento e retorna RECOGNITION_TIMEOUT.

Valores: Valor inteiro em milissegundos. Valor padrão: 30000

Local: /opt/cpqd/asr/config/engine/engine.conf, API

Exemplo:

--recognitionTimeout.value=30000

decoder.confidenceThreshold

Descrição: Valor mínimo de confiança do reconhecimento, para que ele seja considerado válido, caso contrário, retorna NO_MATCH.

Valores: Número inteiro de 0 a 100. Valor padrão: 30.

Local: /opt/cpqd/asr/config/engine/engine.conf, API

Exemplo:

--decoder.confidenceThreshold=30

decoder.startInputTimers

Descrição: Inicia automaticamente os temporizadores habilitados (noInputTimeout e recognitionTimeout) juntamente com o início do reconhecimento. Se desativado, os temporizadores habilitados serão iniciados de forma manual, no recebimento da mensagem START INPUT TIMERS.

Valores: “true” ou “false”. Valor padrão: “true”.

Local: /opt/cpqd/asr/config/engine/engine.conf, API

Exemplo:

--decoder.startInputTimers=true

decoder.maxSentences

Descrição: Número máximo de resultados prováveis gerados pelo reconhecimento (sentenças alternativas).

Valores: Número inteiro maior que zero. Valor padrão: 1.

Local: /opt/cpqd/asr/config/engine/engine.conf, API

Exemplo:

--decoder.maxSentences=1

decoder.continuousMode

Descrição: Habilita o reconhecimento em modo contínuo.

Valores: “true” ou “false”. Valor padrão “false”.

Local: /opt/cpqd/asr/config/engine/engine.conf, API

Exemplo:

--decoder.continuousMode=true

decoder.wordDetails

Descrição: Controla a exibição dos detalhes por palavra.

Valores: Inteiro (0, 1, 2). Valor padrão “1”.

  1. nenhum detalhe,

  2. somente o primeiro resultado do n-best,

  3. todos os resultados do n-best.

Local: /opt/cpqd/asr/config/engine/engine.conf, API

Exemplo:

--decoder.wordDetails=1

loggingTag

Descrição: Identificação fornecida pela aplicação cliente que é registrada nos logs do ASR com o objetivo de rastrear determinada interação com o usuário. Logging-Tag é definida pela aplicação cliente e enviada ao ASR pelas APIs.

Valor: Identificador que o usuário deseja que seja registrado nos logs.

Local: API

Exemplo:

--loggingTag=CompanhiaTelecom

Infer-age-enabled

Descrição: Habilita a classificação da idade do locutor do áudio fornecido.

Valores: “true” ou “false”. Valor padrão: “false”.

Local: API

Exemplo:

--Infer-age-enabled=true

Infer-gender-enabled

Descrição: Habilita a classificação do gênero do locutor do áudio fornecido.

Valores: “true” ou “false”. Valor padrão: “false”.

Local: API

Exemplo:

--Infer-gender-enabled=true

Infer-emotion-enabled

Descrição: Habilita a classificação do tom emocional do locutor do áudio fornecido.

Valores: “true” ou “false”. Valor padrão: “false”.

Local: API

Exemplo:

--Infer-emotion-enabled=true