Parâmetros¶
Geral¶
sample_rate_hertz
Descrição: Taxa de amostragem do áudio em hertz. Se o áudio não estiver com a taxa informada, será feito o resampling do áudio. Deve ser utilizado em conjunto com o parâmetro recognition.lm. Deve ser escolhido um modelo de reconhecimento de fala compatível com a taxa de amostragem.
Valores: Número (int) 8000 ou 16000. Valor padrão: 8000
Exemplos:
sample_rate_hertz=16000{ "sample_rate_hertz": 16000 }
Diarização¶
A partir da versão 3.11 do TRD, estará disponível a Diarização de Locutor versão 2.
Por compatibilidade a versão 1 continua sendo a padrão. Para habilitar a versão 2, utilizar o seguinte parâmetro:
diarization.version = «v2»
As configurações de cada versão estão disponíveis nos links abaixo:
Detecção de tons DTMF¶
diarization.vad.dual_tone.enabled
Descrição: Habilita o detector de tons (DTMF). Os tons detectados serão considerados silêncio e removidos da transcrição.
Valores: True ou False. Valor padrão: False
Exemplos:
diarization.vad.dual_tone.enabled=True
{ "diarization": { "vad": { "dual_tone": { "enabled": true } } } }Quando habilitado, os tons detectados serão identificados na resposta da transcrição como exemplo abaixo:
{ "job": { "id": "62fce6c34c147c85fe7b7213", "status": "COMPLETED", "media": { "output": { "channels": [ { "channel": 1, "dtmf": [ { "start": 0, "end": 0.19125, "row_freq": 697, "col_freq": 1209, "value": "1" }, { "start": 0.306, "end": 0.51, "row_freq": 697, "col_freq": 1336, "value": "2" }, { "start": 0.62475, "end": 0.82875, "row_freq": 697, "col_freq": 1477, "value": "3" }, { "start": 0.9435, "end": 1.1475, "row_freq": 770, "col_freq": 1209, "value": "4" }, { "start": 1.26225, "end": 1.46625, "row_freq": 770, "col_freq": 1336, "value": "5" }, { "start": 1.581, "end": 1.785, "row_freq": 770, "col_freq": 1477, "value": "6" }, { "start": 1.89975, "end": 2.10375, "row_freq": 852, "col_freq": 1209, "value": "7" }, { "start": 2.2185, "end": 2.4225, "row_freq": 852, "col_freq": 1336, "value": "8" }, { "start": 2.53725, "end": 2.74125, "row_freq": 852, "col_freq": 1477, "value": "9" } ] } ] } } } }
- Campos DTMF:
start (float): Índice de início em segundos.
end (float): Índice de fim em segundos.
row_freq (int): Frequência da linha do tom DTMF.
col_freq (int): Frequência da coluna do tom DTMF.
value (string) (opcional): Identificação do DTMF.
diarization.vad.dual_tone.min_duration
Descrição: Duração minima para considerar um tom DTMF válido.
Valores: Número (float). Valor padrão 0.012 (12 milisegundos).
diarization.vad.dual_tone.factor_energy
Descrição: Fator de energia.
Valores: Número (float). Valor padrão 0.5
diarization.vad.dual_tone.twist_energy
Descrição: Energia.
Valores: Número (float). Valor padrão 0.251 (-6dB)
diarization.vad.dual_tone.reverse_twist_energy
Descrição: Energia reversa.
Valores: Número (float). Valor padrão 0.158 (-8dB)
diarization.vad.dual_tone.digits_size
Descrição: Quantidade de tons DTMF reconhecidos em sequência para ativar um tom válido.
Valores: Número (int). Valor padrão 4.
Reconhecimento de Fala¶
recognition.lm
Descrição: Configura o Modelo de língua a ser utilizado no reconhecimento.
Valores: Texto/URI. Valor padrão: builtin:slm/callcenter-small.
Nota
Para ver mais modelos disponíveis veja em Modelos.
Exemplos:
recognition.lm=builtin:slm/callcenter-small
{ "recognition": { "lm": "builtin:slm/callcenter-small" } }
recognition.textify.enabled
Descrição: Habilita a formatação automática de números, datas, horários, etc.
Valores: True ou False. Valor padrão: False
Exemplos:
recognition.textify.enabled=True
{ "recognition": { "textify": { "enabled": true } } }
recognition.hints.words or recognition.hints_words
Descrição: Adiciona novas palavras ao Modelo de Língua ou aumenta a probabilidade de aparecimento de palavras já existentes.
Valores: Lista de palavras com ou sem atributos de boost ou pronúncia. Cada atributo deve estar separada por ponto e vírgula (;). Default: vazio.
Formato:
<palavra>:<boost> [<pronúncia>]; <palavra>:<boost> [<pronúncia>]; ...Aviso
A pronúncia deve sempre estar entre colchetes [ ], e não deve haver espaço entre os colchetes e a pronúncia escrita dentro deles.
Cada palavra, com seus atributos, deve estar separada por ponto e vírgula (;).
A cada palavra só pode ser atribuída uma pronúncia. Caso deseje mais de uma pronúncia por palavra, é necessário repetir a palavra.
A palavra só pode conter letras e traço
Exemplos:
recognition.hints.words=mexirica:1.8 [mixirica];siciliano:2;castanha-do-pará{ "recognition": { "hints.words": [ "mexirica:1.8 [mixirica]", "siciliano:2", "castanha-do-pará" ] } }
recognition.decoder.maxSentences
Descrição: Número máximo de resultados prováveis gerados pelo reconhecimento (sentenças alternativas).
Valores: Número inteiro maior que zero. Valor padrão: 1.
Exemplos:
recognition.decoder.maxSentences=10{ "recognition": { "decoder": { "maxSentences": 10 } } }
recognition.decoder.wordDetails
Descrição: Controla a exibição dos detalhes por palavra.
Valores: Inteiro (0, 1, 2). Valor padrão “1”.
Nenhum detalhe,
Somente o primeiro resultado do n-best,
Todos os resultados do n-best.
Exemplo:
recognition.decoder.wordDetails=2{ "recognition": { "decoder": { "wordDetails": 2 } } }
recognition.decoder.confidenceThreshold
Descrição: Valor mínimo de confiança do reconhecimento, para que ele seja considerado válido, caso contrário, retorna NO_MATCH.
Valores: Número inteiro de 0 a 100. Valor padrão: 10.
Exemplos:
recognition.decoder.confidenceThreshold=30{ "recognition": { "decoder": { "confidenceThreshold": 30 } } }
recognition.tasks
Aviso
Os Classificadores estão em fase experimental. O desempenho e formato dos resultados podem sofrer modificações.
Descrição: Habilita os classificadores de fala.
Valores: Lista de texto com o nome do classificador, separado por ponto e vírgula(;). Valor padrão: vazio
emotion: Habilita classificador de emoção.
age: Habilita classificador de idade.
Exemplos:
recognition.tasks=emotion;age;gender{ "recognition": { "tasks": [ "emotion", "age", "gender" ] } }Resultado: Para cada classificador é adiciona uma chave dentro de «task_results» de cada segmento no resultado da transcrição. Resultado Agregado: Adicionado um novo campo aggregate_results na estrutura principal do resultado da transcrição. Os classificadores são agregados por canal e locutor.
Restauração de pontuação e Maiúsculas¶
Este serviço realiza:
Substituição de letras minúsculas para maiúsculas em início de frases e nomes próprios e siglas;
Inclusão de pontuação (ponto final, vírgula, exclamação e interrogação) conforme regras de pontuação do idioma português, nas sentenças fornecidas para o idioma português e espanhol;
Para a utilização deste serviço de restauração de pontuação é necessário a configuração através dos parâmetros:
recasepunc.enabled
Descrição: Habilita a restauração de pontuação automática e letras Maiúsculas.
Valores: True ou False. Valor padrão: False
Exemplos:
recasepunc.enabled=True
{
"recasepunc": {
"enabled": true
}
}
recasepunc.use_exclamation
Descrição: Habilita a restauração da pontuação de exclamação.
Valores: True ou False. Valor padrão: False
Exemplos:
recasepunc.use_exclamation=True
{
"recasepunc": {
"use_exclamation": true
}
}
Webhook¶
callback_urls
Descrição: Configuração da callback do webhook.
Valores: Lista de URL. Valor padrão: vazio
Aviso
Deve ser utilizado https seguro.
Exemplo:
callback_urls=https://172.19.0.9:8443/callback1