Parâmetros

Geral

sample_rate_hertz

Descrição: Taxa de amostragem do áudio em hertz. Se o áudio não estiver com a taxa informada, será feito o resampling do áudio. Deve ser utilizado em conjunto com o parâmetro recognition.lm. Deve ser escolhido um modelo de reconhecimento de fala compatível com a taxa de amostragem.

Valores: Número (int) 8000 ou 16000. Valor padrão: 8000

Exemplos:

sample_rate_hertz=16000
{
  "sample_rate_hertz": 16000
}

Diarização

A partir da versão 3.11 do TRD, estará disponível a Diarização de Locutor versão 2.

Por compatibilidade a versão 1 continua sendo a padrão. Para habilitar a versão 2, utilizar o seguinte parâmetro:

diarization.version = «v2»

As configurações de cada versão estão disponíveis nos links abaixo:

Detecção de tons DTMF

diarization.vad.dual_tone.enabled

Descrição: Habilita o detector de tons (DTMF). Os tons detectados serão considerados silêncio e removidos da transcrição.

Valores: True ou False. Valor padrão: False

Exemplos:

diarization.vad.dual_tone.enabled=True
{
  "diarization": {
    "vad": {
      "dual_tone": {
        "enabled": true
      }
    }
  }
}

Quando habilitado, os tons detectados serão identificados na resposta da transcrição como exemplo abaixo:

{
    "job": {
      "id": "62fce6c34c147c85fe7b7213",
      "status": "COMPLETED",
      "media": {
        "output": {
          "channels": [
            {
              "channel": 1,
              "dtmf": [
                {
                  "start": 0,
                  "end": 0.19125,
                  "row_freq": 697,
                  "col_freq": 1209,
                  "value": "1"
                },
                {
                  "start": 0.306,
                  "end": 0.51,
                  "row_freq": 697,
                  "col_freq": 1336,
                  "value": "2"
                },
                {
                  "start": 0.62475,
                  "end": 0.82875,
                  "row_freq": 697,
                  "col_freq": 1477,
                  "value": "3"
                },
                {
                  "start": 0.9435,
                  "end": 1.1475,
                  "row_freq": 770,
                  "col_freq": 1209,
                  "value": "4"
                },
                {
                  "start": 1.26225,
                  "end": 1.46625,
                  "row_freq": 770,
                  "col_freq": 1336,
                  "value": "5"
                },
                {
                  "start": 1.581,
                  "end": 1.785,
                  "row_freq": 770,
                  "col_freq": 1477,
                  "value": "6"
                },
                {
                  "start": 1.89975,
                  "end": 2.10375,
                  "row_freq": 852,
                  "col_freq": 1209,
                  "value": "7"
                },
                {
                  "start": 2.2185,
                  "end": 2.4225,
                  "row_freq": 852,
                  "col_freq": 1336,
                  "value": "8"
                },
                {
                  "start": 2.53725,
                  "end": 2.74125,
                  "row_freq": 852,
                  "col_freq": 1477,
                  "value": "9"
                }
              ]
            }
          ]
        }
      }
    }
}
Campos DTMF:
  • start (float): Índice de início em segundos.

  • end (float): Índice de fim em segundos.

  • row_freq (int): Frequência da linha do tom DTMF.

  • col_freq (int): Frequência da coluna do tom DTMF.

  • value (string) (opcional): Identificação do DTMF.

diarization.vad.dual_tone.min_duration

Descrição: Duração minima para considerar um tom DTMF válido.

Valores: Número (float). Valor padrão 0.012 (12 milisegundos).

diarization.vad.dual_tone.factor_energy

Descrição: Fator de energia.

Valores: Número (float). Valor padrão 0.5

diarization.vad.dual_tone.twist_energy

Descrição: Energia.

Valores: Número (float). Valor padrão 0.251 (-6dB)

diarization.vad.dual_tone.reverse_twist_energy

Descrição: Energia reversa.

Valores: Número (float). Valor padrão 0.158 (-8dB)

diarization.vad.dual_tone.digits_size

Descrição: Quantidade de tons DTMF reconhecidos em sequência para ativar um tom válido.

Valores: Número (int). Valor padrão 4.

Reconhecimento de Fala

recognition.lm

Descrição: Configura o Modelo de língua a ser utilizado no reconhecimento.

Valores: Texto/URI. Valor padrão: builtin:slm/callcenter-small.

Nota

Para ver mais modelos disponíveis veja em Modelos.

Exemplos:

recognition.lm=builtin:slm/callcenter-small
{
  "recognition": {
    "lm": "builtin:slm/callcenter-small"
  }
}

recognition.textify.enabled

Descrição: Habilita a formatação automática de números, datas, horários, etc.

Valores: True ou False. Valor padrão: False

Exemplos:

recognition.textify.enabled=True
{
  "recognition": {
    "textify": {
      "enabled": true
    }
  }
}

recognition.hints.words or recognition.hints_words

Descrição: Adiciona novas palavras ao Modelo de Língua ou aumenta a probabilidade de aparecimento de palavras já existentes.

Valores: Lista de palavras com ou sem atributos de boost ou pronúncia. Cada atributo deve estar separada por ponto e vírgula (;). Default: vazio.

Formato:

<palavra>:<boost> [<pronúncia>]; <palavra>:<boost> [<pronúncia>]; ...

Aviso

  • A pronúncia deve sempre estar entre colchetes [ ], e não deve haver espaço entre os colchetes e a pronúncia escrita dentro deles.

  • Cada palavra, com seus atributos, deve estar separada por ponto e vírgula (;).

  • A cada palavra só pode ser atribuída uma pronúncia. Caso deseje mais de uma pronúncia por palavra, é necessário repetir a palavra.

  • A palavra só pode conter letras e traço

Exemplos:

recognition.hints.words=mexirica:1.8 [mixirica];siciliano:2;castanha-do-pará
{
  "recognition": {
    "hints.words": [
      "mexirica:1.8 [mixirica]", "siciliano:2", "castanha-do-pará"
    ]
  }
}

recognition.decoder.maxSentences

Descrição: Número máximo de resultados prováveis gerados pelo reconhecimento (sentenças alternativas).

Valores: Número inteiro maior que zero. Valor padrão: 1.

Exemplos:

recognition.decoder.maxSentences=10
{
  "recognition": {
    "decoder": {
      "maxSentences": 10
    }
  }
}

recognition.decoder.wordDetails

Descrição: Controla a exibição dos detalhes por palavra.

Valores: Inteiro (0, 1, 2). Valor padrão “1”.

  1. Nenhum detalhe,

  2. Somente o primeiro resultado do n-best,

  3. Todos os resultados do n-best.

Exemplo:

recognition.decoder.wordDetails=2
{
  "recognition": {
    "decoder": {
      "wordDetails": 2
    }
  }
}

recognition.decoder.confidenceThreshold

Descrição: Valor mínimo de confiança do reconhecimento, para que ele seja considerado válido, caso contrário, retorna NO_MATCH.

Valores: Número inteiro de 0 a 100. Valor padrão: 10.

Exemplos:

recognition.decoder.confidenceThreshold=30
{
  "recognition": {
    "decoder": {
      "confidenceThreshold": 30
    }
  }
}

recognition.tasks

Aviso

Os Classificadores estão em fase experimental. O desempenho e formato dos resultados podem sofrer modificações.

Descrição: Habilita os classificadores de fala.

Valores: Lista de texto com o nome do classificador, separado por ponto e vírgula(;). Valor padrão: vazio

  • emotion: Habilita classificador de emoção.

  • age: Habilita classificador de idade.

Exemplos:

recognition.tasks=emotion;age;gender
{
  "recognition": {
    "tasks": [
      "emotion", "age", "gender"
    ]
  }
}

Resultado: Para cada classificador é adiciona uma chave dentro de «task_results» de cada segmento no resultado da transcrição. Resultado Agregado: Adicionado um novo campo aggregate_results na estrutura principal do resultado da transcrição. Os classificadores são agregados por canal e locutor.

Restauração de pontuação e Maiúsculas

Este serviço realiza:

  • Substituição de letras minúsculas para maiúsculas em início de frases e nomes próprios e siglas;

  • Inclusão de pontuação (ponto final, vírgula, exclamação e interrogação) conforme regras de pontuação do idioma português, nas sentenças fornecidas para o idioma português e espanhol;

Para a utilização deste serviço de restauração de pontuação é necessário a configuração através dos parâmetros:

recasepunc.enabled

Descrição: Habilita a restauração de pontuação automática e letras Maiúsculas.

Valores: True ou False. Valor padrão: False

Exemplos:

recasepunc.enabled=True
{
  "recasepunc": {
    "enabled": true
  }
}

recasepunc.use_exclamation

Descrição: Habilita a restauração da pontuação de exclamação.

Valores: True ou False. Valor padrão: False

Exemplos:

recasepunc.use_exclamation=True
{
  "recasepunc": {
    "use_exclamation": true
  }
}

Webhook

callback_urls

Descrição: Configuração da callback do webhook.

Valores: Lista de URL. Valor padrão: vazio

Aviso

Deve ser utilizado https seguro.

Exemplo:

callback_urls=https://172.19.0.9:8443/callback1