/v1/enroll

POST /v1/enroll

Cria ou atualiza um voiceprint biométrico através do upload de arquivo(s) de áudio.

Requisição

A requisição deve estar formatada como multipart/form-data. O primeiro campo, denominado enroll deve ser um objeto JSON e conter os seguintes campos:

Campo

Tipo

Descrição

repository_uri

string

URL do repositório biométrico

id

string

identificador do voiceprint

metainfo

object

Objeto contendo os pares chave-valor a serem associados ao usuário. Este campo é opcional. Se o usuário já existir, as chaves que antes não existiam serão criadas e as chaves que já existiam serão atualizadas. Para apagar uma chave, a mesma deve estar presente com um valor nulo.

min_enrollment_audio

integer

Duração mínima do tempo de fala no áudio para cadastro (em ms). Valor padrão = 1000 (opcional, valor mínimo). Não será possível cadastrar voiceprint com audio com duração mínima do tempo de fala inferior ao padrão.

max_enrollment_audio

integer

Duração máxima do tempo de fala no áudio para cadastro (em ms). Valor padrão = 30000 (opcional). A duração máxima do tempo de fala permitida no cadastro é de 120000 (ms).

logging_tag

string

campo livre inserido no log e histórico para permitir o rastreio da requisição (opcional)

infer_emotion_enable

boolean

(opcional) Indica se deve ser executada a classificação de emoção. Valor padrão = false

infer_gender_enable

boolean

(opcional) Indica se deve ser executada a classificação de gênero. Valor padrão = false

infer_age_enable

boolean

(opcional) Indica se deve ser executada a classificação de idade. Valor padrão = false

A seguir devem ser especificados um ou mais campos, nomeados pelo prefixo audio. Esses campos devem conter os áudios a serem utilizados no cadastro.

Resposta

A resposta é um objeto com os seguintes campos:

  • transaction_id [string] - Identificador da transação, útil para rastreio em log e histórico

  • voiceprint [object] - Resultado da criação do voiceprint

    • id [string] - identificador do voiceprint

    • adapted [boolean] - indica se o cadastro foi atualizado (true) ou criado (false)

  • audio_info [array] - Vetor de objetos com informações sobre os áudios utilizados.

    • audio_duration [integer] - duração do áudio (ms)

    • speech_duration [integer] - duração da fala (ms)

    • gender_scores [object] - resultado da classificação de gênero (opcional)

    • age_scores [object] - resultado da classificação de idade (opcional)

    • emotion_scores [object] - resultado da classificação de emoção (opcional)

Exemplo:

Chamada REST enviando o audio via multipart:

curl --request POST \
     --url https://<speech_server>/speakverify/rest/v1/enroll \
     --user '<user>:<passwd>' \
     --header 'Content-Type: multipart/form-data; boundary=---011000010111000001101001' \
     --form repository_uri=https://<repository> \
     --form id='<voiceprint_id>' \
     --form 'metainfo={"<somedata>": "<a_value>"}' \
     --form audio=@<path-to-file>/audio1.wav \
     --form audio=@<path-to-file>/audio2.wav

Exemplo de resposta:

{
  "transaction_id": "bmt-enroll-e157229b-a2ab-45a1-b85e-5c67646e31d2",
  "voiceprint": {
     "id": "<voiceprint_id>",
     "adapted": false
  },
  "audio_info": [
    {
      "audio_duration": 7915,
      "speech_duration": 2280
    },
    {
      "audio_duration": 3748,
      "speech_duration": 1460
    }
  ]
}