AUDIO_INFO¶

Representa as meta-informações de um áudio armazenado no repositório.

A estrutura possui os seguintes campos:

uuid [string] - Identificador único do áudio. Esse identificador é gerado automaticamente pelo serviço e não pode ser alterado pelo cliente.
session_id [string] - Identificador da sessão na qual o áudio foi capturado.
format [string] - Identificador do formato do áudio. Se omitido, o valor padrão é «pcm/16000/16/1». Os valores válidos são:
- pcm/8000/16/1 - PCM Linear 8kHz 16bps mono
- pcm/16000/16/1 - PCM Linear 16kHz 16bps mono
- raw -Áudio original em formato arbitrário. Usualmente armazenado para fins de auditoria. O formato possui cabeçalho que permite sua identificação.
original_format [string] - Mimetype do áudio na requisição.
time [integer] - Data e hora na qual a entrada foi atualizada pela última vez. O campo é codificado como Unix epoch (número de segundos a partir de 01/01/1970 00:00:00 UTC).
original [boolean] - Indica se é áudio original (true) ou se o áudio foi pré-processado (false) de alguma forma (e.g. VAD, redução de ruído). Se omitido, o valor padrão é true.
tags [string array] - Lista de tags associadas ao áudio. Tags devem ser compostas de letras minúsculas, traços (-) e sublinhas (_). Qualquer tag pode ser adicionada na lista, porém este documento define as seguintes tags:
operation [string] - Indica a operação que resultou a introdução do áudio. Os valores válidos são: verify e enroll.
score [float] - Caso a operação que resultou na introdução do áudio for verify, indica o score da verificação. Caso a operação não seja verify, deve ser null (nulo).
biometric_model [string] - Identificação do modelo biométrico, no formato <bmt>-<nome>-<amostragem>-<versão>. Os valores válidos são:
- bmt-a1-v1.0 - Alias para bmt-speechbrain-16k-v1.0 (modelo do speechbrain de 16 kHz). Na notação a mapeia para speechbrain e b para kaldi. 1 mapeia para 16k e 2 para 8k.
- bmt-a2-v1.0 - Alias para bmt-speechbrain-8k-v1.0 (modelo do speechbrain de 8 kHz). Na notação a mapeia para speechbrain e b para kaldi. 1 mapeia para 16k e 2 para 8k.
- bmt-b2-v1.0 - Alias para bmt-kaldi-8k-v1.0 (modelo do kaldi de 8 kHz). Na notação a mapeia para speechbrain e b para kaldi. 1 mapeia para 16k e 2 para 8k.
biometric_settings [json] - Configuração do modelo biométrico.
- bmt_cp1_thr [float] - Mapeia para min_verification_score, o score mínimo de verificação utilizado na geração da decisão biométrica. Caso a operação não seja verify, ou o parâmetro não tenha sido informado pela aplicação cliente deve ser null (nulo).
biometric_decision [string] - Decisão biométrica associada ao áudio. Os valores válidos estão elencados abaixo. Caso a operação não seja verify seu valor deve ser null (nulo).
- ACCEPTED - O áudio foi aceito pelo modelo biométrico. Ex: o score foi superior ao mínimo score de verificação.
- REJECTED - O áudio foi rejeitado pelo modelo biométrico. Ex: o score foi inferior ao mínimo score de verificação.
- UNDECIDED - O modelo biométrico não conseguiu determinar uma decisão. Ex: o min_verification_score não foi informado pela aplicação cliente.
spoofing_decision [string] - Decisão biométrica associada ao áudio. Os valores válidos estão elencados abaixo. Caso a operação não seja verify seu valor deve ser null (nulo).
- NO_FRAUD - O áudio foi aceito pela detenção de spoofing. Ex: a aplicação de spoofing não detectou fraude.
- FRAUD - O áudio foi rejeitado pela detenção de spoofing. Ex: a aplicação de spoofing detectou fraude.
- UNDECIDED - A aplicação de spoofing não conseguiu determinar uma decisão. Ex: Não foi possível efetuar o download do histórico de áudios do usuário.

spoofing_settings [json] - Configuaração utilizada no antispoofing.

spf_cp1_thr [float] - Mapeia para max_scale_correlation, a configuração de spoofing de replay utilizada. Caso a operação não seja verify, ou o parâmetro não tenha sido informado pela aplicação cliente deve ser null (nulo).

spf_cp2_thr [float] - Mapeia para max_time_correlation, a configuração de spoofing de replay utilizada. Caso a operação não seja verify, ou o parâmetro não tenha sido informado pela aplicação cliente deve ser null (nulo).

spf_cp1 [float] - Mapeia para scale_correlation, o score de escala retornado pelo serviço de antispoofing. Caso a operação não seja verify, o serviço não tenha sido habilitado ou não tenha conseguido determinar o resultado, o valor deve ser null (nulo).

spf_cp2 [float] - Mapeia para time_correlation, o score de tempo retornado pelo serviço de antispoofing. Caso a operação não seja verify, o serviço não tenha sido habilitado ou não tenha conseguido determinar o resultado, o valor deve ser null (nulo).

Channel [string] - Indica o tipo de canal (e.g. telefonia, whatsapp, web) e ajudar na geração de estatísticas.

AUDIO_INFO - Métricas¶

Objeto contendo informações de métricas

A estrutura possui os seguintes campos:

audio_info [object]

audio_duration [int]

speech_duration [int]

zeroed_removed [bool]

dtmf_removed [bool]

power [float]

dc_level [float]

clipping_rate [float]

dynamic_range [list]

0 [float]

1 [float]

effective_bits [int]

effective_badwidth [float]

amplitude_factor [float]

lzc_rate [float]

active_lzc_rate [float]

active_clipping_rate [float]

snr [float]