AUDIO_INFO¶
Representa as meta-informações de um áudio armazenado no repositório.
A estrutura possui os seguintes campos:
uuid [string] - Identificador único do áudio. Esse identificador é gerado automaticamente pelo serviço e não pode ser alterado pelo cliente.
session_id [string] - Identificador da sessão na qual o áudio foi capturado.
format [string] - Identificador do formato do áudio. Se omitido, o valor padrão é «pcm/16000/16/1». Os valores válidos são:
pcm/8000/16/1 - PCM Linear 8kHz 16bps mono
pcm/16000/16/1 - PCM Linear 16kHz 16bps mono
raw -Áudio original em formato arbitrário. Usualmente armazenado para fins de auditoria. O formato possui cabeçalho que permite sua identificação.
original_format [string] - Mimetype do áudio na requisição.
time [integer] - Data e hora na qual a entrada foi atualizada pela última vez. O campo é codificado como Unix epoch (número de segundos a partir de 01/01/1970 00:00:00 UTC).
original [boolean] - Indica se é áudio original (true) ou se o áudio foi pré-processado (false) de alguma forma (e.g. VAD, redução de ruído). Se omitido, o valor padrão é true.
tags [string array] - Lista de tags associadas ao áudio. Tags devem ser compostas de letras minúsculas, traços (-) e sublinhas (_). Qualquer tag pode ser adicionada na lista, porém este documento define as seguintes tags:
operation [string] - Indica a operação que resultou a introdução do áudio. Os valores válidos são: verify e enroll.
score [float] - Caso a operação que resultou na introdução do áudio for verify, indica o score da verificação. Caso a operação não seja verify, deve ser null (nulo).
biometric_model [string] - Identificação do modelo biométrico, no formato <bmt>-<nome>-<amostragem>-<versão>. Os valores válidos são:
bmt-a1-v1.0 - Alias para bmt-speechbrain-16k-v1.0 (modelo do speechbrain de 16 kHz). Na notação a mapeia para speechbrain e b para kaldi. 1 mapeia para 16k e 2 para 8k.
bmt-a2-v1.0 - Alias para bmt-speechbrain-8k-v1.0 (modelo do speechbrain de 8 kHz). Na notação a mapeia para speechbrain e b para kaldi. 1 mapeia para 16k e 2 para 8k.
bmt-b2-v1.0 - Alias para bmt-kaldi-8k-v1.0 (modelo do kaldi de 8 kHz). Na notação a mapeia para speechbrain e b para kaldi. 1 mapeia para 16k e 2 para 8k.
biometric_settings [json] - Configuração do modelo biométrico.
bmt_cp1_thr [float] - Mapeia para min_verification_score, o score mínimo de verificação utilizado na geração da decisão biométrica. Caso a operação não seja verify, ou o parâmetro não tenha sido informado pela aplicação cliente deve ser null (nulo).
biometric_decision [string] - Decisão biométrica associada ao áudio. Os valores válidos estão elencados abaixo. Caso a operação não seja verify seu valor deve ser null (nulo).
ACCEPTED - O áudio foi aceito pelo modelo biométrico. Ex: o score foi superior ao mínimo score de verificação.
REJECTED - O áudio foi rejeitado pelo modelo biométrico. Ex: o score foi inferior ao mínimo score de verificação.
UNDECIDED - O modelo biométrico não conseguiu determinar uma decisão. Ex: o min_verification_score não foi informado pela aplicação cliente.
spoofing_decision [string] - Decisão biométrica associada ao áudio. Os valores válidos estão elencados abaixo. Caso a operação não seja verify seu valor deve ser null (nulo).
NO_FRAUD - O áudio foi aceito pela detenção de spoofing. Ex: a aplicação de spoofing não detectou fraude.
FRAUD - O áudio foi rejeitado pela detenção de spoofing. Ex: a aplicação de spoofing detectou fraude.
UNDECIDED - A aplicação de spoofing não conseguiu determinar uma decisão. Ex: Não foi possível efetuar o download do histórico de áudios do usuário.
spoofing_settings [json] - Configuaração utilizada no antispoofing.
spf_cp1_thr [float] - Mapeia para max_scale_correlation, a configuração de spoofing de replay utilizada. Caso a operação não seja verify, ou o parâmetro não tenha sido informado pela aplicação cliente deve ser null (nulo).
spf_cp2_thr [float] - Mapeia para max_time_correlation, a configuração de spoofing de replay utilizada. Caso a operação não seja verify, ou o parâmetro não tenha sido informado pela aplicação cliente deve ser null (nulo).
spf_cp1 [float] - Mapeia para scale_correlation, o score de escala retornado pelo serviço de antispoofing. Caso a operação não seja verify, o serviço não tenha sido habilitado ou não tenha conseguido determinar o resultado, o valor deve ser null (nulo).
spf_cp2 [float] - Mapeia para time_correlation, o score de tempo retornado pelo serviço de antispoofing. Caso a operação não seja verify, o serviço não tenha sido habilitado ou não tenha conseguido determinar o resultado, o valor deve ser null (nulo).
Channel [string] - Indica o tipo de canal (e.g. telefonia, whatsapp, web) e ajudar na geração de estatísticas.
AUDIO_INFO - Métricas¶
Objeto contendo informações de métricas
A estrutura possui os seguintes campos:
audio_info [object]
audio_duration [int]
speech_duration [int]
zeroed_removed [bool]
dtmf_removed [bool]
power [float]
dc_level [float]
clipping_rate [float]
dynamic_range [list]
0 [float]
1 [float]
effective_bits [int]
effective_badwidth [float]
amplitude_factor [float]
lzc_rate [float]
active_lzc_rate [float]
active_clipping_rate [float]
snr [float]