AUDIO_INFO

Representa as meta-informações de um áudio armazenado no repositório.

A estrutura possui os seguintes campos:

  • uuid [string] - Identificador único do áudio. Esse identificador é gerado automaticamente pelo serviço e não pode ser alterado pelo cliente.

  • session_id [string] - Identificador da sessão na qual o áudio foi capturado.

  • format [string] - Identificador do formato do áudio. Se omitido, o valor padrão é «pcm/16000/16/1». Os valores válidos são:

    • pcm/8000/16/1 - PCM Linear 8kHz 16bps mono

    • pcm/16000/16/1 - PCM Linear 16kHz 16bps mono

    • raw -Áudio original em formato arbitrário. Usualmente armazenado para fins de auditoria. O formato possui cabeçalho que permite sua identificação.

  • original_format [string] - Mimetype do áudio na requisição.

  • time [integer] - Data e hora na qual a entrada foi atualizada pela última vez. O campo é codificado como Unix epoch (número de segundos a partir de 01/01/1970 00:00:00 UTC).

  • original [boolean] - Indica se é áudio original (true) ou se o áudio foi pré-processado (false) de alguma forma (e.g. VAD, redução de ruído). Se omitido, o valor padrão é true.

  • tags [string array] - Lista de tags associadas ao áudio. Tags devem ser compostas de letras minúsculas, traços (-) e sublinhas (_). Qualquer tag pode ser adicionada na lista, porém este documento define as seguintes tags:

  • operation [string] - Indica a operação que resultou a introdução do áudio. Os valores válidos são: verify e enroll.

  • score [float] - Caso a operação que resultou na introdução do áudio for verify, indica o score da verificação. Caso a operação não seja verify, deve ser null (nulo).

  • biometric_model [string] - Identificação do modelo biométrico, no formato <bmt>-<nome>-<amostragem>-<versão>. Os valores válidos são:

    • bmt-a1-v1.0 - Alias para bmt-speechbrain-16k-v1.0 (modelo do speechbrain de 16 kHz). Na notação a mapeia para speechbrain e b para kaldi. 1 mapeia para 16k e 2 para 8k.

    • bmt-a2-v1.0 - Alias para bmt-speechbrain-8k-v1.0 (modelo do speechbrain de 8 kHz). Na notação a mapeia para speechbrain e b para kaldi. 1 mapeia para 16k e 2 para 8k.

    • bmt-b2-v1.0 - Alias para bmt-kaldi-8k-v1.0 (modelo do kaldi de 8 kHz). Na notação a mapeia para speechbrain e b para kaldi. 1 mapeia para 16k e 2 para 8k.

  • biometric_settings [json] - Configuração do modelo biométrico.

    • bmt_cp1_thr [float] - Mapeia para min_verification_score, o score mínimo de verificação utilizado na geração da decisão biométrica. Caso a operação não seja verify, ou o parâmetro não tenha sido informado pela aplicação cliente deve ser null (nulo).

  • biometric_decision [string] - Decisão biométrica associada ao áudio. Os valores válidos estão elencados abaixo. Caso a operação não seja verify seu valor deve ser null (nulo).

    • ACCEPTED - O áudio foi aceito pelo modelo biométrico. Ex: o score foi superior ao mínimo score de verificação.

    • REJECTED - O áudio foi rejeitado pelo modelo biométrico. Ex: o score foi inferior ao mínimo score de verificação.

    • UNDECIDED - O modelo biométrico não conseguiu determinar uma decisão. Ex: o min_verification_score não foi informado pela aplicação cliente.

  • spoofing_decision [string] - Decisão biométrica associada ao áudio. Os valores válidos estão elencados abaixo. Caso a operação não seja verify seu valor deve ser null (nulo).

    • NO_FRAUD - O áudio foi aceito pela detenção de spoofing. Ex: a aplicação de spoofing não detectou fraude.

    • FRAUD - O áudio foi rejeitado pela detenção de spoofing. Ex: a aplicação de spoofing detectou fraude.

    • UNDECIDED - A aplicação de spoofing não conseguiu determinar uma decisão. Ex: Não foi possível efetuar o download do histórico de áudios do usuário.

  • spoofing_settings [json] - Configuaração utilizada no antispoofing.

    • spf_cp1_thr [float] - Mapeia para max_scale_correlation, a configuração de spoofing de replay utilizada. Caso a operação não seja verify, ou o parâmetro não tenha sido informado pela aplicação cliente deve ser null (nulo).

    • spf_cp2_thr [float] - Mapeia para max_time_correlation, a configuração de spoofing de replay utilizada. Caso a operação não seja verify, ou o parâmetro não tenha sido informado pela aplicação cliente deve ser null (nulo).

    • spf_cp1 [float] - Mapeia para scale_correlation, o score de escala retornado pelo serviço de antispoofing. Caso a operação não seja verify, o serviço não tenha sido habilitado ou não tenha conseguido determinar o resultado, o valor deve ser null (nulo).

    • spf_cp2 [float] - Mapeia para time_correlation, o score de tempo retornado pelo serviço de antispoofing. Caso a operação não seja verify, o serviço não tenha sido habilitado ou não tenha conseguido determinar o resultado, o valor deve ser null (nulo).

  • Channel [string] - Indica o tipo de canal (e.g. telefonia, whatsapp, web) e ajudar na geração de estatísticas.

AUDIO_INFO - Métricas

Objeto contendo informações de métricas

A estrutura possui os seguintes campos:

  • audio_info [object]

  • audio_duration [int]

  • speech_duration [int]

  • zeroed_removed [bool]

  • dtmf_removed [bool]

  • power [float]

  • dc_level [float]

  • clipping_rate [float]

  • dynamic_range [list]

    • 0 [float]

    • 1 [float]

  • effective_bits [int]

  • effective_badwidth [float]

  • amplitude_factor [float]

  • lzc_rate [float]

  • active_lzc_rate [float]

  • active_clipping_rate [float]

  • snr [float]