Perguntas Frequentes¶

A lista de perguntas a seguir procura responder as dúvidas mais comuns e frequentes sobre o CPQD Biometria de Voz.

Como é feita a gestão dos usuários cadastrados?

O cadastro biométrico é chamado de voiceprint. Ele é identificado por uma sequência de caracteres alfanumérica definida pela aplicação. A aplicação deve garantir a unicidade da sequência e manter o controle da relação entre o usuário da aplicação e o voiceprint. Recomendamos que não sejam utilizados dados sensíveis dos usuários para identificar um voiceprint.

Onde são armazenados os dados dos usuários?

Os dados dos usuários ficam armazenados no serviço de Repositório do Usuário. Cada empresa deve possuir um ou mais serviços exclusivos, para garantir o isolamento das informações. A segurança no acesso ao repositório de uma aplicação é feito através de autenticação básica HTTP, mas podem ser definidas políticas adicionais com uso de firewall.

Como funciona a verificação usando senha falada ou frase senha?

Nesse cenário, espera-se que o locutor diga sempre a mesma frase no momento do cadastro e da verificação. A aplicação deverá manter o cadastro das senhas / palavras chave e implementar a função de validação da senha. No momento do cadastro ou da verificação, a aplicação deve utilizar uma API de Reconhecimento de Fala para transcrever em texto a fala do usuário. Os casos de sucesso/insucesso na validação da senha são realizadas pela aplicação. Em conjunto com a verificação da senha, a aplicação deve executar as funções biométricas sobre o mesmo áudio capturado. Para o cenário de cadastro, recomenda-se capturar a fala do usuário com a senha por pelo menos três vezes, e então executar o cadastro biométrico enviando as três capturas. Vale lembrar que a biometria é independente do conteúdo que está sendo falado ou da linguagem.

Como funciona a verificação usando fala livre independente de texto?

Nesse cenário, espera-se o locutor poderá falar qualquer coisa. Para criar um voiceprint que represente com acurácia a biometria do usuário, é importante utilizar áudios com duração e variação fonética suficientes. Em princípio, quanto maior a duração e a variação fonética, melhor. Mas sugerimos uma duração acima de 20 segundos para o cadastro, e duração acima de 5 segundos para a verificação.

Como escolher uma frase para a senha falada?

A frase senha deve possuir um pouco de variação fonética e não deve ser muito curta. Soletrar números ou letras pode trazer algum índice de erro na transcrição do reconhecimento de fala. Seguem alguns exemplos:

“oi”: não é uma boa frase senha, pois é muito curta.

“oi oi oi oi”: apesar de ser mais longa, não é uma boa frase pois possui pouca variação fonética.

“minha voz é a minha senha”: não é uma frase ideal, poderia ter mais variação fonética.

“<soletrar números do cpf>”: não é uma boa frase pois os sistemas de reconhecimento de fala podem errar a transcrição de números (3 vs 6). É necessário aplicar um algoritmo de comparação de texto que considera variações

“com a biometria de voz ninguém pode se passar por mim”: é uma frase melhor, com maior duração e variação fonética

O sistema suporta Identificação de locutores (1:N)?

O sistema suporta a verificação em lotes, onde a aplicação informa um áudio a ser verificado e uma relação de voiceprints desejados. A relação dos voiceprints é explícita, ou seja, a aplicação deve informa todos os identificadores que devem ser verificados. Quanto maior for a relação, maior será o tempo de resposta do sistema. Isso deve ser avaliado no cenário de uso da aplicação.

Posso reutilizar os áudios para testes?

O sistema possui proteção contra ataques de replay. Se você utilizar mais de uma vez uma mesma captura de áudio, para um mesmo voiceprint, o sistema irá rejeitar a requisição.

Qual a duração média da captura para cadastro do voiceprint? E para a verificação do locutor?

No cenário independente de texto, recomendamos um tempo de fala acima de 20 segundos para o cadastro do voiceprint. Já a verificação deve ser feita com tempo de fala acima de 5 seg. No cenário de senha falada ou frase senha dependente de texto, recomendamos o uso de frases maiores que 3 segundos, e que o cadastro seja feito com no mínimo 3 repetições.

Quais as limitações do produto nas etapas de cadastro e verificação?

A presença de ruídos no áudio, múltiplos locutores, baixa relação sinal-ruído, distorções na gravação, compressão exagerada, baixo volume, são fatores que prejudicam o desempenho. Se esses fatores forem exagerados, o sistema pode rejeitar o áudio.

Qual formato de áudio devo utilizar na captura?

O formato ideal de captura é aquele que possui menor compressão, como Lei-A ou PCM Linear, livres de pré-processamento, filtros ou conversões de formato. Note que a conversão de formato a partir de uma base comprimida não irá melhorar a qualidade do áudio, pois não é possível recuperar a perda de de dados sofrida na compressão.