Perguntas Frequentes¶

A lista de perguntas a seguir procura responder as dúvidas mais comuns e frequentes sobre o CPQD Biometria de Voz.

Como é feita a gestão dos usuários cadastrados?

O cadastro biométrico é chamado de voiceprint. Ele é identificado por uma sequência de caracteres alfanumérica gerados pelo serviço biométrico. A aplicação externa mantem o controle da relação entre o usuário da aplicação e o voiceprint.

Onde são armazenados os dados dos usuários?

Os dados dos usuários ficam armazenados no serviço de Repositório do Usuário. Cada empresa deve possuir um ou mais serviços exclusivos, para garantir o isolamento das informações. A segurança no acesso ao repositório de uma aplicação é feito através de autenticação básica HTTP, mas podem ser definidas políticas adicionais com uso de firewall.

Como funciona a verificação usando senha falada ou frase senha?

Nesse cenário, espera-se que o locutor diga sempre a mesma frase no momento do cadastro e da verificação. A aplicação deverá manter o cadastro das senhas / palavras chave e implementar a função de validação da senha. No momento do cadastro ou da verificação, a aplicação deve utilizar uma API de Reconhecimento de Fala para transcrever em texto a fala do usuário. Os casos de sucesso/insucesso na validação da senha são realizadas pela aplicação. Em conjunto com a verificação da senha, a aplicação deve executar as funções biométricas sobre o mesmo áudio capturado. Para o cenário de cadastro, recomenda-se capturar a fala do usuário com a senha por pelo menos três vezes, e então executar o cadastro biométrico enviando as três capturas. Vale lembrar que a biometria é independente do conteúdo que está sendo falado ou da linguagem.

Como funciona a verificação usando fala livre independente de texto?

Nesse cenário, espera-se o locutor poderá falar qualquer coisa. Para criar um voiceprint que represente com acurácia a biometria do usuário, é importante utilizar áudios com duração e variação fonética suficientes. Em princípio, quanto maior a duração e a variação fonética, melhor. Mas sugerimos uma duração acima de 20 segundos para o cadastro, e duração acima de 5 segundos para a verificação.

Como escolher uma frase para a senha falada?

A frase senha deve possuir um pouco de variação fonética e não deve ser muito curta. Soletrar números ou letras pode trazer algum índice de erro na transcrição do reconhecimento de fala. Seguem alguns exemplos:

“oi”: não é uma boa frase senha, pois é muito curta.

“oi oi oi oi”: apesar de ser mais longa, não é uma boa frase pois possui pouca variação fonética.

“minha voz é a minha senha”: não é uma frase ideal, poderia ter mais variação fonética.

“<soletrar números do cpf>”: não é uma boa frase pois os sistemas de reconhecimento de fala podem errar a transcrição de números (3 vs 6). É necessário aplicar um algoritmo de comparação de texto que considera variações

“com a biometria de voz ninguém pode se passar por mim”: é uma frase melhor, com maior duração e variação fonética

O sistema suporta Identificação de locutores (1:N)?

O sistema suporta a verificação em lotes, onde a aplicação informa um áudio a ser verificado e uma relação de voiceprints desejados. A relação dos voiceprints é explícita, ou seja, a aplicação deve informa todos os identificadores que devem ser verificados. Quanto maior for a relação, maior será o tempo de resposta do sistema. Isso deve ser avaliado no cenário de uso da aplicação.

Posso reutilizar os áudios para testes?

O sistema possui proteção contra ataques de replay. Se você utilizar mais de uma vez uma mesma captura de áudio, para um mesmo voiceprint, o sistema irá rejeitar a requisição.

Qual a duração média da captura para cadastro do voiceprint? E para a verificação do locutor?

No cenário independente de texto, recomendamos um tempo de fala acima de 20 segundos para o cadastro do voiceprint. Já a verificação deve ser feita com tempo de fala acima de 5 seg. No cenário de senha falada ou frase senha dependente de texto, recomendamos o uso de frases maiores que 3 segundos, e que o cadastro seja feito com no mínimo 3 repetições.

Quais as limitações do produto nas etapas de cadastro e verificação?

A presença de ruídos no áudio, múltiplos locutores, baixa relação sinal-ruído, distorções na gravação, compressão exagerada, baixo volume, são fatores que prejudicam o desempenho. Se esses fatores forem exagerados, o sistema pode rejeitar o áudio.

Qual formato de áudio devo utilizar na captura?

O formato ideal de captura é aquele que possui menor compressão, como Lei-A ou PCM Linear, livres de pré-processamento, filtros ou conversões de formato. Note que a conversão de formato a partir de uma base comprimida não irá melhorar a qualidade do áudio, pois não é possível recuperar a perda de de dados sofrida na compressão.