Funcionalidades¶

Dentre as principais funcionalidades do Biometria de Voz, destacam-se:

Cadastro da biometria

O cadastro da biometria da voz é a primeira etapa do processo de reconhecimento biométrico de um usuário. O cadastro é realizado através do envio de uma ou mais amostras de fala e como resultado, o sistema gera uma representação do locutor que chamamos de voiceprint (em analogia à fingerprint, ou impressão digital). O sistema gera também um user_id (identificador deste usuário), que deve ser mantido e controlado pela aplicação externa.

Verificação de locutor

Uma vez criado o cadastro biométrico (voiceprint), o usuário já pode se autenticar no sistema utilizando a sua voz. No processo de verificação de locutor, o usuário deve se identificar previamente, para que o sistema saiba com qual voiceprint deverá comparar a amostra de fala. Como resultado, o sistema gera uma pontuação ou score, indicando a aderência entre a amostra de fala recebida e o voiceprint. Quanto maior o score, mais similar é a voz em relação ao voiceprint, e portanto, maior a chance daquela voz pertencer ao usuário cadastrado.

Identificação

No processo de identificação biométrica, o usuário fornece apenas a sua voz. O sistema deve então compará-la com um conjunto de voiceprints cadastrados. Como resultado, o sistema gera uma lista de pontuações, ou scores, indicando a aderência entre a amostra de fala recebida e cada um dos voiceprints do repositório.

Biometria dependente e independente de texto

O reconhecimento biométrico pode ser dependente ou independente de texto, ou seja, o conteúdo falado no momento do cadastro deve ser o mesmo (ou não) no momento da verificação. O processo dependente de texto traz vantagens e desvantagens em relação ao independente, e seu uso deve ser avaliado no contexto da aplicação.

O processo dependente de texto tem a vantagem de necessitar de falas mais curtas no processo de cadastro e verificação, para se obter uma boa acurácia. No entanto, ele exige que o usuário memorize ou seja induzido a falar um conteúdo específico e fixo, e por isso, esse cenário de uso é muitas vezes denominado senha falada. A aplicação deverá utilizar um recurso adicional de reconhecimento de fala (speech-to-text) para transcrever a fala e comparar com o conteúdo esperado, lidando com as pequenas variações ou erros no texto que podem surgir em função de má articulação e ruídos ambientes.

Já no processo independente de texto, o conteúdo falado no momento do cadastro não precisa ser o mesmo do momento da verificação. Esse cenário de uso é conhecido como fala livre. A desvantagem desse cenário é que para o funcionamento adequado do sistema, é necessário que o cadastro seja feito com amostras de fala de maior duração, e que a verificação também seja feita com frases maiores. O motivo disso é que para gerar um cadastro que represente adequadamente as características biométricas de uma pessoa, é necessário que as amostras de fala possuam riqueza fonética suficiente e abrangente, o que normalmente implica em maiores durações de áudio. No processo de verificação, as amostras de fala também devem ter um mínimo de riqueza fonética para permitir a comparação com o voiceprint.

Podemos dizer que no cenário de senha falada, a frase pode ser curta, de poucos segundos. Enquanto que no cenário de fala livre, o cadastro pode ser feito com dezenas de segundos e a verificação com frases de alguns segundos.

Formatos de áudio

O Biometria de Voz provê suporte aos seguintes formatos de áudio de entrada: WAV, MP3, FLAC, e OPUS. Além disso, aceita áudios sem cabeçalho nos formatos PCM Linear16 com taxa de 8kHz, usado em telefonia, e 16 kHz para aplicações digitais com maior qualidade. É importante ressaltar que a qualidade do áudio é um fator de impacto na acurácia do sistema.

Proteção contra ataques de replay, de síntese e conversão de fala

Sistemas de biometria estão sujeitos a tentativas de ataques (spoofing) para burlar o processo de reconhecimento. Um fraudador pode obter uma gravação da voz do usuário e com isso reproduzir o áudio no momento do reconhecimento. É muito difícil diferenciar a reprodução de um áudio gravado de um áudio capturado do usuário ao vivo, dada a boa qualidade dos dispositivos de reprodução atuais. No entanto, o sistema é capaz de perceber se um áudio foi enviado mais de uma vez, e com isso irá rejeitar a tentativa de verificação.

Um fraudador pode ainda tentar utilizar as tecnologias de síntese da fala ou conversão de voz e criar uma fala artificial para se passar pelo usuário autêntico. O sistema também é capaz de detectar tais ataques e rejeitar o áudio.