Release Notes

1.0.0, Julho 2021

Essa é a versão de liberação do sistema CPQD Biometria de Voz, após 6 meses de desenvolvimento. O sistema continua em evolução e terá em breve, importantes atualizações.

As principais funcionalidades disponíveis são:

  • Interface de Cadastro e Verificação Biométrica (1.0.0) para criação de voiceprint e reconhecimento de locutor através de API REST.

  • Serviço de Repositório do Usuário (1.0.0) para armazenamento dos voiceprints e histórico de verificações em banco de dados. É possível instalar múltiplas instâncias do repositório de usuários e gerenciar a base através de API REST.

  • Processamento de áudio (1.0.0) para conversão de formatos, detecção de fala e melhorias de qualidade do áudio. Os formatos suportados são:

    • WAV, MP3, FLAC, OPUS

    • PCM Linear16 com taxas de 8kHz ou 16kHz (sem cabeçalho)

  • Antispoofing contra ataque de replay (1.0.0) baseado em histórico dos áudios de um usuário cadastrado. O sistema irá detectar se uma amostra de áudio já foi enviada anteriormente para realizar um cadastro ou verificação biométrica, evitando a tentativa de fraude baseada em replay.

  • Reconhecimento de locutor a partir da voz (1.0.0) com arquitetura de estado da arte, independente de língua e independente de fala (texto).

  • Interface de Reconhecimento de Fala (1.0.0) para realizar transcrição de fala e dar suporte aos cenários de reconhecimento dependente de texto. Disponível nos formatos de APIs REST, Websocket e MRCP.

  • Reconhecimento de Gênero e Idade (1.0.0) para classificar o gênero (masculino ou feminino), e a estimativa da idade do usuário a partir da fala. A função está disponível na interface de Reconhecimento de Fala.

  • Reconhecimento de Emoção (1.0.0) para classificar o tom emocional do usuário a partir da fala. A classificação considera 10 classes de tons emocionais, sendo possível agrupar em 4 categorias para simplificação. A função está disponível na interface de Reconhecimento de Fala.

Dependências

Framework principal de desenvolvimento:

  • Python: 3.8

  • FastAPI: 0.63.0

  • uvicorn: 0.13.4

  • websockets: 8.1

  • SQLAlchemy: 1.4.8

  • PostgreSQL: 13.2

  • FFMpeg: 3.2.15