Release Notes

1.4.1, Maio 2022

Correção

  • Persistência do score do antispoofing na base de dados.

1.4.0, Março 2022

Novidades

  • Suporte ao protocolo MRCP v2 (RFC 6787) via o Servidor MRCP do CPQD;

  • API Websocket para integração com servidor MRCP;

1.3.0, Janeiro 2022

Melhorias

  • Nova versão V2 da API de Reconhecimento de Locutor e Repositório de Usuário, com suporte a objetos JSON

Correções

  • Diversas correções de estabilidade

1.2.0, Dezembro 2021

Novidades

  • Modo de operação Saas e On Premise configurável, via variável;

  • Autenticação e geração de registros de cobrança por uso;

  • Autorização via token JWT;

Melhorias

  • Validar envio de requisição cadastro e verificação biométrica via API Gateway;

  • Suporte a áudios grandes (45,7MB) para cadastro e verificação biométrica;

  • Salvamento de todos os áudios no histórico de cadastro e verificação;

  • Melhoria de desempenho para a leitura de áudios armazenados em disco;

Correções

  • Diversas correções de estabilidade

1.1.0, Novembro 2021

Novidades

  • Identificação biométrica de locutor através da verificação em lotes

Melhorias

  • Correção no formato de resposta da API de cadastro e verificação para suporte à identificação e uso de múltiplos arquivos de áudio

  • Padronização de mensagens de log

  • Hardening de segurança no Repositório de Usuário

Correções

  • Diversas correções de estabilidade

1.0.0, Julho 2021

Essa é a versão de liberação do sistema CPQD Biometria de Voz, após 6 meses de desenvolvimento. O sistema continua em evolução e terá em breve, importantes atualizações.

As principais funcionalidades disponíveis são:

  • Interface de Cadastro e Verificação Biométrica (1.0.0) para criação de voiceprint e reconhecimento de locutor através de API REST.

  • Serviço de Repositório do Usuário (1.0.0) para armazenamento dos voiceprints e histórico de verificações em banco de dados. É possível instalar múltiplas instâncias do repositório de usuários e gerenciar a base através de API REST.

  • Processamento de áudio (1.0.0) para conversão de formatos, detecção de fala e melhorias de qualidade do áudio. Os formatos suportados são:

    • WAV, MP3, FLAC, OPUS

    • PCM Linear16 com taxas de 8kHz ou 16kHz (sem cabeçalho)

  • Antispoofing contra ataque de replay (1.0.0) baseado em histórico dos áudios de um usuário cadastrado. O sistema irá detectar se uma amostra de áudio já foi enviada anteriormente para realizar um cadastro ou verificação biométrica, evitando a tentativa de fraude baseada em replay.

  • Reconhecimento de locutor a partir da voz (1.0.0) com arquitetura de estado da arte, independente de língua e independente de fala (texto).

  • Interface de Reconhecimento de Fala (1.0.0) para realizar transcrição de fala e dar suporte aos cenários de reconhecimento dependente de texto. Disponível nos formatos de APIs REST, Websocket e MRCP.

  • Reconhecimento de Gênero e Idade (1.0.0) para classificar o gênero (masculino ou feminino), e a estimativa da idade do usuário a partir da fala. A função está disponível na interface de Reconhecimento de Fala.

  • Reconhecimento de Emoção (1.0.0) para classificar o tom emocional do usuário a partir da fala. A classificação considera 10 classes de tons emocionais, sendo possível agrupar em 4 categorias para simplificação. A função está disponível na interface de Reconhecimento de Fala.