Release Notes¶

1.4.1, Maio 2022¶

Correção¶

Persistência do score do antispoofing na base de dados.

1.4.0, Março 2022¶

Novidades¶

Suporte ao protocolo MRCP v2 (RFC 6787) via o Servidor MRCP do CPQD;

API Websocket para integração com servidor MRCP;

1.3.0, Janeiro 2022¶

Melhorias¶

Nova versão V2 da API de Reconhecimento de Locutor e Repositório de Usuário, com suporte a objetos JSON

Correções¶

Diversas correções de estabilidade

1.2.0, Dezembro 2021¶

Novidades¶

Modo de operação Saas e On Premise configurável, via variável;

Autenticação e geração de registros de cobrança por uso;

Autorização via token JWT;

Melhorias¶

Validar envio de requisição cadastro e verificação biométrica via API Gateway;

Suporte a áudios grandes (45,7MB) para cadastro e verificação biométrica;

Salvamento de todos os áudios no histórico de cadastro e verificação;

Melhoria de desempenho para a leitura de áudios armazenados em disco;

Correções¶

Diversas correções de estabilidade

1.1.0, Novembro 2021¶

Novidades¶

Identificação biométrica de locutor através da verificação em lotes

Melhorias¶

Correção no formato de resposta da API de cadastro e verificação para suporte à identificação e uso de múltiplos arquivos de áudio

Padronização de mensagens de log

Hardening de segurança no Repositório de Usuário

Correções¶

Diversas correções de estabilidade

1.0.0, Julho 2021¶

Essa é a versão de liberação do sistema CPQD Biometria de Voz, após 6 meses de desenvolvimento. O sistema continua em evolução e terá em breve, importantes atualizações.

As principais funcionalidades disponíveis são:

Interface de Cadastro e Verificação Biométrica (1.0.0) para criação de voiceprint e reconhecimento de locutor através de API REST.

Serviço de Repositório do Usuário (1.0.0) para armazenamento dos voiceprints e histórico de verificações em banco de dados. É possível instalar múltiplas instâncias do repositório de usuários e gerenciar a base através de API REST.

Processamento de áudio (1.0.0) para conversão de formatos, detecção de fala e melhorias de qualidade do áudio. Os formatos suportados são:

WAV, MP3, FLAC, OPUS

PCM Linear16 com taxas de 8kHz ou 16kHz (sem cabeçalho)

Antispoofing contra ataque de replay (1.0.0) baseado em histórico dos áudios de um usuário cadastrado. O sistema irá detectar se uma amostra de áudio já foi enviada anteriormente para realizar um cadastro ou verificação biométrica, evitando a tentativa de fraude baseada em replay.

Reconhecimento de locutor a partir da voz (1.0.0) com arquitetura de estado da arte, independente de língua e independente de fala (texto).

Interface de Reconhecimento de Fala (1.0.0) para realizar transcrição de fala e dar suporte aos cenários de reconhecimento dependente de texto. Disponível nos formatos de APIs REST, Websocket e MRCP.

Reconhecimento de Gênero e Idade (1.0.0) para classificar o gênero (masculino ou feminino), e a estimativa da idade do usuário a partir da fala. A função está disponível na interface de Reconhecimento de Fala.

Reconhecimento de Emoção (1.0.0) para classificar o tom emocional do usuário a partir da fala. A classificação considera 10 classes de tons emocionais, sendo possível agrupar em 4 categorias para simplificação. A função está disponível na interface de Reconhecimento de Fala.