Release Notes¶
1.4.0, Março 2022¶
Novidades¶
Suporte ao protocolo MRCP v2 (RFC 6787) via o Servidor MRCP do CPQD;
API Websocket para integração com servidor MRCP;
1.3.0, Janeiro 2022¶
Melhorias¶
Nova versão V2 da API de Reconhecimento de Locutor e Repositório de Usuário, com suporte a objetos JSON
Correções¶
Diversas correções de estabilidade
1.2.0, Dezembro 2021¶
Novidades¶
Modo de operação Saas e On Premise configurável, via variável;
Autenticação e geração de registros de cobrança por uso;
Autorização via token JWT;
Melhorias¶
Validar envio de requisição cadastro e verificação biométrica via API Gateway;
Suporte a áudios grandes (45,7MB) para cadastro e verificação biométrica;
Salvamento de todos os áudios no histórico de cadastro e verificação;
Melhoria de desempenho para a leitura de áudios armazenados em disco;
Correções¶
Diversas correções de estabilidade
1.1.0, Novembro 2021¶
Novidades¶
Identificação biométrica de locutor através da verificação em lotes
Melhorias¶
Correção no formato de resposta da API de cadastro e verificação para suporte à identificação e uso de múltiplos arquivos de áudio
Padronização de mensagens de log
Hardening de segurança no Repositório de Usuário
Correções¶
Diversas correções de estabilidade
1.0.0, Julho 2021¶
Essa é a versão de liberação do sistema CPQD Biometria de Voz, após 6 meses de desenvolvimento. O sistema continua em evolução e terá em breve, importantes atualizações.
As principais funcionalidades disponíveis são:
Interface de Cadastro e Verificação Biométrica (1.0.0) para criação de voiceprint e reconhecimento de locutor através de API REST.
Serviço de Repositório do Usuário (1.0.0) para armazenamento dos voiceprints e histórico de verificações em banco de dados. É possível instalar múltiplas instâncias do repositório de usuários e gerenciar a base através de API REST.
Processamento de áudio (1.0.0) para conversão de formatos, detecção de fala e melhorias de qualidade do áudio. Os formatos suportados são:
WAV, MP3, FLAC, OPUS
PCM Linear16 com taxas de 8kHz ou 16kHz (sem cabeçalho)
Antispoofing contra ataque de replay (1.0.0) baseado em histórico dos áudios de um usuário cadastrado. O sistema irá detectar se uma amostra de áudio já foi enviada anteriormente para realizar um cadastro ou verificação biométrica, evitando a tentativa de fraude baseada em replay.
Reconhecimento de locutor a partir da voz (1.0.0) com arquitetura de estado da arte, independente de língua e independente de fala (texto).
Interface de Reconhecimento de Fala (1.0.0) para realizar transcrição de fala e dar suporte aos cenários de reconhecimento dependente de texto. Disponível nos formatos de APIs REST, Websocket e MRCP.
Reconhecimento de Gênero e Idade (1.0.0) para classificar o gênero (masculino ou feminino), e a estimativa da idade do usuário a partir da fala. A função está disponível na interface de Reconhecimento de Fala.
Reconhecimento de Emoção (1.0.0) para classificar o tom emocional do usuário a partir da fala. A classificação considera 10 classes de tons emocionais, sendo possível agrupar em 4 categorias para simplificação. A função está disponível na interface de Reconhecimento de Fala.