Release Notes¶

1.5.0, Maio 2022¶

Novidades¶

Suporte para autenticação e tarifação na API Websocket;

Padronização das URI.

Correções¶

Diversas correções de estabilidade.

1.4.1, Maio 2022¶

Correção¶

Persistência do score do antispoofing na base de dados.

1.4.0, Março 2022¶

Novidades¶

Suporte ao protocolo MRCP v2 (RFC 6787) via o Servidor MRCP do CPQD;

API Websocket para integração com servidor MRCP;

1.3.0, Janeiro 2022¶

Melhorias¶

Nova versão V2 da API de Reconhecimento de Locutor e Repositório de Usuário, com suporte a objetos JSON.

Correções¶

Diversas correções de estabilidade.

1.2.0, Dezembro 2021¶

Novidades¶

Modo de operação Saas e On Premise configurável, via variável;

Autenticação e geração de registros de cobrança por uso;

Autorização via token JWT;

Melhorias¶

Validar envio de requisição cadastro e verificação biométrica via API Gateway;

Suporte a áudios grandes (45,7MB) para cadastro e verificação biométrica;

Salvamento de todos os áudios no histórico de cadastro e verificação;

Melhoria de desempenho para a leitura de áudios armazenados em disco;

Correções¶

Diversas correções de estabilidade.

1.1.0, Novembro 2021¶

Novidades¶

Identificação biométrica de locutor através da verificação em lotes.

Melhorias¶

Correção no formato de resposta da API de cadastro e verificação para suporte à identificação e uso de múltiplos arquivos de áudio;

Padronização de mensagens de log;

Hardening de segurança no Repositório de Usuário.

Correções¶

Diversas correções de estabilidade.

1.0.0, Julho 2021¶

Essa é a versão de liberação do sistema CPQD Biometria de Voz, após 6 meses de desenvolvimento. O sistema continua em evolução e terá em breve, importantes atualizações.

As principais funcionalidades disponíveis são:

Interface de Cadastro e Verificação Biométrica (1.0.0) para criação de voiceprint e reconhecimento de locutor através de API REST.

Serviço de Repositório do Usuário (1.0.0) para armazenamento dos voiceprints e histórico de verificações em banco de dados. É possível instalar múltiplas instâncias do repositório de usuários e gerenciar a base através de API REST.

Processamento de áudio (1.0.0) para conversão de formatos, detecção de fala e melhorias de qualidade do áudio. Os formatos suportados são:

WAV, MP3, FLAC, OPUS

PCM Linear16 com taxas de 8kHz ou 16kHz (sem cabeçalho)

Antispoofing contra ataque de replay (1.0.0) baseado em histórico dos áudios de um usuário cadastrado. O sistema irá detectar se uma amostra de áudio já foi enviada anteriormente para realizar um cadastro ou verificação biométrica, evitando a tentativa de fraude baseada em replay.

Reconhecimento de locutor a partir da voz (1.0.0) com arquitetura de estado da arte, independente de língua e independente de fala (texto).

Interface de Reconhecimento de Fala (1.0.0) para realizar transcrição de fala e dar suporte aos cenários de reconhecimento dependente de texto. Disponível nos formatos de APIs REST, Websocket e MRCP.

Reconhecimento de Gênero e Idade (1.0.0) para classificar o gênero (masculino ou feminino), e a estimativa da idade do usuário a partir da fala. A função está disponível na interface de Reconhecimento de Fala.

Reconhecimento de Emoção (1.0.0) para classificar o tom emocional do usuário a partir da fala. A classificação considera 10 classes de tons emocionais, sendo possível agrupar em 4 categorias para simplificação. A função está disponível na interface de Reconhecimento de Fala.