Recursos disponíveis¶
O CPqD ASR oferece diversos recursos, entre os quais destacam-se:
- Suporte ao Português do Brasil
- Os modelos acústicos foram treinados com fala de milhares de brasileiros, com sotaques de todo o país.
- Entrada de áudio de 8 kHz e 16 kHz
- Aceita áudio de entrada PCM Linear 16bits com taxa de 8 kHz, usado em telefonia, e 16 kHz, para aplicações com maior qualidade de áudio.
- Arquitetura cliente/servidor
- As aplicações podem usar o reconhecimento de fala através das APIs WebSocket e REST, desenvolvidas pelo CPqD, ou utilizar o padrão MRCP, no caso de aplicações com URA.
- Reconhecimento online
- O áudio é processado à medida em que é recebido, diminuindo o tempo de produção do resultado final.
- Reconhecimento com gramáticas
- O reconhecimento pode ser realizado com gramáticas escritas no padrão SRGS .
- Interpretação semântica
- Reconhecimento com interpretação semântica para gramáticas seguindo o padrão SISR.
- Reconhecimento de fala livre
- Reconhecimento de fala sem a necessidade de escrever uma gramática, permitindo flexibilidade na interação com o usuário.
- Resultados parciais
- Produção de resultados intermediários enquanto o áudio é recebido e reconhecido.
- Índice de confiança
- Os resultados gerados recebem uma nota, que indica a confiança no reconhecimento daquela frase; quanto maior essa nota, maior a chance do reconhecimento estar correto.
- N-best list
- Retorno da lista das N frases mais prováveis para cada reconhecimento, ao invés de apenas retornar a frase reconhecida.
- Detecção de início e fim de fala
- Identificação automatica dos instantes em que o usuário começa e termina de falar.