Resumo dos recursos¶

O CPqD ASR oferece diversos recursos, entre os quais destacam-se:

Suporte ao Português do Brasil e Espanhol da América Latina: Os modelos acústicos do Português foram treinados com fala de milhares de brasileiros, com sotaques de todo o país. Os modelos do Espanhol foram produzidos com áudio de falantes de diferentes países da América Latina.
Entrada de áudio: Aceita áudio de entrada PCM Linear 16bits com taxa de 8 kHz, usado em telefonia, e 16 kHz, para aplicações com maior qualidade de áudio. Além disso, suporta vários formatos de áudio com e sem compressão: MP3, OPUS, VORBIS, PCM aLaw/uLaw, GSM, FLAC e WAV, lembrando que áudios com alta taxa de compressão pode afetar a acurácia do reconhecimento.
Arquitetura cliente/servidor: As aplicações podem usar o reconhecimento de fala através das APIs WebSocket e REST, desenvolvidas pelo CPqD, ou utilizar o padrão MRCP, no caso de aplicações com URA.
Reconhecimento em tempo real ou online: O áudio é processado à medida em que é recebido, diminuindo o tempo de produção do resultado final.
Reconhecimento em modo contínuo: O modo padrão de funcionamento do ASR é a detecção e o reconhecimento apenas da primeira frase do usuário. No reconhecimento em modo contínuo, o ASR permanece processando o áudio, gerando resultados de reconhecimento a medida que recebe o áudio.
Reconhecimento com gramáticas: O reconhecimento pode ser realizado com gramáticas escritas no padrão SRGS .
Interpretação semântica: Reconhecimento com interpretação semântica para gramáticas seguindo o padrão SISR.
Reconhecimento de fala livre: Reconhecimento de fala sem a necessidade de escrever uma gramática, permitindo flexibilidade na interação com o usuário.
Resultados intermediários: Produção de resultados intermediários ou parciais enquanto o áudio é recebido e reconhecido.
Índice de confiança: Os resultados gerados recebem uma nota, que indica a confiança no reconhecimento daquela frase; quanto maior essa nota, maior a chance do reconhecimento estar correto.
N-best list: Retorno da lista das N frases mais prováveis para cada reconhecimento, ao invés de apenas retornar a frase reconhecida.
Detecção de fala: Identificação automatica dos instantes em que o usuário começa e termina de falar.