Visão geral do produto¶
O CPqD ASR foi construído seguindo o paradigma cliente/servidor (Fig. 4), com o motor de reconhecimento integrado a um servidor que oferece as interfaces proprietárias WebSocket e REST, que permitem que as aplicações do cliente tenham acesso aos recursos de reconhecimento de fala. Um serviço independente também pode ser instalado para oferecer a interface padronizada MRCP, normalmente usada em integrações com URA.
O modelo acústico e o modelos para fala livre são instalados através de pacotes de instalação independentes (pacotes do idioma), e que devem estar de acordo com as características que se deseja atender. Por exemplo, os pacotes do idioma usados em uma instalação para o Português do Brasil são diferentes daqueles usados em uma instalação para o Espanhol. Os pacotes do idioma projetados para trabalhar com áudio amostrado à 16 kHz não devem ser usados em aplicações que envolvam chamadas telefônicas (cuja taxa de amostragem do áudio é de 8 kHz).
Outro fator importante envolvendo pacotes do idioma é o “contexto“ em que o reconhecimento de fala irá funcionar. Alguns pacotes podem ser mais específicos para alguns contextos, privilegiando uma determinada área (área médica, área esportiva, etc.). Outros pacotes podem ser mais gerais, abrangendo diversos contextos. Geralmente pacotes mais restritos apresentarão uma acurácia maior quando aplicados aos contextos corretos.
Algumas gramáticas pré-definidas, chamadas de gramáticas builtin, são distribuídas com o CPqD ASR, e podem ser instaladas e usadas no reconhecimento.
Gramáticas específicas também podem ser criadas pelo próprio desenvolvedor de aplicações, com a ajuda de ferramentas oferecidas pelo CPqD ASR.
Para facilitar o desenvolvimento de aplicações, são disponibilizadas algumas bibliotecas de cliente que simplificam o processo de integração com o CPqD ASR.
Nem todos os componentes precisam estar presentes numa instalação. Por exemplo, se uma aplicação não usa a interface MRCP, não é necessário que ela seja instalada.