Resumo dos recursos

O Reconhecimento de fala oferece diversos recursos, entre os quais destacam-se:

Suporte ao Português do Brasil e Espanhol da América Latina

Os modelos acústicos do Português foram treinados com fala de milhares de brasileiros, com sotaques de todo o país. Os modelos do Espanhol foram produzidos com áudio de falantes de diferentes países da América Latina.

Entrada de áudio

Aceita áudio de entrada PCM Linear 16bits com taxa de 8 kHz, usado em telefonia, e 16 kHz, para aplicações com maior qualidade de áudio. Além disso, suporta vários formatos de áudio com e sem compressão: MP3, OPUS, VORBIS, PCM aLaw/uLaw, GSM, FLAC e WAV, lembrando que áudios com alta taxa de compressão pode afetar a acurácia do reconhecimento.

Arquitetura cliente/servidor

As aplicações podem usar o reconhecimento de fala através das APIs WebSocket e REST, desenvolvidas pelo CPQD, ou utilizar o padrão MRCP e GRPC, no caso de aplicações com URA.

Reconhecimento em tempo real ou online

O áudio é processado à medida em que é recebido, diminuindo o tempo de produção do resultado final.

Reconhecimento em modo contínuo

O modo padrão de funcionamento do ASR é a detecção e o reconhecimento apenas da primeira frase do usuário. No reconhecimento em modo contínuo, o ASR permanece processando o áudio, gerando resultados de reconhecimento a medida que recebe o áudio.

Reconhecimento com gramáticas

O reconhecimento pode ser realizado com gramáticas escritas no padrão SRGS .

Interpretação semântica

Reconhecimento com interpretação semântica para gramáticas seguindo o padrão SISR.

Reconhecimento de fala livre

Reconhecimento de fala sem a necessidade de escrever uma gramática, permitindo flexibilidade na interação com o usuário.

Resultados intermediários

Produção de resultados intermediários ou parciais enquanto o áudio é recebido e reconhecido.

Índice de confiança

Os resultados gerados recebem uma nota, que indica a confiança no reconhecimento daquela frase; quanto maior essa nota, maior a chance do reconhecimento estar correto.

N-best list

Retorno da lista das N frases mais prováveis para cada reconhecimento, ao invés de apenas retornar a frase reconhecida.

Detecção de fala

Identificação automatica dos instantes em que o usuário começa e termina de falar.

Reconhecimento de estado emocional, gênero e idade

O reconhecimento de gênero utiliza um modelo de classificação binária, onde existem duas respostas possíveis: masculino e feminino. O modelo é limitado a vozes adultas, e portanto espera-se altas taxas de erro com crianças.

Já o reconhecimento de idade utiliza um modelo “dois em um”, produzindo uma estimativa da idade mais provável e em paralelo, calcula a probabilidade por faixas etárias entre zero e 100 anos, com intervalo de 10 anos.

O reconhecimento de emoções considera um conjunto de 10 classes de tom emocional, e estima a probabilidade individual de cada uma. As classes de emoções reconhecidas pelo sistema são:

  • irritado, enojado, entusiasmado, surpreso, neutro, triste, ansioso, frustrado, amedrontado, feliz.

No entanto, sabemos que a análise do resultado dessa classificação é subjetiva e sujeita a controvérsias, e com isso algumas classificações são mais ou menos “confiáveis”. A relação acima está ordenada por ordem crescente de “confiabilidade”, ou seja, o score para irritado é mais confiável que o de feliz.

Para minimizar o problema da confiabilidade na classificação, é possível utilizar um modelo simplificado, onde as classes são organizadas em grupos menores e mais intuitivos. Os grupos de classes emocionais simplificadas são:

  • negativo ativado: irritado

  • negativo (desativado): triste, frustrado, enojado

  • neutro:neutro, amedrontado

  • positivo: feliz, entusiasmado, surpreso, ansioso