Funcionalidades¶

Dentre as diversas funcionalidades suportadas pelo ASR, destacam-se:

Entrada de áudio

Aceita áudio de entrada PCM Linear16 com taxa de 8 kHz, usado em telefonia, e 16 kHz, para aplicações com maior qualidade de áudio. Além disso, suporta vários formatos de áudio com e sem compressão: MP3, OPUS, VORBIS, PCM aLaw/uLaw, GSM, FLAC e WAV, lembrando que áudios com alta taxa de compressão pode afetar a acurácia do reconhecimento.

Reconhecimento em tempo real ou online

O áudio é processado à medida em que é recebido, diminuindo o tempo de produção do resultado final.

Reconhecimento em modo contínuo

O modo padrão de funcionamento do ASR é a detecção e o reconhecimento apenas da primeira frase do usuário. No reconhecimento em modo contínuo, o ASR permanece processando o áudio, gerando resultados de reconhecimento a medida que recebe o áudio.

Classificação de Emoções

Permite o reconhecimento do estado emocional do locutor a partir da voz. Considera um conjunto de 10 classes de tons emocionais, e estima a probabilidade individual de cada uma.

Classificação de Gênero e Idade

Permite o reconhecimento do gênero e da idade do locutor a partir da voz. Considera a classificação biológica masculina ou feminina para o reconhecimento de gênero, e a faixa etária de 0 a 100 anos para estimar a idade do locutor.

Para maiores detalhes sobre o ASR, consulte a página oficial do produto CPQD Reconhecimento de Fala.