Funcionalidades¶
Dentre as diversas funcionalidades suportadas pelo ASR, destacam-se:
Entrada de áudio
Aceita áudio de entrada PCM Linear16 com taxa de 8 kHz, usado em telefonia, e 16 kHz, para aplicações com maior qualidade de áudio. Além disso, suporta vários formatos de áudio com e sem compressão: MP3, OPUS, VORBIS, PCM aLaw/uLaw, GSM, FLAC e WAV, lembrando que áudios com alta taxa de compressão pode afetar a acurácia do reconhecimento.
Reconhecimento em tempo real ou online
O áudio é processado à medida em que é recebido, diminuindo o tempo de produção do resultado final.
Reconhecimento em modo contínuo
O modo padrão de funcionamento do ASR é a detecção e o reconhecimento apenas da primeira frase do usuário. No reconhecimento em modo contínuo, o ASR permanece processando o áudio, gerando resultados de reconhecimento a medida que recebe o áudio.
Classificação de Emoções
Permite o reconhecimento do estado emocional do locutor a partir da voz. Considera um conjunto de 10 classes de tons emocionais, e estima a probabilidade individual de cada uma.
Classificação de Gênero e Idade
Permite o reconhecimento do gênero e da idade do locutor a partir da voz. Considera a classificação biológica masculina ou feminina para o reconhecimento de gênero, e a faixa etária de 0 a 100 anos para estimar a idade do locutor.
Para maiores detalhes sobre o ASR, consulte a página oficial do produto CPQD Reconhecimento de Fala.