Interface MRCP para TTS¶
Campos de cabeçalho para Síntese¶
A tabela abaixo descreve os campos de cabeçalho disponíveis no Servidor MRCP do CPqD para o recurso de ASR. Os métodos estão divididos em dois grupos:
- «Requisição»
- Significa que a mensagem será trocada no sentido Cliente -> Servidor
- «Resposta»
- Significa que a mensagem será trocada no sentido Servidor -> Cliente
Header | MRCP v1 | MRCP v2 | PARAMS | Eventos | Métodos | |
---|---|---|---|---|---|---|
SET/GET | Requisição | Resposta | ||||
Completion-Cause | X | X | NÃO | SPEAK-COMPLETE | - | - |
Voice-Name | X | X | SIM | - | SPEAK | - |
Prosody-Rate | X | X | SIM | - | SPEAK | - |
Prosody-Volume | X | X | SIM | - | SPEAK | - |
Kill-On-Barge-In | X | X | SIM | - | SPEAK | - |
Parâmetros de Configuração¶
Os parâmetros abaixo descritos podem ser configurados via SET-PARAMS (válido para toda a sessão) e SPEAK (válido somente para a Síntese em questão).
- Voice-Name
Solicita ao recurso provedor de Síntese que o texto em questão seja sintetizado por uma voz específica.
- Domínio
- Cadeia de caracteres. Pode ser uma lista de nomes separada por espaço e ordenada por preferência. Consequentemente, o nome da voz não pode conter espaço. Caso não seja configurado, o recurso de síntese usará seu respectivo valor padrão.
- Prosody-Rate
Altera a velocidade da fala para o texto em questão.
- Domínio
Os valores permitidos são: - Uma porcentagem não negativa: atua como um multiplicador da taxa padrão - Um dos seguintes rótulos, que representam uma sequência de taxas de fala monotonicamente não decrescentes:
x-slow slow medium fast x-fast default
- Prosody-Volume
Altera o volume da fala para o texto em questão.
- Domínio
Os valores permitidos são: - Um número precedido por
+
ou-
e suscedido pordB
- Um dos seguintes rótulos, que representam uma sequência de níveis de volume monotonicamente não decrescentes.silent x-soft soft medium loud x-loud default O valor padrão é:
+0.0dB
. Quando o valor é um número com sinal (dB), ele especifica a razão dos quadrados da nova amplitudea1
e a amplitude atuala0
, e é definido em dB:Perceba que todo valor numérico é relativo ao nível atual de volume e eles sempre possuem sinal (inclusive o zero).
Dica
O comportamento desse atributo para um valor definido por rótulo difere de valor definido por número (dB). Um valor numérico altera diretamente a forma de onda, enquanto um valor definido por rótulo pode resultar em alterações prosódicas que representam mais fielmente como um humano alteraria o volume de sua fala.
- Kill-On-Barge-In
Interrompe a síntese caso seja detectado a intenção de interação por parte do usuário. Caso habilitado, o método SPEAK é interrompido por detecção de: DTMF ou START-OF-INPUT no Reconhecimento de Fala, caso o mesmo esteja habilitado.
- Domínio
- Booleano (valor default = true)
Completion-Cause¶
Descrição do Completion-Cause para o evento SPEAK-COMPLETE
MRCP v1 | MRCP v2 | Descrição |
---|---|---|
000 | 000 | NORMAL: A síntese ocorreu sem problemas |
001 | 001 | BARGE-IN: A síntese foi interrompida por bargein |
004 | 004 | ERRO: A síntese não foi executada com sucesso |
005 | 005 | LANGUAGE-UNSUPPORTED: A língua solicitada não é suportada |
Métodos Disponíveis¶
O Servidor CPqD MRCP para TTS suporta as seguintes mensagens:
Métodos | MRCP v1 | MRCP v2 | Servidor CPqD | Descrição |
---|---|---|---|---|
SET-PARAMS | X | X | X | Configura parâmetros da Síntese para toda a sessão |
GET-PARAMS | X | X | X | Recupera valores dos parâmetros da Síntese no instante da chamada |
SPEAK | X | X | X | Inicializa a Síntese de fala e fornece o streaming de áudio |
PAUSE | X | X | X | Pausa a síntese em andamento |
RESUME | X | X | X | Retoma a síntese pausada |
STOP | X | X | X | Cancela a síntese em andamento |
Eventos Disponíveis¶
Os eventos do ASR estão descritos na tabela abaixo:
Métodos | MRCP v1 | MRCP v2 | Servidor CPqD | Descrição |
---|---|---|---|---|
BARGE-IN-OCCURRED | X | X | X | Sinaliza a ocrrência de Barge-In para o Sintetizador |
SPEAK-COMPLETE | X | X | X | Sinaliza que a Síntese foi finalizada |