Interface MRCP para TTS¶

Campos de cabeçalho para Síntese¶

A tabela abaixo descreve os campos de cabeçalho disponíveis no Servidor MRCP do CPqD para o recurso de ASR. Os métodos estão divididos em dois grupos:

«Requisição»: Significa que a mensagem será trocada no sentido Cliente -> Servidor
«Resposta»: Significa que a mensagem será trocada no sentido Servidor -> Cliente

Header	MRCP v1	MRCP v2	PARAMS	Eventos	Métodos
			SET/GET		Requisição	Resposta
Completion-Cause	X	X	NÃO	SPEAK-COMPLETE	-	-
Voice-Name	X	X	SIM	-	SPEAK	-
Prosody-Rate	X	X	SIM	-	SPEAK	-
Prosody-Volume	X	X	SIM	-	SPEAK	-
Kill-On-Barge-In	X	X	SIM	-	SPEAK	-

Parâmetros de Configuração¶

Os parâmetros abaixo descritos podem ser configurados via SET-PARAMS (válido para toda a sessão) e SPEAK (válido somente para a Síntese em questão).

Voice-Name

Solicita ao recurso provedor de Síntese que o texto em questão seja sintetizado por uma voz específica.

Domínio: Cadeia de caracteres. Pode ser uma lista de nomes separada por espaço e ordenada por preferência. Consequentemente, o nome da voz não pode conter espaço. Caso não seja configurado, o recurso de síntese usará seu respectivo valor padrão.

Prosody-Rate

Altera a velocidade da fala para o texto em questão.

Domínio

Os valores permitidos são: - Uma porcentagem não negativa: atua como um multiplicador da taxa padrão - Um dos seguintes rótulos, que representam uma sequência de taxas de fala monotonicamente não decrescentes:

x-slow slow medium fast x-fast default

Prosody-Volume

Altera o volume da fala para o texto em questão.

Domínio

Os valores permitidos são: - Um número precedido por + ou - e suscedido por dB - Um dos seguintes rótulos, que representam uma sequência de níveis de volume monotonicamente não decrescentes.

silent x-soft soft medium loud x-loud default

O valor padrão é: +0.0dB. Quando o valor é um número com sinal (dB), ele especifica a razão dos quadrados da nova amplitude a1 e a amplitude atual a0, e é definido em dB: $volume(dB) = 20 log10 (a1 / a0)$ Perceba que todo valor numérico é relativo ao nível atual de volume e eles sempre possuem sinal (inclusive o zero).

Dica

O comportamento desse atributo para um valor definido por rótulo difere de valor definido por número (dB). Um valor numérico altera diretamente a forma de onda, enquanto um valor definido por rótulo pode resultar em alterações prosódicas que representam mais fielmente como um humano alteraria o volume de sua fala.

Kill-On-Barge-In

Interrompe a síntese caso seja detectado a intenção de interação por parte do usuário. Caso habilitado, o método SPEAK é interrompido por detecção de: DTMF ou START-OF-INPUT no Reconhecimento de Fala, caso o mesmo esteja habilitado.

Domínio: Booleano (valor default = true)

Completion-Cause¶

Descrição do Completion-Cause para o evento SPEAK-COMPLETE

MRCP v1	MRCP v2	Descrição
000	000	NORMAL: A síntese ocorreu sem problemas
001	001	BARGE-IN: A síntese foi interrompida por bargein
004	004	ERRO: A síntese não foi executada com sucesso
005	005	LANGUAGE-UNSUPPORTED: A língua solicitada não é suportada

Métodos Disponíveis¶

O Servidor CPqD MRCP para TTS suporta as seguintes mensagens:

Métodos	MRCP v1	MRCP v2	Servidor CPqD	Descrição
SET-PARAMS	X	X	X	Configura parâmetros da Síntese para toda a sessão
GET-PARAMS	X	X	X	Recupera valores dos parâmetros da Síntese no instante da chamada
SPEAK	X	X	X	Inicializa a Síntese de fala e fornece o streaming de áudio
PAUSE	X	X	X	Pausa a síntese em andamento
RESUME	X	X	X	Retoma a síntese pausada
STOP	X	X	X	Cancela a síntese em andamento

Eventos Disponíveis¶

Os eventos do ASR estão descritos na tabela abaixo:

Métodos	MRCP v1	MRCP v2	Servidor CPqD	Descrição
BARGE-IN-OCCURRED	X	X	X	Sinaliza a ocrrência de Barge-In para o Sintetizador
SPEAK-COMPLETE	X	X	X	Sinaliza que a Síntese foi finalizada