Servidor CPqD MRCP com o Asterisk 13¶

Para integrar o Servidor CPqD MRCP com o Asterisk 13 utilizamos o protocolo MRCP. O cliente Asterisk-UniMRCP implementa esse protocolo. Siga os passo abaixo para instalação e configuração:

Instalação¶

Para que o Asterisk funcione corretamente com o Servidor MRCP do CPqD, é preciso instalar os seguintes softwares no ambiente que servirá como Cliente MRCP. São estes:

Asterisk 13

UniMRCP 1.5 e UniMRCP Deps 1.5 <https://www.unimrcp.org/index.php/solutions/client>

Asterisk-UniMRCP https://www.unimrcp.org/asterisk

Para testar se o cliente UniMRCP está instalado corretamente, reinicie o asterisk e na interface de comando (CLI) digite:

*CLI> module show like res_speech_unimrcp.so

Module                 Description                Use Count
res_speech_unimrcp.so  UniMRCP Speech Engine      0
1  modules loaded

*CLI> module show like app_unimrcp.so

Module                 Description                Use Count
app_unimrcp.so         MRCP suite of applications 0
1 modules loaded

Configuração do Asterisk¶

O Asterisk-UniMRCP possui dois módulos para comunicação com o MRCP Server:

res_speech_unimrcp: Integração através da Generic Speech Recognition API do Asterisk.

app_unimrcp: Uma aplicação para ser usada no dialplan do Asterisk.

Nota

Não é necessário a configuração e instalação dos dois modulos para comunicação com MRCP Server.

Segue o procedimento de configuração de cada modulo:

res_speech_unimrcp.so¶

Adicione as seguintes informações no arquivo: /etc/asterisk/resspeechunimrcp.conf

unimrcp­-profile = cpqd-mrcp­v2 ; CPqD MRCPv2 Server
unimrcp-­profile = cpqd­-mrcp­v1 ; CPqD MRCPv1 Server

Crie o arquivo /usr/local/unimrcp/conf/client-profiles/cpqd.xml com o seguinte conteúdo:

<?xml version="1.0" encoding="UTF-8"?>
<!-- UniMRCP client document -->
<unimrcpclient xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
              version="1.0">
  <settings>
    <!-- SIP MRCPv2 settings -->
    <sip-settings id="UniMRCP-SIP-Settings">
      <server-ip>_SEVER_IP_</server-ip>
      <server-port>8060</server-port>
    </sip-settings>

    <!-- RTSP MRCPv1 settings -->
    <rtsp-settings id="UniMRCP-RTSP-Settings">
      <server-ip>_SEVER_IP_</server-ip>
      <server-port>1554</server-port>
      <resource-location>media</resource-location>
      <resource-map>
        <param name="speechrecog" value="speechrecognizer"/>
        <param name="speechsynth" value="speechsynthesizer"/>
      </resource-map>
    </rtsp-settings>
  </settings>

  <profiles>
      <!-- CPqD MRCPv2 profile -->
      <mrcpv2-profile id="cpqd-mrcp-v2">
        <sip-uac>SIP-Agent-1</sip-uac>
        <mrcpv2-uac>MRCPv2-Agent-1</mrcpv2-uac>
        <media-engine>Media-Engine-1</media-engine>
        <rtp-factory>RTP-Factory-1</rtp-factory>
        <sip-settings>UniMRCP-SIP-Settings</sip-settings>
        <rtp-settings>RTP-Settings-1</rtp-settings>
      </mrcpv2-profile>

      <!-- CPqD MRCPv1 profile -->
      <mrcpv1-profile id="cpqd-mrcp-v1">
        <rtsp-uac>RTSP-Agent-1</rtsp-uac>
        <media-engine>Media-Engine-1</media-engine>
        <rtp-factory>RTP-Factory-1</rtp-factory>
        <rtsp-settings>UniMRCP-RTSP-Settings</rtsp-settings>
        <rtp-settings>RTP-Settings-1</rtp-settings>
      </mrcpv1-profile>
    </profiles>
  </unimrcpclient>

app_unimrcp.so¶

Edite o arquivo /etc/asterisk/mrcp.conf conforme o exemplo abaixo:

[general]
; Default ASR and TTS profiles.
default­-asr-­profile = speech­-cpqd­-mrcp2
default-­tts-­profile = speech­-cpqd­-mrcp2

;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;
; Profile for CPqD Speech Server MRCPv2
;
[speech-cpqd-mrcp2]
; MRCP settings
version = 2
;
; SIP settings
server-ip = <CPqD MRCP Server IP>
server-port = 8060
;
; SIP user agent
client-ip = <MRCP Client IP>
client-port = 8093
; SIP transport either UDP or TCP.
sip-transport = udp
;
; RTP factory
rtp-ip =  <MRCP Client IP>
rtp-port-min = 4000
rtp-port-max = 5000
;
; Jitter buffer settings
playout-delay = 50
max-playout-delay = 200
;
; RTP settings
ptime = 20
codecs = PCMU PCMA L16/96/8000 telephone-event/101/8000
;
; RTCP settings
rtcp = 0
;rtcp = 1
;rtcp-bye = 2
;rtcp-tx-interval = 5000
;rtcp-rx-resolution = 1000

;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;
; Profile for CPqD Speech Server MRCPv1
;
[speech-cpqd-mrcp1]
; MRCP settings
version = 1
;
; RTSP settings
server-ip = <CPqD MRCP Server IP>
server-port = 1554
resource-location = media
speechsynth = speechsynthesizer
speechrecog = speechrecognizer
;
; RTP factory
rtp-ip = <MRCP Client IP>
rtp-port-min = 4000
rtp-port-max = 5000
;
; Jitter buffer settings
playout-delay = 50
max-playout-delay = 200
;
; RTP settings
ptime = 20
codecs = PCMU PCMA L16/96/8000 telephone-event/101/8000
;
; RTCP settings
rtcp = 0
;rtcp = 1
;rtcp-bye = 2
;rtcp-tx-interval = 5000
;rtcp-rx-resolution = 1000

Aplicação Diaplan¶

SynthAndRecog¶

Essa aplicação sintetiza uma frase e aguarda por um reconhecimento de fala. Estabelece duas sessões com o servidor MRCP. Uma para reconhecimento de fala e outra sessão para Sintese de fala.

Sintaxe:

SynthAndRecog (prompt, gramática, paramêtros)
prompt: Texto ou SSML a ser sintetizado.

gramática: Gramatica inline, builtin ou uma URI para gramática externa.

parâmetros suportados:

p: espeficação do perfil no arquivo mrcp.conf

t: recognition timeout

Tempo máximo de espera pelo resultado do reconhecimento em milisegundos.

b: bargein

Se habilitado (=1) interrompe a síntese quando detecta inicio de fala.

gd: grammar delimiters

Delimitador de gramática. Valor padrão é “,”.

ct: confidence threshold

Valor mínimo da pontuação (score) de confiança do reconhecimento, para que ele seja considerado válido. Valores entre 0.0 e 1.0.

nb: n-best list length

Número de resultados que serão retornados.

nit: no input timeout

Tempo máximo de espera pelo início da fala em milisegundos.

sct: speech complete timeout

Duração do silêncio dentro do áudio para a detecção do fim da fala (em milisegundos).

dit: DTMF interdigit timeout

Tempo para aguardar o próximo dígito DTMF.

dtt:DTMF terminate timout (msec)

Não implementado.

dttc: DTMF terminate character

Caractere esperado para finalizar a detecção do DTMF.

pv: prosody volume

Altera o volume da fala para o texto em questão.

pr: prosody rate

Altera a velocidade da fala para o texto em questão.

vn: voice name

Seleciona a voz a qual o texto será sintetizada.

uer: URI-encoded results

Resultados serão codificados. Use o valor 1 para codificar os resultados, e 0 para desabilitar.

od: Output delimiters

Delimitador do resultado, Valor padão “^”.

sit: Start input timers value

Controla o comportamento do “start-input-timers”. Use 0 para desabilitar, 1 para iniciar no RECOGNIZE, 2 para iniciar no fim do prompt.

parâmetros não implementados:

sint: speech incomplete timeout

sl: sensitivity level

sva: speed versus accuracy

sw: save waveform (true/false)

nac: new audio channel

spl: speech language

rm: recognition mode

hmaxd: hotword max duration

hmind: hotword min duration

cdb: clear DTMF buffer

enm: early no match

iwu: input waveform URI

mt: media type

vg: voice gender

vv: voice variant

a: voice age

retorno/resultados:

${RECOG_STATUS}

OK: Se reconhecimento finalizou.

ERROR: Se o reconhecimento não pode ser iniciado.

INTERRUPTED: Se a ligação caiu enquanto o reconhecimento estava em andamento.

${RECOG_COMPLETION_CAUSE}

«000»: success

«001»: nomatch

«002»: noinput

${RECOG_RESULT}

resultado do reconhecimento em formato NLSML. Apenas se o resultado do reconhecimento foi concluído com sucesso.

${RECOG_CONFIDENCE}

valor do indice de confiaça para o reconhecimento.

${RECOG_GRAMMAR}

gramatica que foi ativada no reconhecimento.

${RECOG_INPUT}

retorna o texto reconhecido.

${RECOG_INSTANCE}

retorna a instância interpretada.

DTMF¶

Para usar o reconhecedor DTMF do MRCP, é necessário inserir no campo de gramática (corpo da mensagem RECOGNIZE), a URI

builtin:dtmf/digits
Nota

A gramática «dtmf/digits» é nativa do plugin MRCP ASR e não é necessário criá-la no Servidor ASR.

São permitidos dois parâmetros no reconhecedor DTMF:

dit: DTMF interdigit timeout (msec)

dttc: DTMF terminate characters

Para especificar a quantidade máxima de dígitos, utiliza-se a sintaxe: ?length=N.

Exemplos de dialplan do Asterisk¶

Nota

Para utilizar os exemplos que seguem, o modulo app_unimrcp.so deve estar instalado e configurado.

Este exemplo demonstra como usar a aplicação SynthAndRecog() com uma síntese de voz em texto plano e uma gramática builtin.

[mrcp-synth-recog-­app1]
exten => s,1,Answer
exten => s,n,SynthAndRecog("Bem vindo ao CPqD!", "builtin:slm/general", t=5000)
exten => s,n,Verbose(1, ${RECOG_STATUS}, ${RECOG_COMPLETION_CAUSE}, ${RECOG_RESULT})
exten => s,n,Hangup

Este exemplo demonstra como usar a aplicação MRCPRecog() com uma gramática builtin de códigos (CPF, CNPJ, …) para fala.

[mrcp-recog­-app1]
exten => s,1,Answer
exten => s,n,MRCPRecog(builtin:grammar/code, p=default)
exten => s,n,Verbose(1, ${RECOGSTATUS}, ${RECOG_COMPLETION_CAUSE}, ${RECOG_RESULT})
exten => s,n,Hangup

Este exemplo demonstra como usar a aplicação MRCPSynth com texto plano e MRCP profile padrão.

[mrcp-synth­-app1]
exten => s,1,Answer
exten => s,n,MRCPSynth("Bem vindo ao CPqD!", p=default)
exten => s,n,Verbose(1, ${SYNTHSTATUS})
exten => s,n,Hangup

Recochecimento de fala ou DTMF limitando em 11 dígitios, e com o Barge-in desabilitado
```
exten => s,n,SynthAndRecog("Digite ou fale o seu CPF.", "builtin:grammar/code,builtin:dtmf/digits?length=11", t=5000&b=0&sit=1&nit=3000&dit=3500&dttc=#)
```
Os paramêtros utilizados nesse exemplos são:
- length=11: Aguarda até 11 dígitos DTMF.
- t=5000: Aguarda até 5 segundos pelo reconhecimento de fala.
- b=0: barge-in desabilitado.
- sit=1: Inicia os timers no fim do prompt.
- nit=3000: Aguarda até 3 segundos para detectar inicio de fala.
- dit=3500: Aguarda 3.5 segundos entre dígitos DTMF.
- dttc=#: Utiliza o caractere “#” para indicar fim da entrada de DTMF.
Recochecimento de fala ou DTMF limitando em 11 dígitios, com o Barge-in habilitado
```
exten => s,n,SynthAndRecog("Digite ou fale o seu CPF.", "builtin:grammar/code,builtin:dtmf/digits?length=11", t=5000&b=1&sit=2&nit=3000&dit=3500&dttc=#)
```
Os paramêtros utilizados nesse exemplos são:
- length=11: Aguarda até 11 dígitos DTMF.
- t=5000: Aguarda 5 segundos pelo reconhecimento de fala.
- b=1: barge-in habilitado.
- sit=2: Inicia os timers ao enviar o RECOGNIZE.
- nit=3000: Aguarda 3 segundos para detectar inicio de fala.
- dit=3500: Aguarda 3.5 segundos entre dígitos DTMF.
- dttc=#: Utiliza o caractere “#” para indicar fim da entrada de DTMF.
Recochecimento de fala ou DTMF limitando em 2 dígitios, e Barge-in habilitado
```
exten => s,n,SynthAndRecog("Digite ou fale sua idade.", "builtin:grammar/number,builtin:dtmf/digits?length=2", t=5000&b=1&sit=2&nit=3000&dit=3500&dttc=#)
```
Os paramêtros utilizados nesse exemplos são:
- length=11: Aguarda até 2 dígitos DTMF.
- t=5000: Aguarda 5 segundos pelo reconhecimento de fala.
- b=1: barge-in habilitado.
- sit=2: Inicia os timers ao enviar o RECOGNIZE.
- nit=3000: Aguarda 3 segundos para detectar inicio de fala.
- dit=3500: Aguarda 3.5 segundos entre dígitos DTMF.
- dttc=#: Utiliza o caractere “#” para indicar fim da entrada de DTMF.

Monitoramento¶

Para fazer o «rastreamento» das ligações entre Asterisk (URA) -> MRCP -> ASR:

Habilitar o tuning log do ASR.
Utilizar no log do Asterisk o channel-identifier.
No log do MRCP usar o channel-identifier e session-id (cruzar as informações).
Procurar no tuning-log o session-id correspondente.
O tuning log contém o áudio no formato pcm (RAW) e o resultado do reconhecimento.