Servidor CPqD MRCP com o Asterisk 13

Para integrar o Servidor CPqD MRCP com o Asterisk 13 utilizamos o protocolo MRCP. O cliente Asterisk-UniMRCP implementa esse protocolo. Siga os passo abaixo para instalação e configuração:

Instalação

Para que o Asterisk funcione corretamente com o Servidor MRCP do CPqD, é preciso instalar os seguintes softwares no ambiente que servirá como Cliente MRCP. São estes:

Para testar se o cliente UniMRCP está instalado corretamente, reinicie o asterisk e na interface de comando (CLI) digite:

*CLI> module show like res_speech_unimrcp.so

Module                 Description                Use Count
res_speech_unimrcp.so  UniMRCP Speech Engine      0
1  modules loaded

*CLI> module show like app_unimrcp.so

Module                 Description                Use Count
app_unimrcp.so         MRCP suite of applications 0
1 modules loaded

Configuração do Asterisk

O Asterisk-UniMRCP possui dois módulos para comunicação com o MRCP Server:

  • res_speech_unimrcp: Integração através da Generic Speech Recognition API do Asterisk.
  • app_unimrcp: Uma aplicação para ser usada no dialplan do Asterisk.

Nota

Não é necessário a configuração e instalação dos dois modulos para comunicação com MRCP Server.

Segue o procedimento de configuração de cada modulo:

res_speech_unimrcp.so

  1. Adicione as seguintes informações no arquivo: /etc/asterisk/res-speech-unimrcp.conf

    unimrcp­-profile = cpqd-mrcp­v2 ; CPqD MRCPv2 Server
    unimrcp-­profile = cpqd­-mrcp­v1 ; CPqD MRCPv1 Server
    
  2. Crie o arquivo /usr/local/unimrcp/conf/client­-profiles/cpqd.xml com o seguinte conteúdo:

    <?xml version="1.0" encoding="UTF-8"?>
    <!-- UniMRCP client document -->
    <unimrcpclient xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
                  version="1.0">
      <settings>
        <!-- SIP MRCPv2 settings -->
        <sip-settings id="UniMRCP-SIP-Settings">
          <server-ip>_SEVER_IP_</server-ip>
          <server-port>8060</server-port>
        </sip-settings>
    
        <!-- RTSP MRCPv1 settings -->
        <rtsp-settings id="UniMRCP-RTSP-Settings">
          <server-ip>_SEVER_IP_</server-ip>
          <server-port>1554</server-port>
          <resource-location>media</resource-location>
          <resource-map>
            <param name="speechrecog" value="speechrecognizer"/>
            <param name="speechsynth" value="speechsynthesizer"/>
          </resource-map>
        </rtsp-settings>
      </settings>
    
      <profiles>
          <!-- CPqD MRCPv2 profile -->
          <mrcpv2-profile id="cpqd-mrcp-v2">
            <sip-uac>SIP-Agent-1</sip-uac>
            <mrcpv2-uac>MRCPv2-Agent-1</mrcpv2-uac>
            <media-engine>Media-Engine-1</media-engine>
            <rtp-factory>RTP-Factory-1</rtp-factory>
            <sip-settings>UniMRCP-SIP-Settings</sip-settings>
            <rtp-settings>RTP-Settings-1</rtp-settings>
          </mrcpv2-profile>
    
          <!-- CPqD MRCPv1 profile -->
          <mrcpv1-profile id="cpqd-mrcp-v1">
            <rtsp-uac>RTSP-Agent-1</rtsp-uac>
            <media-engine>Media-Engine-1</media-engine>
            <rtp-factory>RTP-Factory-1</rtp-factory>
            <rtsp-settings>UniMRCP-RTSP-Settings</rtsp-settings>
            <rtp-settings>RTP-Settings-1</rtp-settings>
          </mrcpv1-profile>
        </profiles>
      </unimrcpclient>
    

app_unimrcp.so

  1. Edite o arquivo /etc/asterisk/mrcp.conf conforme o exemplo abaixo:

    [general]
    ; Default ASR and TTS profiles.
    default­-asr-­profile = speech­-cpqd­-mrcp2
    default-­tts-­profile = speech­-cpqd­-mrcp2
    
    ;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;
    ; Profile for CPqD Speech Server MRCPv2
    ;
    [speech-cpqd-mrcp2]
    ; MRCP settings
    version = 2
    ;
    ; SIP settings
    server-ip = <CPqD MRCP Server IP>
    server-port = 8060
    ;
    ; SIP user agent
    client-ip = <MRCP Client IP>
    client-port = 8093
    ; SIP transport either UDP or TCP.
    sip-transport = udp
    ;
    ; RTP factory
    rtp-ip =  <MRCP Client IP>
    rtp-port-min = 4000
    rtp-port-max = 5000
    ;
    ; Jitter buffer settings
    playout-delay = 50
    max-playout-delay = 200
    ;
    ; RTP settings
    ptime = 20
    codecs = PCMU PCMA L16/96/8000 telephone-event/101/8000
    ;
    ; RTCP settings
    rtcp = 0
    ;rtcp = 1
    ;rtcp-bye = 2
    ;rtcp-tx-interval = 5000
    ;rtcp-rx-resolution = 1000
    
    ;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;
    ; Profile for CPqD Speech Server MRCPv1
    ;
    [speech-cpqd-mrcp1]
    ; MRCP settings
    version = 1
    ;
    ; RTSP settings
    server-ip = <CPqD MRCP Server IP>
    server-port = 1554
    resource-location = media
    speechsynth = speechsynthesizer
    speechrecog = speechrecognizer
    ;
    ; RTP factory
    rtp-ip = <MRCP Client IP>
    rtp-port-min = 4000
    rtp-port-max = 5000
    ;
    ; Jitter buffer settings
    playout-delay = 50
    max-playout-delay = 200
    ;
    ; RTP settings
    ptime = 20
    codecs = PCMU PCMA L16/96/8000 telephone-event/101/8000
    ;
    ; RTCP settings
    rtcp = 0
    ;rtcp = 1
    ;rtcp-bye = 2
    ;rtcp-tx-interval = 5000
    ;rtcp-rx-resolution = 1000
    

Aplicação Diaplan

SynthAndRecog

Essa aplicação sintetiza uma frase e aguarda por um reconhecimento de fala. Estabelece duas sessões com o servidor MRCP. Uma para reconhecimento de fala e outra sessão para Sintese de fala.

Sintaxe:

SynthAndRecog (prompt, gramática, paramêtros)
  • prompt: Texto ou SSML a ser sintetizado.

  • gramática: Gramatica inline, builtin ou uma URI para gramática externa.

  • parâmetros suportados:
    • p: espeficação do perfil no arquivo mrcp.conf
    • t: recognition timeout
      • Tempo máximo de espera pelo resultado do reconhecimento em milisegundos.
    • b: bargein
      • Se habilitado (=1) interrompe a síntese quando detecta inicio de fala.
    • gd: grammar delimiters
      • Delimitador de gramática. Valor padrão é “,”.
    • ct: confidence threshold
      • Valor mínimo da pontuação (score) de confiança do reconhecimento, para que ele seja considerado válido. Valores entre 0.0 e 1.0.
    • nb: n-best list length
      • Número de resultados que serão retornados.
    • nit: no input timeout
      • Tempo máximo de espera pelo início da fala em milisegundos.
    • sct: speech complete timeout
      • Duração do silêncio dentro do áudio para a detecção do fim da fala (em milisegundos).
    • dit: DTMF interdigit timeout
      • Tempo para aguardar o próximo dígito DTMF.
    • dtt:DTMF terminate timout (msec)
      • Não implementado.
    • dttc: DTMF terminate character
      • Caractere esperado para finalizar a detecção do DTMF.
    • pv: prosody volume
      • Altera o volume da fala para o texto em questão.
    • pr: prosody rate
      • Altera a velocidade da fala para o texto em questão.
    • vn: voice name
      • Seleciona a voz a qual o texto será sintetizada.
    • uer: URI-encoded results
      • Resultados serão codificados. Use o valor 1 para codificar os resultados, e 0 para desabilitar.
    • od: Output delimiters
      • Delimitador do resultado, Valor padão “^”.
    • sit: Start input timers value
      • Controla o comportamento do “start-input-timers”. Use 0 para desabilitar, 1 para iniciar no RECOGNIZE, 2 para iniciar no fim do prompt.
  • parâmetros não implementados:
    • sint: speech incomplete timeout
    • sl: sensitivity level
    • sva: speed versus accuracy
    • sw: save waveform (true/false)
    • nac: new audio channel
    • spl: speech language
    • rm: recognition mode
    • hmaxd: hotword max duration
    • hmind: hotword min duration
    • cdb: clear DTMF buffer
    • enm: early no match
    • iwu: input waveform URI
    • mt: media type
    • vg: voice gender
    • vv: voice variant
    • a: voice age
  • retorno/resultados:

    • ${RECOG_STATUS}
      • OK: Se reconhecimento finalizou.
      • ERROR: Se o reconhecimento não pode ser iniciado.
      • INTERRUPTED: Se a ligação caiu enquanto o reconhecimento estava em andamento.
    • ${RECOG_COMPLETION_CAUSE}
      • «000»: success
      • «001»: nomatch
      • «002»: noinput
    • ${RECOG_RESULT}
      • resultado do reconhecimento em formato NLSML. Apenas se o resultado do reconhecimento foi concluído com sucesso.
    • ${RECOG_CONFIDENCE}
      • valor do indice de confiaça para o reconhecimento.
    • ${RECOG_GRAMMAR}
      • gramatica que foi ativada no reconhecimento.
    • ${RECOG_INPUT}
      • retorna o texto reconhecido.
    • ${RECOG_INSTANCE}
      • retorna a instância interpretada.

DTMF

Para usar o reconhecedor DTMF do MRCP, é necessário inserir no campo de gramática (corpo da mensagem RECOGNIZE), a URI

builtin:dtmf/digits

Nota

A gramática «dtmf/digits» é nativa do plugin MRCP ASR e não é necessário criá-la no Servidor ASR.

São permitidos dois parâmetros no reconhecedor DTMF:

  • dit: DTMF interdigit timeout (msec)
  • dttc: DTMF terminate characters

Para especificar a quantidade máxima de dígitos, utiliza-se a sintaxe: ?length=N.

Exemplos de dialplan do Asterisk

Nota

Para utilizar os exemplos que seguem, o modulo app_unimrcp.so deve estar instalado e configurado.

  1. Este exemplo demonstra como usar a aplicação SynthAndRecog() com uma síntese de voz em texto plano e uma gramática built­in.

    [mrcp-synth-recog-­app1]
    exten => s,1,Answer
    exten => s,n,SynthAndRecog("Bem vindo ao CPqD!", "builtin:slm/general", t=5000)
    exten => s,n,Verbose(1, ${RECOG_STATUS}, ${RECOG_COMPLETION_CAUSE}, ${RECOG_RESULT})
    exten => s,n,Hangup
    
  2. Este exemplo demonstra como usar a aplicação MRCPRecog() com uma gramática built­in de códigos (CPF, CNPJ, …) para fala.

    [mrcp-recog­-app1]
    exten => s,1,Answer
    exten => s,n,MRCPRecog(builtin:grammar/code, p=default)
    exten => s,n,Verbose(1, ${RECOGSTATUS}, ${RECOG_COMPLETION_CAUSE}, ${RECOG_RESULT})
    exten => s,n,Hangup
    
  3. Este exemplo demonstra como usar a aplicação MRCPSynth com texto plano e MRCP profile padrão.

    [mrcp-synth­-app1]
    exten => s,1,Answer
    exten => s,n,MRCPSynth("Bem vindo ao CPqD!", p=default)
    exten => s,n,Verbose(1, ${SYNTHSTATUS})
    exten => s,n,Hangup
    
  4. Recochecimento de fala ou DTMF limitando em 11 dígitios, e com o Barge-in desabilitado

    exten => s,n,SynthAndRecog("Digite ou fale o seu CPF.", "builtin:grammar/code,builtin:dtmf/digits?length=11", t=5000&b=0&sit=1&nit=3000&dit=3500&dttc=#)
    

    Os paramêtros utilizados nesse exemplos são:

    • length=11: Aguarda até 11 dígitos DTMF.
    • t=5000: Aguarda até 5 segundos pelo reconhecimento de fala.
    • b=0: barge-in desabilitado.
    • sit=1: Inicia os timers no fim do prompt.
    • nit=3000: Aguarda até 3 segundos para detectar inicio de fala.
    • dit=3500: Aguarda 3.5 segundos entre dígitos DTMF.
    • dttc=#: Utiliza o caractere “#” para indicar fim da entrada de DTMF.
  5. Recochecimento de fala ou DTMF limitando em 11 dígitios, com o Barge-in habilitado

    exten => s,n,SynthAndRecog("Digite ou fale o seu CPF.", "builtin:grammar/code,builtin:dtmf/digits?length=11", t=5000&b=1&sit=2&nit=3000&dit=3500&dttc=#)
    

    Os paramêtros utilizados nesse exemplos são:

    • length=11: Aguarda até 11 dígitos DTMF.
    • t=5000: Aguarda 5 segundos pelo reconhecimento de fala.
    • b=1: barge-in habilitado.
    • sit=2: Inicia os timers ao enviar o RECOGNIZE.
    • nit=3000: Aguarda 3 segundos para detectar inicio de fala.
    • dit=3500: Aguarda 3.5 segundos entre dígitos DTMF.
    • dttc=#: Utiliza o caractere “#” para indicar fim da entrada de DTMF.
  6. Recochecimento de fala ou DTMF limitando em 2 dígitios, e Barge-in habilitado

    exten => s,n,SynthAndRecog("Digite ou fale sua idade.", "builtin:grammar/number,builtin:dtmf/digits?length=2", t=5000&b=1&sit=2&nit=3000&dit=3500&dttc=#)
    

    Os paramêtros utilizados nesse exemplos são:

    • length=11: Aguarda até 2 dígitos DTMF.
    • t=5000: Aguarda 5 segundos pelo reconhecimento de fala.
    • b=1: barge-in habilitado.
    • sit=2: Inicia os timers ao enviar o RECOGNIZE.
    • nit=3000: Aguarda 3 segundos para detectar inicio de fala.
    • dit=3500: Aguarda 3.5 segundos entre dígitos DTMF.
    • dttc=#: Utiliza o caractere “#” para indicar fim da entrada de DTMF.

Monitoramento

Para fazer o «rastreamento» das ligações entre Asterisk (URA) -> MRCP -> ASR:
  • Habilitar o tuning log do ASR.
  • Utilizar no log do Asterisk o channel-identifier.
  • No log do MRCP usar o channel-identifier e session-id (cruzar as informações).
  • Procurar no tuning-log o session-id correspondente.
  • O tuning log contém o áudio no formato pcm (RAW) e o resultado do reconhecimento.