Diarização de Locutor¶

A diarização de locutor pode reconhecer mais de um locutor em um arquivo de áudio. Por padrão a diarização de locutor é habilitado na Transcrição de Diálogos. O recurso de diarização de locutor, identifica por um rotulo speaker o locutor de cada segmento de áudio. Exemplo de resultado:

{
  "segments": [
    {
      "channel": 1,
      "speaker": "1"
    },
    {
      "channel": 1,
      "speaker": "2"
    }
  ]
}

Multi-canais¶

Quando trabalha com arquivos de mais de um canal, a diarização de locutor tenta identificar em cada canal os locutores presentes.

Em cenários que sabemos a quantidade de locutores, podemos informar o número de locutores via api, por exemplo:

Diarização v1:

{
  "diarization": {
    "clustering": {
      "speakers": 2
    }
  }
}

Diarização v2:

{
    "diarization": {
        "num_speakers": 2
    }
}

Neste exemplo acima, a diarização de locutor tentara identificar 2 locutores em cada canal de áudio.

Nota

Dica: se o arquivo de áudio tem dois canais, com um locutor em cada canal, podemos usar o parâmetro speakers ou num_speakers com valor 1 para uma melhor acurácia.

Para a diarização v2, ainda é possível configurar a quantidade mínima e máxima de locutores de cada canal, por exemplo:

{
    "diarization": {
        "min_speakers": 2,
        "min_speakers": 4
    }
}