Diarização de Locutor¶
A diarização de locutor pode reconhecer mais de um locutor em um arquivo de áudio. Por padrão a diarização de locutor é habilitado na Transcrição de Diálogos. O recurso de diarização de locutor, identifica por um rotulo speaker o locutor de cada segmento de áudio. Exemplo de resultado:
{ "segments": [ { "channel": 1, "speaker": "1" }, { "channel": 1, "speaker": "2" } ] }
Multi-canais¶
Quando trabalha com arquivos de mais de um canal, a diarização de locutor tenta identificar em cada canal os locutores presentes.
Em cenários que sabemos a quantidade de locutores, podemos informar o número de locutores via api, por exemplo:
Diarização v1:
{ "diarization": { "clustering": { "speakers": 2 } } }
Diarização v2:
{ "diarization": { "num_speakers": 2 } }
Neste exemplo acima, a diarização de locutor tentara identificar 2 locutores em cada canal de áudio.
Nota
Dica: se o arquivo de áudio tem dois canais, com um locutor em cada canal, podemos usar o parâmetro speakers ou num_speakers com valor 1 para uma melhor acurácia.
Para a diarização v2, ainda é possível configurar a quantidade mínima e máxima de locutores de cada canal, por exemplo:
{ "diarization": { "min_speakers": 2, "min_speakers": 4 } }