Parâmetros da Diarização de Locutor versão v2

Nota

A configuração da Diarização de Locutor v2 deve ser realizada exclusivamente com json.

diarization.enabled

Descrição: Configura a versão da diarização a ser utilizada.

Valores: Valor (string) «v1» ou «v2». Valor padrão: «v1».

Exemplo:

{
    "diarization": {
        "version": "v2"
    }
}

diarization.num_speakers

Descrição: Número de locutores em cada canal do arquivo de áudio.

Valores: Número (int). Valor padrão: Null

Exemplo:

{
    "diarization": {
        "num_speakers": 2
    }
}

diarization.min_speakers

Descrição: Número mínimo de locutores em cada canal do arquivo de áudio.

Valores: Número (int). Valor padrão: Null

Exemplo:

{
    "diarization": {
        "min_speakers": 2
    }
}

diarization.max_speakers

Descrição: Número máximo de locutores em cada canal do arquivo de áudio.

Valores: Número (int). Valor padrão: Null

Exemplo:

{
    "diarization": {
        "min_speakers": 4
    }
}

diarization.head_margin

Descrição: Margem que será adiciona no inicio da detecção de fala de cada segmento.

Valores: Número em segundos (float). Valor padrão 0.0.

Exemplo:

{
    "diarization": {
        "head_margin": 0.2
    }
}

diarization.tail_margin

Descrição: Margem que será adiciona no fim da detecção de fala de cada segmento.

Valores: Número em segundos (float). Valor padrão 0.0.

Exemplo:

{
    "diarization": {
        "tail_margin": 0.2
    }
}

diarization.segmentation.threshold

Descrição: Limiar da detecção de fala (segmentação).

Valores: Número de 0.0 até 1.0 (float). Valor padrão 0.56.

Exemplo:

{
    "diarization": {
        "segmentation": {
            "threshold": 0.56
        }
    }
}

diarization.segmentation.min_duration_off

Descrição: Valor mínimo em segundos do silêncio. Regiões de silêncio menores que o valor indicado aqui, são removidas e consideradas fala.

Valores: Número em segundos (float). Valor padrão 0.3 (300 milissegundos).

Exemplo:

{
    "diarization": {
        "segmentation": {
            "min_duration_off": 0.3
        }
    }
}

diarization.segmentation.min_duration_on

Descrição: Valor mínimo em segundos de fala. Regiões de fala menores que o valor indicado aqui são removidas e consideradas silêncio.

Valores: Número em segundos (float). Valor padrão 0.3 (300 milissegundos).

Exemplo:

{
    "diarization": {
        "segmentation": {
            "min_duration_on": 0.3
        }
    }
}

diarization.clustering.threshold

Descrição: Limiar de clusterização.

Valores: Número (float). Valor padrão: 0.35

Exemplo:

{
    "diarization": {
        "clustering": {
            "threshold": 0.35
        }
    }
}