Visão geral¶

Estamos orgulhosos em apresentar a evolução do nosso serviço de sintetização de texto em fala, que agora adota um modelo de treinamento neural usando as técnicas mais recentes de Inteligência Artificial Generativa. Esta transição resultou em uma experiência de áudio mais natural, representando um avanço significativo em qualidade, personalização e flexibilidade, oferecendo novas possibilidades para os mais diversos cenários de uso.

No que o Texto Fala Neural se difere do Texto Fala?

Naturalidade Avançada

O novo modelo de treinamento utiliza redes neurais profundas para capturar os aspectos mais sutis da fala humana, como entonação, ritmo e ênfase. O resultado é uma voz sintética muito mais natural, com expressões e fluidez que se aproximam da comunicação real, gerando uma experiência auditiva que engaja mais os ouvintes.

Personalização Poderosa

O serviço permite a criação de vozes personalizadas com menos de 30 minutos de fala do locutor original. Essa funcionalidade é ideal para branding e interações exclusivas.

Transferência de estilos

O uso de técnicas de transferência de estilos para modelar a nova voz, permite por exemplo a transferência de vários sotaques para uma mesma voz. Esta personalização poderosa permite o alinhamento à identidade das marcas ou indivíduos.

Infraestrutura otimizada

Opera como modelo de negócio SaaS (software as a service) com infraestrutura otimizada para cloud onde o serviço mantém sua performance mesmo em operações com grandes volumes de dados.

Redução de custo e prazo

Com as novas técnicas de IA, associadas às nossas bases e nossos modelos de língua, foi possível reduzir o material vocal, de dezenas de horas de gravação, para apenas 30 minutos de fala. Levando a diminuição do custo e do prazo na criação de vozes personalizadas, eliminando a exigência de disponibilidade do locutor para novas gravações e customizações.

Nas seções de interfaces de integração REST e gRPC são apresentadas as possíveis formas de utilizar o produto em suas aplicações.