Conversão de voz para texto avançada com uma precisão inigualável, personalizada para o seu áudio. Implante na nuvem ou no local.

Utilize o API Speech-to-text, da AmberScript, para transcrever áudios de entrevistas, reuniões, podcasts, chamadas telefónicas e todos os tipos de gravações. Personalize-o para o seu áudio e utilize-o para uma maior precisão. GIra o seu sistema por trás do nosso API seguro, rápido e acessível ou implante-o nos nossos próprios servidores.

Experimente o API

Speech to text API by AmberScript with custom language models

Como usar nosso API?

O Reconhecimento Automático de Voz (ASR) é uma poderosa disciplina de Inteligência artificial e aprendizagem da máquina. Este pode ser utilizado para inúmeros fins comerciais. Precisa criar uma grande quantidade de transcrições ou legendas? Quer indexar o seu ficheiro de vídeo? Quer ter acesso a recursos de multimédia não utilizados? Ou quer obter insights acerca das suas conversas gravadas (por telefone)?
Então vale a pena automatizar o fluxo de trabalho, integrando o API de conersão de voz para texto, altamente técnico, da AmberScript, nos seus sistemas.
O nosso API é bastante simples. Este transfere ficheiros de áudio ou vídeo para o nosso servidor ASR e devolve uma transcrição no formato desejado. 
 

Formatos Suportados:
  • XML / JSON: Inclui informações como tempo inicial e final por palavra, índices de confiança, indicações de perguntas, pontuação (...)
  • .doc / .txt: Possibilidade de exportar com ou sem marcadores temporais e alterações de oradores
  • .SRT / VTT / EBU-STL: Ideal para criar legendas automáticas. As configurações para a aparência das legendas podem ser determinadas individualmente

Está em boa companhia. Os nossos clientes incluem:

warner bros logo
amazon logo
german government logo
univeristy of amsterdam logo
dutch government logo
huberlin logo

Mecanismos específicos do cliente para a mais alta precisão

Na AmberScript temos uma equipa de talentosos cientistas da fala. Somos especialistas no desenvolvimento de modelos linguísticos específicos para cada cliente, para casos de uso distintos. Fazemo-lo criando um conjunto de dados ou explorando conjuntos de dados existentes para desenvolver modelos de linguagem, adaptados à linguagem da sua organização.

Esta personalização inclui:

  • Sotaques
  • Ambiente acústico
  • Adaptação do vocabulário para reconhecer nomes de produtos, termos especiais, abreviaturas
  • Adaptação a linguagem específica do domínio, como direito, saúde, física, técnica ou outros domínios

Porquê desenvolver um modelo linguístico específico?

A linguagem é uma estrutura complexa, que constitui a comunicação. A linguagem gravada pode tornar-se ainda mais complexa à medida que a qualidade do áudio, a forma como as pessoas falam, a linguagem dos oradores, a utilização de vocabulário específico do domínio e muitos outros factores influenciam a qualidade da transcrição. Portanto, pode ser um desafio para os cientistas da língua desenvolver um modelo de linguagem de uso geral, que reconheça os termos utilizados na política, arqueologia e redes sociais ao mesmo tempo.

Ao criar modelos linguísticos, adequados a um contexto específico, essa complexidade pode ser reduzida pela eliminação de factores que não são relevantes para a sua organização. O mecanismo de reconhecimento de voz pode ser optimizado para determinadas definições de gravação, hábitos de fala, vocabulário, etc. Está somente a gravar um áudio de alta qualidade para a produção de multimédia ou discursos políticos? Então o seu modelo linguístico não precisa de ser optimizado para chamadas telefónicas e o contrário.

Como são criados os modelos de linguagem específicos para o cliente?

Recolha de dados

Juntamente com a sua organização exploramos os dados existentes e criamos novos conjuntos de dados, se necessário. Com base nesse conjunto de dados específicos, os nossos cientistas da fala podem desenvolver um modelo de linguagem altamente especializado, que segue o noss API de conversão de voz para texto.

Criação do modelo acústico

A acústica é um factor importante no ASR (Automatic Speech Recognition - Reconhecimento Automático de Voz). Por exemplo, as chamadas telefónicas num meio interior têm propriedades de áudio completamente diferentes dos discursos políticos ao ar livre. Encontrar o ajuste certo entre o ambiente sonoro da sua organização e o modelo acústico é uma outra forma de melhorar consideravelmente a precisão da transcrição.

Criação de um modelo linguístico

O modelo linguístico inclui o jargão, que é frequentemente utilizado na sua organização. Ao adicionar termos específicos do contexto à estrutura linguística, o mecanismo de reconhecimento de voz é capaz de reconhecer as palavras fora do nosso vocabulário quotidiano.

Implementação no seu fluxo de trabalho & criação de um feedback-loop

Com a ajuda da aprendizagem das máquinas, somos capazes de melhorar continuamente os modelos linguísticos. Através do nosso poderoso API, podemos integrar o nosso software de reconhecimento automático de voz nos seus próprios sistemas. Um feedback loop (círculo de reações) pode ser implementado a fim de atualizar frequentemente o seu modelo de linguagem e aumentar ainda mais a precisão.

Adicionar Vocabulário Personalizado

Aumente facilmente a precisão das palavras-chave ou frases que são importantes, ou adicione milhares de palavras personalizadas ao vocabulário, para afinar o reconhecimento para as suas necessidades específicas.

Construir no topo do API da AmberScript

Desenvolvemos o nosso API a fim de permitir que desenvolvedores em todo o mundo construam coisas incríveis, utilizando a nossa tecnologia principal. Ao adicionar o nosso API de conversão de voz para texto ao seu leque de opções, pode facilmente equipar as suas aplicações com recursos de conversão de voz para texto. Usando a tecnologia  do AmberScripts pode transcrever e analisar ficheiros de áudio e vídeo armazenados em qualquer servidor . As possibilidades para o ASR são ilimitadas.

Características principais

Otimizado para a legibilidade:

Pode escolher o formato de saída da sua transcrição com base nas suas necessidades e preferências. Precisa de um documento que seja de fácil leitura? O AmberScript adiciona pontuação e formatação automática para que obtenha o máximo possível do texto.

Marcadores de tempo em cada palavra:

Para muitos fins, os marcadores temporais são cruciais. O API Speech-to-text, da AmberScrip, fornece marcadores de tempo em cada palavra. Se quiser criar legendas, os marcadores de tempo entregues permitem que exiba as palavras com mais precisão do que qualquer humano poderia fazer.

Distinção do orador:

A AmberScript desenvolveu uma funcionalidade tecnologicamente complexa que permite distinguir entre vários oradores. Todos os formatos de exportação incluem a distinção de oradores para que possa identificar:

  • Quem está a falar e quando?
  • Há quanto tempo estão a falar?

Suporta uma variedade de casos de uso:

Entrevistas com clientes, pesquisas qualitativas, material de transmissão - estes são alguns dos modelos de ARS existentes à nossa disposição.

Caso queira atingir um nível ainda mais elevado de precisão, também é possível desenvolver um modelo linguístico específico que seja adaptado às circunstâncias únicas da sua organização.

Separação de canais:

Através do nosso API é possível transcrever apenas um único canal de áudio ou vídeo. Precisa de transcrever as gravações isoladas, da sua última produção de multimédia ou conversa telefónica? Envie-nos o canal de áudio que captou a gravação com melhor qualidade e nós devolveremos uma transcrição precisa.

Transmita as suas transcrições:

O AmberScript oferece transcrições ao vivo. Ligue a sua transmissão de áudio ou vídeo, utilizando uma das nossas ligações seguras, e receba as suas transcrições em tempo real.

Reconhecimento Automático de Voz Apoiado pelo Ser Humano

Ns AmberScript acreditamos que os melhores resultados vêm de uma interação entre inteligência artificial e as capacidades humanas. Existe a necessidade de transcrições 100% precisas, nas quais o reconhecimento automático da fala simplesmente não é suficiente? Para esses cenários, temos um grande conjunto de transcritores qualificados, que irão rever e ajustar a sua transcrição para garantir a maior precisão possível.

Contacte-nos para saber mais!

Mais razões para escolher a AmberScript

Privado e Seguro

Nós acreditamos na privacidade. Nunca armazenamos, copiamos ou compartilhamos os dados de áudio que envia para o nosso API seguro e estes dados nunca sairão do nosso continente. Os seus dados de áudio são apagados dos nossos servidores imediatamente após o nosso algoritmo os transcrever.

Modelos Personalizados

Adicione milhares de termos personalizados ao vocabulário  ou crie um modelo específico para o seu  caso em particular (sotaques, ambiente sonoro, linguagem usada)  para aumentar a precisão.

Suporta todos os formatos de áudio

O API aceita praticamente qualquer formato de áudio, mesmo áudios com perda e baixa taxa de bits, comummente encontrados em gravações telefónicas. Nãotem que se preocupar com taxas de amostragem, taxas de bits, codificações ou outras características de processamento de sinais complicadas.

Solicite uma demonstração