wordpress

Speech Recognition Python: Mejores bibliotecas de voz en Python

1. SpeechRecognition

SpeechRecognition es una biblioteca de Python que permite realizar reconocimiento de voz en tiempo real. Esta biblioteca es compatible con varias API de reconocimiento de voz, como Google Speech Recognition, IBM Watson Speech to Text y Microsoft Azure Speech to Text. Además, también es compatible con el reconocimiento de voz sin conexión utilizando CMU Sphinx y PocketSphinx.

Para utilizar SpeechRecognition, primero debes instalar la biblioteca utilizando el comando pip:

pip install SpeechRecognition

A continuación, puedes importar la biblioteca en tu script de Python:

import speech_recognition as sr

Para realizar el reconocimiento de voz, puedes utilizar el siguiente código:

# Crear un objeto de reconocimiento de voz
r = sr.Recognizer()

# Abrir el archivo de audio
with sr.AudioFile('audio.wav') as source:
    # Leer el audio del archivo
    audio = r.record(source)

# Utilizar Google Speech Recognition para convertir el audio en texto
text = r.recognize_google(audio)

# Imprimir el texto reconocido
print(text)

SpeechRecognition también proporciona funciones para reconocer voz en tiempo real utilizando el micrófono del dispositivo. Puedes encontrar más información y ejemplos en la documentación oficial de SpeechRecognition.

2. Google Cloud Speech-to-Text

Google Cloud Speech-to-Text es una API de reconocimiento de voz desarrollada por Google. Esta API permite convertir voz en texto utilizando modelos de aprendizaje automático avanzados. Google Cloud Speech-to-Text es muy precisa y puede reconocer varios idiomas y dialectos.

Para utilizar Google Cloud Speech-to-Text en Python, primero debes crear una cuenta en Google Cloud Platform y habilitar la API de Speech-to-Text. A continuación, debes instalar la biblioteca de Python para Google Cloud:

pip install google-cloud-speech

A continuación, puedes utilizar el siguiente código para realizar el reconocimiento de voz utilizando Google Cloud Speech-to-Text:

from google.cloud import speech_v1p1beta1 as speech

# Crear un cliente de Google Cloud Speech-to-Text
client = speech.SpeechClient()

# Abrir el archivo de audio
with open('audio.wav', 'rb') as audio_file:
    content = audio_file.read()

# Configurar la solicitud de reconocimiento de voz
audio = speech.RecognitionAudio(content=content)
config = speech.RecognitionConfig(
    encoding=speech.RecognitionConfig.AudioEncoding.LINEAR16,
    sample_rate_hertz=16000,
    language_code='en-US')

# Realizar la solicitud de reconocimiento de voz
response = client.recognize(config=config, audio=audio)

# Obtener el texto reconocido
for result in response.results:
    print(result.alternatives[0].transcript)

Ten en cuenta que para utilizar Google Cloud Speech-to-Text, debes tener una cuenta de Google Cloud Platform y configurar las credenciales de autenticación. Puedes encontrar más información en la documentación oficial de Google Cloud Speech-to-Text.

3. IBM Watson Speech to Text

IBM Watson Speech to Text es una API de reconocimiento de voz desarrollada por IBM. Esta API permite convertir voz en texto utilizando modelos de aprendizaje automático avanzados. IBM Watson Speech to Text es muy precisa y puede reconocer varios idiomas y dialectos.

Recomendado:  How to Visualize a Neural Network in Python using Graphviz | Network Syntax

Para utilizar IBM Watson Speech to Text en Python, primero debes crear una cuenta en IBM Cloud y habilitar la API de Speech to Text. A continuación, debes instalar la biblioteca de Python para IBM Watson:

pip install ibm-watson

A continuación, puedes utilizar el siguiente código para realizar el reconocimiento de voz utilizando IBM Watson Speech to Text:

from ibm_watson import SpeechToTextV1
from ibm_cloud_sdk_core.authenticators import IAMAuthenticator

# Configurar las credenciales de autenticación
authenticator = IAMAuthenticator('API_KEY')
speech_to_text = SpeechToTextV1(authenticator=authenticator)
speech_to_text.set_service_url('SERVICE_URL')

# Abrir el archivo de audio
with open('audio.wav', 'rb') as audio_file:
    result = speech_to_text.recognize(
        audio=audio_file,
        content_type='audio/wav'
    ).get_result()

# Obtener el texto reconocido
text = result['results'][0]['alternatives'][0]['transcript']
print(text)

Ten en cuenta que debes reemplazar ‘API_KEY’ y ‘SERVICE_URL’ con tus propias credenciales de IBM Watson Speech to Text. Puedes encontrar más información en la documentación oficial de IBM Watson Speech to Text.

4. Microsoft Azure Speech to Text

Microsoft Azure Speech to Text es una API de reconocimiento de voz desarrollada por Microsoft. Esta API permite convertir voz en texto utilizando modelos de aprendizaje automático avanzados. Microsoft Azure Speech to Text es muy precisa y puede reconocer varios idiomas y dialectos.

Para utilizar Microsoft Azure Speech to Text en Python, primero debes crear una cuenta en Microsoft Azure y habilitar la API de Speech to Text. A continuación, debes instalar la biblioteca de Python para Microsoft Azure:

pip install azure-cognitiveservices-speech

A continuación, puedes utilizar el siguiente código para realizar el reconocimiento de voz utilizando Microsoft Azure Speech to Text:

import azure.cognitiveservices.speech as speechsdk

# Configurar las credenciales de autenticación
speech_key = 'SPEECH_KEY'
service_region = 'SERVICE_REGION'
speech_config = speechsdk.SpeechConfig(subscription=speech_key, region=service_region)

# Crear un objeto de reconocimiento de voz
speech_recognizer = speechsdk.SpeechRecognizer(speech_config=speech_config)

# Abrir el archivo de audio
audio_config = speechsdk.audio.AudioConfig(filename='audio.wav')

# Realizar el reconocimiento de voz
result = speech_recognizer.recognize_once_async(audio_config).get()

# Obtener el texto reconocido
text = result.text
print(text)

Ten en cuenta que debes reemplazar ‘SPEECH_KEY’ y ‘SERVICE_REGION’ con tus propias credenciales de Microsoft Azure Speech to Text. Puedes encontrar más información en la documentación oficial de Microsoft Azure Speech to Text.

5. CMU Sphinx

CMU Sphinx es una biblioteca de reconocimiento de voz de código abierto desarrollada por la Universidad Carnegie Mellon. Esta biblioteca permite realizar reconocimiento de voz sin conexión utilizando modelos acústicos y de lenguaje entrenados previamente.

Para utilizar CMU Sphinx en Python, primero debes instalar la biblioteca utilizando el comando pip:

pip install pocketsphinx

A continuación, puedes utilizar el siguiente código para realizar el reconocimiento de voz utilizando CMU Sphinx:

import speech_recognition as sr

# Crear un objeto de reconocimiento de voz
r = sr.Recognizer()

# Abrir el archivo de audio
with sr.AudioFile('audio.wav') as source:
    # Leer el audio del archivo
    audio = r.record(source)

# Utilizar CMU Sphinx para convertir el audio en texto
text = r.recognize_sphinx(audio)

# Imprimir el texto reconocido
print(text)

CMU Sphinx también proporciona funciones para reconocer voz en tiempo real utilizando el micrófono del dispositivo. Puedes encontrar más información y ejemplos en la documentación oficial de CMU Sphinx.

Recomendado:  Python Features: Descubre las características clave de Python

6. PocketSphinx

PocketSphinx es una biblioteca de reconocimiento de voz de código abierto desarrollada por la Universidad Carnegie Mellon. Esta biblioteca es una versión ligera de CMU Sphinx y está diseñada para dispositivos con recursos limitados.

Para utilizar PocketSphinx en Python, primero debes instalar la biblioteca utilizando el comando pip:

pip install pocketsphinx

A continuación, puedes utilizar el siguiente código para realizar el reconocimiento de voz utilizando PocketSphinx:

import speech_recognition as sr

# Crear un objeto de reconocimiento de voz
r = sr.Recognizer()

# Abrir el archivo de audio
with sr.AudioFile('audio.wav') as source:
    # Leer el audio del archivo
    audio = r.record(source)

# Utilizar PocketSphinx para convertir el audio en texto
text = r.recognize_sphinx(audio)

# Imprimir el texto reconocido
print(text)

PocketSphinx también proporciona funciones para reconocer voz en tiempo real utilizando el micrófono del dispositivo. Puedes encontrar más información y ejemplos en la documentación oficial de PocketSphinx.

7. DeepSpeech

DeepSpeech es una biblioteca de reconocimiento de voz de código abierto desarrollada por Mozilla. Esta biblioteca utiliza modelos de aprendizaje profundo para realizar el reconocimiento de voz. DeepSpeech es muy precisa y puede reconocer varios idiomas y dialectos.

Para utilizar DeepSpeech en Python, primero debes instalar la biblioteca utilizando el comando pip:

pip install deepspeech

A continuación, debes descargar el modelo de reconocimiento de voz de DeepSpeech. Puedes descargar el modelo pre-entrenado desde el sitio web de DeepSpeech.

Una vez que hayas descargado el modelo, puedes utilizar el siguiente código para realizar el reconocimiento de voz utilizando DeepSpeech:

import deepspeech

# Configurar el modelo de reconocimiento de voz
model = deepspeech.Model('modelo.pb')

# Abrir el archivo de audio
with open('audio.wav', 'rb') as audio_file:
    audio = audio_file.read()

# Realizar el reconocimiento de voz
text = model.stt(audio)

# Imprimir el texto reconocido
print(text)

DeepSpeech también proporciona funciones para reconocer voz en tiempo real utilizando el micrófono del dispositivo. Puedes encontrar más información y ejemplos en la documentación oficial de DeepSpeech.

8. Mozilla DeepSpeech

Mozilla DeepSpeech es una biblioteca de reconocimiento de voz de código abierto desarrollada por Mozilla. Esta biblioteca utiliza modelos de aprendizaje profundo para realizar el reconocimiento de voz. Mozilla DeepSpeech es muy precisa y puede reconocer varios idiomas y dialectos.

Para utilizar Mozilla DeepSpeech en Python, primero debes instalar la biblioteca utilizando el comando pip:

pip install deepspeech

A continuación, debes descargar el modelo de reconocimiento de voz de Mozilla DeepSpeech. Puedes descargar el modelo pre-entrenado desde el sitio web de Mozilla DeepSpeech.

Recomendado:  Generating Migrations en Laravel: Sintaxis para generar migraciones

Una vez que hayas descargado el modelo, puedes utilizar el siguiente código para realizar el reconocimiento de voz utilizando Mozilla DeepSpeech:

import deepspeech

# Configurar el modelo de reconocimiento de voz
model = deepspeech.Model('modelo.pb')

# Abrir el archivo de audio
with open('audio.wav', 'rb') as audio_file:
    audio = audio_file.read()

# Realizar el reconocimiento de voz
text = model.stt(audio)

# Imprimir el texto reconocido
print(text)

Mozilla DeepSpeech también proporciona funciones para reconocer voz en tiempo real utilizando el micrófono del dispositivo. Puedes encontrar más información y ejemplos en la documentación oficial de Mozilla DeepSpeech.

9. Wit.ai

Wit.ai es una plataforma de reconocimiento de voz desarrollada por Facebook. Esta plataforma permite convertir voz en texto utilizando modelos de aprendizaje automático avanzados. Wit.ai es muy precisa y puede reconocer varios idiomas y dialectos.

Para utilizar Wit.ai en Python, primero debes crear una cuenta en Wit.ai y crear una aplicación. A continuación, debes obtener el token de acceso de la aplicación.

A continuación, debes instalar la biblioteca de Python para Wit.ai utilizando el comando pip:

pip install wit

A continuación, puedes utilizar el siguiente código para realizar el reconocimiento de voz utilizando Wit.ai:

from wit import Wit

# Configurar el token de acceso de Wit.ai
access_token = 'ACCESS_TOKEN'
client = Wit(access_token=access_token)

# Abrir el archivo de audio
with open('audio.wav', 'rb') as audio_file:
    audio = audio_file.read()

# Realizar el reconocimiento de voz
response = client.speech(audio, headers={'Content-Type': 'audio/wav'})

# Obtener el texto reconocido
text = response['_text']
print(text)

Ten en cuenta que debes reemplazar ‘ACCESS_TOKEN’ con tu propio token de acceso de Wit.ai. Puedes encontrar más información en la documentación oficial de Wit.ai.

10. Houndify

Houndify es una plataforma de reconocimiento de voz desarrollada por SoundHound Inc. Esta plataforma permite convertir voz en texto utilizando modelos de aprendizaje automático avanzados. Houndify es muy precisa y puede reconocer varios idiomas y dialectos.

Para utilizar Houndify en Python, primero debes crear una cuenta en Houndify y crear una aplicación. A continuación, debes obtener el ID del cliente y la clave del cliente de la aplicación.

A continuación, debes instalar la biblioteca de Python para Houndify utilizando el comando pip:

pip install houndify

A continuación, puedes utilizar el siguiente código para realizar el reconocimiento de voz utilizando Houndify:

import houndify

# Configurar el ID del cliente y la clave del cliente de Houndify
client_id = 'CLIENT_ID'
client_key = 'CLIENT_KEY'
client = houndify.StreamingHoundClient(client_id, client_key)

# Abrir el archivo de audio
with open('audio.wav', 'rb') as audio_file:
    audio = audio_file.read()

# Realizar el reconocimiento de voz
response = client.transcribe(audio)

# Obtener el texto reconocido
text = response['AllResults'][0]['SpokenResponseLong']
print(text)

Ten en cuenta que debes reemplazar ‘CLIENT_ID’ y ‘CLIENT_KEY’ con tu propio ID del cliente y clave del cliente de Houndify. Puedes encontrar más información en la documentación oficial de Houndify.

Estas son algunas de las mejores bibliotecas de reconocimiento de voz disponibles en Python. Cada biblioteca tiene sus propias características y ventajas, por lo que es importante evaluar tus necesidades y elegir la biblioteca que mejor se adapte a tu proyecto.

Autor

osceda@hotmail.com

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *