Python de reconocimiento de voz: ¿Cómo traducir voz a texto?



Este blog cubre el concepto de reconocimiento de voz en Python con un programa de muestra que traduce la voz en texto utilizando el reconocimiento de voz.

El habla es el medio de comunicación más común en todo el mundo. La mayor parte de la población del mundo depende del habla para comunicarse entre sí. Supongamos que estamos construyendo un modelo y en lugar de un enfoque escrito queremos que nuestro sistema responda al habla, se vuelve bastante difícil y requiere una gran cantidad de datos para ser procesados. Un sistema de reconocimiento de voz supera esta barrera al traducir la voz en texto. En este blog, repasaremos el reconocimiento de voz. módulo en python . Aquí está la lista de los mismos:

¿Cómo funciona el reconocimiento de voz?

El sistema de reconocimiento de voz básicamente traduce las expresiones habladas en texto. Hay varios ejemplos de sistemas de reconocimiento de voz en la vida real. Por ejemplo, siri, que toma el discurso como entrada y lo traduce a texto.





La ventaja de utilizar un sistema de reconocimiento de voz es que supera la barrera de la alfabetización. Un modelo de reconocimiento de voz puede servir tanto a la audiencia alfabetizada como a la analfabeta, ya que se centra en las expresiones habladas.

También podemos hacer un inventario de todos los idiomas en peligro de extinción en todo el mundo utilizando un sistema de reconocimiento de voz. Si bien parece bastante intrigante y nada complejo, un sistema de reconocimiento de voz enfrenta muchos desafíos en proceso.



Desafíos que enfrenta un reconocimiento de voz Sistema

Un sistema de reconocimiento de voz se vuelve difícil de hacer porque tenemos muchas fuentes de variabilidad cuando se trata de voz.

Estilo de hablar

Cada persona tiene un estilo variado de hablar, que también incluye acentos. Como todos sabemos, también tenemos diferentes acentos para hablar inglés. Hay inglés americano, inglés británico y muchos otros acentos cuando se trata de hablar el idioma más común del mundo. La pronunciación también dificulta que un sistema de reconocimiento de voz traduzca el discurso por completo.



Ambiente

El entorno también agrega mucho ruido de fondo al sistema. Una sala aislada en comparación con un auditorio tendrá mucha variabilidad en los ruidos de fondo. Incluso el eco también puede añadir mucho ruido al sistema.

Características de los altavoces

La voz de una persona mayor puede no ser la misma que la de un bebé. Las características del habla de una persona dependen de muchos factores, incluida la dureza y la claridad.

Limitaciones de idioma

Algunas expresiones habladas pueden no tener un significado viable cuando se trata de traducción.

Después de superar estos desafíos, es bastante posible que cualquier sistema de reconocimiento de voz traduzca la voz en texto. Ahora que sabemos cómo funciona el reconocimiento de voz, echemos un vistazo a diferentes que están disponibles para el reconocimiento de voz en Python.

Paquetes disponibles para reconocimiento de voz en Python

Repasaremos los detalles del paquete SpeechRecognition en este blog, también echemos un vistazo al carril de la memoria para comprender cómo han evolucionado los sistemas de reconocimiento de voz a lo largo de los años.

El primer prototipo del reconocimiento de voz fue de hecho un juguete, llamado radio rex que se produjo alrededor de la década de 1920. Tenía un perro sentado en una casa para perros que salía tan pronto como alguien pronunciaba la palabra rex.

El único problema con el modelo era que el resorte estaba conectado a un electroimán que era sensible a una energía de alrededor de 500 Hz. Al ser puramente un detector de frecuencia, podría denominarse remotamente modelo de reconocimiento de voz.

En 1962, IBM ideó una caja de zapatos modelo que fue capaz de reconocer palabras aisladas y también realizar algunas operaciones aritméticas.

Entonces vino ARPÍA de CMU, que pudo reconocer el habla conectada a partir de un vocabulario de 1000 palabras. Alrededor de la década de 1980, la gente comenzó a utilizar modelos estadísticos y uno de los paradigmas de aprendizaje automático más utilizados fue el modelo de markov oculto.

Después de la introducción de las redes neuronales profundas, la mayoría de los modelos de reconocimiento de voz funcionan en las redes neuronales. Las posibilidades son inimaginables con las redes neuronales, el vocabulario puede llegar hasta las 10k palabras y más.

¿Cómo instalar SpeechRecognition en Python?

Para instalar el paquete SpeechRecognition en Python, ejecute el siguiente comando en la terminal y se instalará en su sistema.

instalación-reconocimiento de voz python-edureka

Otro enfoque para esto, puede ser agregar el paquete desde el intérprete del proyecto si está utilizando

El paquete tiene una clase Recognizer que es básicamente donde ocurre la magia. Básicamente es una clase que se usa para reconocer el discurso. A continuación, se muestran siete métodos que pueden leer varias fuentes de audio utilizando diferentes API.

  • reconocer_bing ()
  • Recognition_google ()
  • Recognition_google_cloud ()
  • reconoce_houndify ()
  • reconocer_ibm ()
  • Recognition_wit ()
  • reconocer_esfinge ()

Ahora, Recognize_sphinx también se puede utilizar para ejecutar el sistema de reconocimiento de voz sin conexión. Requiere la instalación de Pocketsphinx.

importar reconocimiento de voz como sr # instancia de la clase de reconocimiento r = sr.Recognizer ()

Toma de entrada de micrófonos

Para usar los micrófonos, también tendremos que instalar el módulo pyaudio. Usamos la clase de micrófono para obtener el discurso de entrada del micrófono en lugar de cualquier otro método de entrada como un archivo de audio.

Para la mayoría de los proyectos, podemos usar los micrófonos predeterminados. Pero si no desea utilizar el micrófono predeterminado,puede obtener la lista de nombres de micrófonos utilizando el método list_microphone_names.

que es salesforce service cloud

Para capturar la entrada del micrófono usamos el método de escuchar.

importar reconocimiento de voz como sr r = sr.Recognizer () con sr.Microphone () como fuente: audio = sr.listen (fuente)

¿Cómo instalar Pyaudio en Python?

Para instalar Pyaudio en Python, ejecute el siguiente comando en la terminal o si está usando Pycharm agregue el paquete del intérprete del proyecto en la configuración.

Caso de uso

Crearemos un programa usando el módulo de reconocimiento de voz en Python para reconocer el habla y ejecutar lo siguiente:

  1. convertir el discurso en texto
  2. abrir una URL usando el módulo de navegador web
  3. pasar una consulta mediante el reconocimiento de voz para realizar una búsqueda en la URL

A continuación se muestra el programa para la declaración del problema anterior:

importar speech_recognition como sr importar navegador web como wb r1 = sr.Recognizer () r2 = sr.Recognizer () r3 = sr.Recognizer () con sr.Microphone () como fuente: print ('[buscar edureka: buscar youtube]') print ('hablar ahora') audio = r3.listen (fuente) si 'edureka' en r2.recognize_google (audio): r2 = sr.Recognizer () url = 'https://www.edureka.co/' con sr .Microphone () como fuente: print ('busca tu consulta') audio = r2.listen (fuente) try: get = r2.recognize_google (audio) print (get) wb.get (). Open_new (url + get) excepto sr.UnknownValueError: print ('error') excepto sr.RequestError como e: print ('failed'.format (e)) if' video 'in r1.recognize_google (audio): r1 = sr.Recognizer () url =' https://www.youtube.com/results?search_query= 'con sr.Microphone () como fuente: print (' buscar un video ') audio = r2.listen (fuente) prueba: get = r1.recognize_google (audio ) print (get) wb.get (). open_new (url + get) excepto sr.UnknownValueError: print ('no se pudo entender') excepto sr.RequestError como e: print (no se pudieron obtener resultados '.format (e) )

Obtendrá la salida como se muestra en la imagen. Si dice edureka, le pedirá que diga la consulta que desea buscar en la url edureka que hemos escrito en la variable url. Si dice python, se abrirá la siguiente página web en el navegador.

En este blog, hemos discutido cómo podemos usar el reconocimiento de voz en Python para traducir voz a texto usando el paquete reconocimiento de voz. se ha convertido en la necesidad del momento para conceptos como el reconocimiento de voz o el abatimiento de objetos, con la que brindan posibilidades inimaginables a los sistemas de reconocimiento de voz donde podemos entrenar y probar enormes datos de voz para construir un sistema. para que las redes neuronales profundas dominen sus habilidades e impulsen su aprendizaje.

tienes alguna consulta? menciónalos en los comentarios, nos comunicaremos contigo.