{ "cells": [ { "attachments": {}, "cell_type": "markdown", "id": "4d1e4157-e611-48b4-bf9a-b01aeff6db36", "metadata": {}, "source": [ "# __Using a Speech Recognition Model__" ] }, { "attachments": {}, "cell_type": "markdown", "id": "1e871628-b20d-468a-bd46-509c4b660938", "metadata": {}, "source": [ "- Tutorial Difficulty: ★☆☆☆☆\n", "- 5 min read\n", "- Languages: [SQL](https://en.wikipedia.org/wiki/SQL) (100%)\n", "- File Location: tutorial_en/thanosql_ml/audio_recognition/speech_recognition2.ipynb\n", "- References: [(AI-Hub) Korean voice data](https://aihub.or.kr/aihubdata/data/view.do?currMenu=115&topMenu=100&aihubDataSe=realm&dataSetSn=123), [whisper](https://github.com/openai/whisper)" ] }, { "attachments": {}, "cell_type": "markdown", "id": "d15a2fa0", "metadata": {}, "source": [ "## Tutorial Introduction\n", "\n", "
Speech recognition technology, also called computer speech recognition or speech-to-text, allows programs to process human speech into text format. Recently, it has been used in a wide range of fields such as automobiles, medical fields, and everyday life involving artificial intelligence speakers and smartphones. Recent Machine Learning Speech recognition technology utilizes algorithms that understand and process speech by integrating grammar, syntax, structure, and composition of audio and speech signals.
\n", "Speech Recognition should not be confused with Voice Recognition, which focuses only on identifying the individual users' voices.
\n", "👉 Whisper [Alec Radford et al. 2022] is a general-purpose speech recognition deep learning model released by OpenAI that supports learning on large datasets of various audio and is a multi-task model that enables both translation and transcription as well as multilingual speech recognition. It also performs well and is widely used for common speech recognition problems. In this tutorial, Whisper's speech recognition and translation into English will be performed.\n", "
\n", "\n", " | audio_path | \n", "sampling_rate | \n", "transcript_phonetic | \n", "transcript_spelling | \n", "duration | \n", "
---|---|---|---|---|---|
0 | \n", "thanosql-dataset/korean_voice_data/audio/broad... | \n", "16000 | \n", "가를 보면 한국어 사용하는 인구 수가 십이 위입니다. 일위가 중국어고 이위가 스페인... | \n", "가를 보면 한국어 사용하는 인구 수가 십이 위입니다. 일위가 중국어고 이위가 스페인... | \n", "8.70 | \n", "
1 | \n", "thanosql-dataset/korean_voice_data/audio/broad... | \n", "16000 | \n", "말을 사랑하고 아껴서 규정에 맞게 파괴하지 않고 네 잘. | \n", "말을 사랑하고 아껴서 규정에 맞게 파괴하지 않고 네 잘. | \n", "5.89 | \n", "
2 | \n", "thanosql-dataset/korean_voice_data/audio/broad... | \n", "16000 | \n", "진행하고 있습니다. 자 오늘의 목표 확인해 보도록 하겠습니다. 오늘의 목표 네. | \n", "진행하고 있습니다. 자 오늘의 목표 확인해 보도록 하겠습니다. 오늘의 목표 네. | \n", "4.86 | \n", "
3 | \n", "thanosql-dataset/korean_voice_data/audio/broad... | \n", "16000 | \n", "그리고 이번에는 다른 친구의 글을 평가해보는 것을 하는 겁니다. | \n", "그리고 이번에는 다른 친구의 글을 평가해보는 것을 하는 겁니다. | \n", "4.61 | \n", "
4 | \n", "thanosql-dataset/korean_voice_data/audio/broad... | \n", "16000 | \n", "쓰기가 된 글 완성된 글 또는 쓰기 전의 개요 뭐 자료 이런 것들을 보여주면서 그것... | \n", "쓰기가 된 글 완성된 글 또는 쓰기 전의 개요 뭐 자료 이런 것들을 보여주면서 그것... | \n", "11.52 | \n", "
korean_voice table contains the following information.
\n", "\n", " | audio_path | \n", "sampling_rate | \n", "transcript_phonetic | \n", "transcript_spelling | \n", "duration | \n", "predict_result | \n", "
---|---|---|---|---|---|---|
0 | \n", "thanosql-dataset/korean_voice_data/audio/broad... | \n", "16000 | \n", "가를 보면 한국어 사용하는 인구 수가 십이 위입니다. 일위가 중국어고 이위가 스페인... | \n", "가를 보면 한국어 사용하는 인구 수가 십이 위입니다. 일위가 중국어고 이위가 스페인... | \n", "8.70 | \n", "가를 보면 한국어 사용하는 인구수가 12위입니다 1위가 중국어고 2위가 스페인어고 ... | \n", "
1 | \n", "thanosql-dataset/korean_voice_data/audio/broad... | \n", "16000 | \n", "말을 사랑하고 아껴서 규정에 맞게 파괴하지 않고 네 잘. | \n", "말을 사랑하고 아껴서 규정에 맞게 파괴하지 않고 네 잘. | \n", "5.89 | \n", "를 사랑하고 아껴서 규정에 맞게 파괴하지 않고 잘 | \n", "
2 | \n", "thanosql-dataset/korean_voice_data/audio/broad... | \n", "16000 | \n", "진행하고 있습니다. 자 오늘의 목표 확인해 보도록 하겠습니다. 오늘의 목표 네. | \n", "진행하고 있습니다. 자 오늘의 목표 확인해 보도록 하겠습니다. 오늘의 목표 네. | \n", "4.86 | \n", "오늘의 목표 확인해보도록 하겠습니다. | \n", "
3 | \n", "thanosql-dataset/korean_voice_data/audio/broad... | \n", "16000 | \n", "그리고 이번에는 다른 친구의 글을 평가해보는 것을 하는 겁니다. | \n", "그리고 이번에는 다른 친구의 글을 평가해보는 것을 하는 겁니다. | \n", "4.61 | \n", "그리고 이번에는 다른 친구에게를 평가해 보는 것을 하는 겁니다 | \n", "
4 | \n", "thanosql-dataset/korean_voice_data/audio/broad... | \n", "16000 | \n", "쓰기가 된 글 완성된 글 또는 쓰기 전의 개요 뭐 자료 이런 것들을 보여주면서 그것... | \n", "쓰기가 된 글 완성된 글 또는 쓰기 전의 개요 뭐 자료 이런 것들을 보여주면서 그것... | \n", "11.52 | \n", "쓰기가 될 글 완성된 글 또는 쓰기 전에 개요, 자료 이런 것들을 보여주면서 그것을... | \n", "
... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "
95 | \n", "thanosql-dataset/korean_voice_data/audio/broad... | \n", "16000 | \n", "희곡 같은 데서 제일 중요한 한 단어는 뭐라고요. | \n", "희곡 같은 데서 제일 중요한 한 단어는 뭐라고요. | \n", "3.20 | \n", "키곡 같은 데에서 제일 중요한 한 단어는 뭐라고요? | \n", "
96 | \n", "thanosql-dataset/korean_voice_data/audio/broad... | \n", "16000 | \n", "수필이라는 이름 자체가 무슨 뜻인지 아나요. | \n", "수필이라는 이름 자체가 무슨 뜻인지 아나요. | \n", "2.94 | \n", "수필이라는 이름 자체가 무슨 뜻인지 알아요? | \n", "
97 | \n", "thanosql-dataset/korean_voice_data/audio/broad... | \n", "16000 | \n", "당근 씨를 막 뿌리려는 남편에게 나는 몇 번이나 말했다 그랬습니다. | \n", "당근 씨를 막 뿌리려는 남편에게 나는 몇 번이나 말했다 그랬습니다. | \n", "3.58 | \n", "당근실을 막 뿌리려는 남편에게 나는 몇 번이나 말했다. | \n", "
98 | \n", "thanosql-dataset/korean_voice_data/audio/broad... | \n", "16000 | \n", "작년에도 너무 얕게 씨를 뿌려 낭패를 본 적이 있기 때문이다. | \n", "작년에도 너무 얕게 씨를 뿌려 낭패를 본 적이 있기 때문이다. | \n", "4.22 | \n", "작년에도 너무 얕게 씨를 뿌려 낭패를 본 적이 있기 때문이다. | \n", "
99 | \n", "thanosql-dataset/korean_voice_data/audio/broad... | \n", "16000 | \n", "하나는 새를 위해서 하나는 또. | \n", "하나는 새를 위해서 하나는 또. | \n", "2.69 | \n", "하나는 새, 하나는 또 | \n", "
100 rows × 6 columns
\n", "\n", " | audio_path | \n", "sampling_rate | \n", "transcript_phonetic | \n", "transcript_spelling | \n", "duration | \n", "predict_result | \n", "
---|---|---|---|---|---|---|
0 | \n", "thanosql-dataset/korean_voice_data/audio/broad... | \n", "16000 | \n", "가를 보면 한국어 사용하는 인구 수가 십이 위입니다. 일위가 중국어고 이위가 스페인... | \n", "가를 보면 한국어 사용하는 인구 수가 십이 위입니다. 일위가 중국어고 이위가 스페인... | \n", "8.70 | \n", "The number of people using Korean is 12. | \n", "
1 | \n", "thanosql-dataset/korean_voice_data/audio/broad... | \n", "16000 | \n", "말을 사랑하고 아껴서 규정에 맞게 파괴하지 않고 네 잘. | \n", "말을 사랑하고 아껴서 규정에 맞게 파괴하지 않고 네 잘. | \n", "5.89 | \n", "Love and cherish the words and don't destroy t... | \n", "
2 | \n", "thanosql-dataset/korean_voice_data/audio/broad... | \n", "16000 | \n", "진행하고 있습니다. 자 오늘의 목표 확인해 보도록 하겠습니다. 오늘의 목표 네. | \n", "진행하고 있습니다. 자 오늘의 목표 확인해 보도록 하겠습니다. 오늘의 목표 네. | \n", "4.86 | \n", "Let's check today's goal. | \n", "
3 | \n", "thanosql-dataset/korean_voice_data/audio/broad... | \n", "16000 | \n", "그리고 이번에는 다른 친구의 글을 평가해보는 것을 하는 겁니다. | \n", "그리고 이번에는 다른 친구의 글을 평가해보는 것을 하는 겁니다. | \n", "4.61 | \n", "And this time, I'm going to evaluate other fri... | \n", "
4 | \n", "thanosql-dataset/korean_voice_data/audio/broad... | \n", "16000 | \n", "쓰기가 된 글 완성된 글 또는 쓰기 전의 개요 뭐 자료 이런 것들을 보여주면서 그것... | \n", "쓰기가 된 글 완성된 글 또는 쓰기 전의 개요 뭐 자료 이런 것들을 보여주면서 그것... | \n", "11.52 | \n", "It is a problem of the order and writing area. | \n", "
... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "
95 | \n", "thanosql-dataset/korean_voice_data/audio/broad... | \n", "16000 | \n", "당근 씨를 막 뿌리려는 남편에게 나는 몇 번이나 말했다 그랬습니다. | \n", "당근 씨를 막 뿌리려는 남편에게 나는 몇 번이나 말했다 그랬습니다. | \n", "3.58 | \n", "I told my husband that I would pour carrots a ... | \n", "
96 | \n", "thanosql-dataset/korean_voice_data/audio/broad... | \n", "16000 | \n", "작년에도 너무 얕게 씨를 뿌려 낭패를 본 적이 있기 때문이다. | \n", "작년에도 너무 얕게 씨를 뿌려 낭패를 본 적이 있기 때문이다. | \n", "4.22 | \n", "I've seen a lot of people who put too little s... | \n", "
97 | \n", "thanosql-dataset/korean_voice_data/audio/broad... | \n", "16000 | \n", "하나는 새를 위해서 하나는 또. | \n", "하나는 새를 위해서 하나는 또. | \n", "2.69 | \n", "One is for the new year. Another is for the ne... | \n", "
98 | \n", "thanosql-dataset/korean_voice_data/audio/broad... | \n", "16000 | \n", "많이 씨앗들을 넣어가지고 너무 촘촘하게 여러 개가 한꺼번에 자라는 거야 여러 줄기가. | \n", "많이 씨앗들을 넣어가지고 너무 촘촘하게 여러 개가 한꺼번에 자라는 거야 여러 줄기가. | \n", "6.14 | \n", "I put a lot of seeds in it and it grew into a ... | \n", "
99 | \n", "thanosql-dataset/korean_voice_data/audio/broad... | \n", "16000 | \n", "텃밭 농사짓는 정도일 겁니다. | \n", "텃밭 농사짓는 정도일 겁니다. | \n", "2.30 | \n", "It's about the same as the picture in the Tupp... | \n", "
100 rows × 6 columns
\n", "If you have any difficulties creating your own model using ThanoSQL or applying it to your service, please feel free to contact us below😊
\n", "For inquiries regarding building a speech recognition model: contact@smartmind.team
\n", "