طبقه بندی با استفاده از شبکه عصبی با داده های صوتی

عکس پروفایل نویسنده

@هوبرتایاندقکهوبرت اس

سال سوم INIAD علوم و مهندسی کامپیوتر | علاقه ML و QC

این نمونه ای از تجزیه و تحلیل داده های صوتی توسط CNN 2D است

ما می توانیم طیف سنجی مل را به عنوان یک تصویر در نظر بگیریم ، پیش بینی های طبقه بندی را می توان توسط CNN با داده های صوتی انجام داد. به جای مخلوط کردن محورهای زمان و فرکانس با هم ، ما فقط یک محور را همزمان می کنیم.

اول و مهمترین ، بیایید مطمئن شویم که کتابخانه ها همه تنظیم شده اند

import os, shutil
import numpy as np
import pandas as pd
import librosa
import librosa.display
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
import IPython.display as ipd

ما نرخ نمونه برداری را روی 8820 هرتز تنظیم کرده و تمام داده ها را بازیابی کرده و مدل ها را در حین یادگیری متغیر model_dir ذخیره می کنیم. به سادگی داده های صوتی را از kaggle بازیابی کنید (این موارد می تواند از صدای طبیعت ، صدای کف زدن و غیره باشد)

# sampling rate
s_rate = 8820
n_fft = 1024
hop_length = 128
n_mels = 128

# define directories
base_dir = './'
esc_dir = os.path.join(base_dir, 'ESC3')
meta_file = os.path.join(esc_dir, 'meta/esc3.csv')
audio_dir = os.path.join(esc_dir, 'audio/')
model_file = 'esc3-model-sr{}.h5'.format(s_rate)

# To show more rows and columns without "..."
pd.options.display.max_columns=999
pd.options.display.max_rows=999

فایل متا را بخوانید

# load...