利用 AssemblyAI 在 PyTorch 中建立端到端的语音识别模型

投稿
APP
微信扫一扫获取更多

利用 AssemblyAI 在 PyTorch 中建立端到端的语音识别模型

韩悦

2022-08-26 17:48:59

图灵汇官网

这篇文章主要介绍了如何使用深度学习构建端到端的语音识别模型，并探讨了该领域的最新进展和技术细节。作者Michael Nguyen来自AssemblyAI，该公司使用Comet记录、可视化和理解模型开发流程。

深度学习改变了语音识别规则

深度学习技术通过引入端到端模型改变了语音识别的方式。这些模型可以直接从音频数据中生成转录文本，无需手动设计特征。目前，最流行的两种端到端模型是百度的Deep Speech和谷歌的Listen Attend Spell（LAS）。Deep Speech和LAS都采用了递归神经网络（RNN）结构，但采用了不同的方法。

Deep Speech使用连接时态分类（CTC）损失函数来预测语音记录。LAS则采用序列对网络架构进行预测。这些模型利用深度学习的强大能力，从大量数据中学习，从而简化了语音识别的过程。

构建端到端语音识别模型

我们将构建一个端到端的语音识别模型，该模型借鉴了Deep Speech 2的设计理念，并进行了一些改进。我们的目标是创建一个能够从音频中提取字符概率矩阵的模型，以便在解码阶段能够提取出最有可能的字符。

数据准备

数据是语音识别的核心。我们首先将原始音频波转换为Mel频谱图，这是一种将声音表示为图像的方式。我们使用了PyTorch团队专门为音频数据创建的库torchaudio来处理音频数据。

```python import torchaudio

traindataset = torchaudio.datasets.LIBRISPEECH("./", url="train-clean-100", download=True) testdataset = torchaudio.datasets.LIBRISPEECH("./", url="test-clean", download=True) ```

数据增强

数据增强是一种增加数据多样性的技术，可以防止模型过拟合。我们采用了一种名为SpecAugment的技术，该技术通过对频谱图进行掩蔽来增加数据多样性。

```python import torchaudio.transforms as transforms

trainaudiotransforms = nn.Sequential( transforms.MelSpectrogram(samplerate=16000, nmels=128), transforms.FrequencyMasking(freqmaskparam=15), transforms.TimeMasking(timemaskparam=35) ) ```

数据处理

我们将音频转换为Mel频谱图，并将字符标签映射为整数标签。这样做的目的是为了便于模型训练。

```python class TextTransform: def init(self): charmapstr = "..." self.charmap = { ... } self.indexmap = { ... }

def text_to_int(self, text):
    int_sequence = []
    for c in text:
        if c == ' ':
            ch = self.char_map['']
        else:
            ch = self.char_map[c]
        int_sequence.append(ch)
    return int_sequence

def int_to_text(self, labels):
    string = []
    for i in labels:
        string.append(self.index_map[i])
    return ''.join(string).replace('', ' ')

trainaudiotransforms = nn.Sequential( torchaudio.transforms.MelSpectrogram(samplerate=16000, nmels=128), torchaudio.transforms.FrequencyMasking(freqmaskparam=15), torchaudio.transforms.TimeMasking(timemaskparam=35) ) text_transform = TextTransform() ```

定义模型

我们的模型结构类似于Deep Speech 2，由两部分组成：学习相关音频特征的残差卷积神经网络（ResCNN）和利用这些特征的双向递归神经网络（BiRNN）。该模型的输出是一个字符概率矩阵。

```python class CNNLayerNorm(nn.Module): def init(self, nfeats): super(CNNLayerNorm, self).init() self.layernorm = nn.LayerNorm(n_feats)

def forward(self, x):
    x = x.transpose(2, 3).contiguous()
    x = self.layer_norm(x)
    return x.transpose(2, 3).contiguous()

class ResidualCNN(nn.Module): def init(self, inchannels, outchannels, kernel, stride, dropout, nfeats): super(ResidualCNN, self).init() self.cnn1 = nn.Conv2d(inchannels, outchannels, kernel, stride, padding=kernel // 2) self.cnn2 = nn.Conv2d(outchannels, outchannels, kernel, stride, padding=kernel // 2) self.dropout1 = nn.Dropout(dropout) self.dropout2 = nn.Dropout(dropout) self.layernorm1 = CNNLayerNorm(nfeats) self.layernorm2 = CNNLayerNorm(n_feats)

def forward(self, x):
    residual = x
    x = self.layer_norm1(x)
    x = F.gelu(x)
    x = self.dropout1(x)
    x = self.cnn1(x)
    x = self.layer_norm2(x)
    x = F.gelu(x)
    x = self.dropout2(x)
    x = self.cnn2(x)
    x += residual
    return x

class BidirectionalGRU(nn.Module): def init(self, rnndim, hiddensize, dropout, batchfirst): super(BidirectionalGRU, self).init() self.BiGRU = nn.GRU(inputsize=rnndim, hiddensize=hiddensize, numlayers=1, batchfirst=batchfirst, bidirectional=True) self.layernorm = nn.LayerNorm(rnndim) self.dropout = nn.Dropout(dropout)

def forward(self, x):
    x = self.layer_norm(x)
    x = F.gelu(x)
    x, _ = self.BiGRU(x)
    x = self.dropout(x)
    return x

class SpeechRecognitionModel(nn.Module): def init(self, ncnnlayers, nrnnlayers, rnndim, nclass, nfeats, stride=2, dropout=0.1): super(SpeechRecognitionModel, self).init() nfeats = nfeats // 2 self.cnn = nn.Conv2d(1, 32, 3, stride=stride, padding=3 // 2) self.rescnnlayers = nn.Sequential([ ResidualCNN(32, 32, kernel=3, stride=1, dropout=dropout, n_feats=n_feats) for _ in range(n_cnn_layers) ]) self.fully_connected = nn.Linear(n_feats * 32, rnn_dim) self.birnn_layers = nn.Sequential([ BidirectionalGRU(rnndim=rnndim if i == 0 else rnndim * 2, hiddensize=rnndim, dropout=dropout, batchfirst=i == 0) for i in range(nrnnlayers) ]) self.classifier = nn.Sequential( nn.Linear(rnndim * 2, rnndim), nn.GELU(), nn.Dropout(dropout), nn.Linear(rnndim, nclass) )

def forward(self, x):
    x = self.cnn(x)
    x = self.rescnn_layers(x)
    sizes = x.size
    x = x.view(sizes[0], sizes[1] * sizes[2], sizes[3])
    x = x.transpose(1, 2)
    x = self.fully_connected(x)
    x = self.birnn_layers(x)
    x = self.classifier(x)
    return x

```

优化器和调度器

优化器和学习率调度器对模型的收敛至关重要。我们使用AdamW优化器和周期学习率调度器，以提高模型的训练效率。

python optimizer = optim.AdamW(model.parameters(), hparams['learning_rate']) scheduler = optim.lr_scheduler.OneCycleLR(optimizer, max_lr=hparams['learning_rate'], steps_per_epoch=int(len(train_loader)), epochs=hparams['epochs'], anneal_strategy='linear')

CTC损失功能

CTC损失功能允许模型在训练过程中自动对齐文本和音频。PyTorch内置了CTC损失功能，可以方便地集成到模型中。

python criterion = nn.CTCLoss(blank=28).to(device)

模型评估

评估语音识别模型的标准是单词错误率（WER）和字符错误率（CER）。这些指标可以有效地衡量模型的性能。

python def GreedyDecoder(output, labels, label_lengths, blank_label=28, collapse_repeated=True): arg_maxes = torch.argmax(output, dim=2) decodes = [] targets = [] for i, args in enumerate(arg_maxes): decode = [] targets.append(text_transform.int_to_text(labels[i][:label_lengths[i]].tolist())) for j, index in enumerate(args): if index != blank_label: if collapse_repeated and j != 0 and index == args[j - 1]: continue decode.append(index.item()) decodes.append(text_transform.int_to_text(decode)) return decodes, targets

使用Comet.ml训练和监测实验

Comet.ml提供了一个平台，可以跟踪、比较、解释和优化实验和模型。通过使用Comet.ml，我们可以高效地监控模型的训练进度。

python experiment = Experiment(api_key=comet_api_key, project_name=project_name) experiment.set_name(exp_name) experiment.log_metric('loss', loss.item)