quicktime怎么转换mp4格式（新手必看格式转换技巧）

程序员文章站 2024-03-26 16:10:23

过去，让计算机区分猫和狗被认为是最先进的研究；而现在，图像分类就像是机器学习（ml）的「hello world」，可以使用 tensorflow 在几行代码中实现上。在短短的几年内，机器学习领域已经取...

过去，让计算机区分猫和狗被认为是最先进的研究；而现在，图像分类就像是机器学习（ml）的「hello world」，可以使用 tensorflow 在几行代码中实现上。在短短的几年内，机器学习领域已经取得了很大的进展，以至于现在，开发者们可以轻松地构建潜在「造福」或「致命」的应用程序。

因此，一位好奇的学者 tikeswar naik，通过简单的实验和我们讨论了这项技术的某一潜在滥用情况——使用 ml 来破解密码，希望通过这一介绍能够让更多人保持警惕，并找到减轻或防止滥用的方法。雷锋网 ai 开发者将其具体研究内容编译如下。

敲键盘的，你已经暴露了！

在文章开头，作者提出了一个大胆的想法：我们能不能仅仅通过听键盘敲击就知道某人在输入什么？而如果这一操作真的可以实现，那它背后的潜在应用，例如：黑客密码破译，是否将是非常严重的安全隐患呢？（如图 1 所示）

图 1：聆听击键（图片来源：rawpixel.com；eacs.com）

因此，作者参与了一个名为 kido（击键解码）的项目，来探索这是否可能实现。

我们将这样做

作者提出可以将这个问题，作为一个监督的机器学习问题来处理，然后再逐一完成以下所有步骤：

数据收集和准备
训练与评估
测试和误差分析（提高模型精度）
结论；github 链接

注：在这个项目中用到了 python、keras 和 tensorflow。

1. 数据收集

有很多方法可以收集得到敲击键盘的音频数据，在这个实验中，作者为了更好的证明机器学习破译密码在日常生活中的可行性，使用了日常使用的键盘进行打字，并通过内置麦克风 quicktime player 录制了打字的音频（图 2）。

图 2：使用笔记本键盘制作训练数据

这种方法有两个优点：一是数据的可变性较小；而正因数据可变性小，它将有助于我们集中注意力去证明（或反证）这个想法，而无须考虑更多变量。

2. 数据准备

明确了数据来源后，下一步是准备数据，这样我们就可以把它输入神经网络（nn）进行训练。

quicktime 将录制的音频保存为 mp4。首先我们需要将 mp4 转换为 wav，因为有很好的 python 库可以处理 wav 文件。图 3 右上角子图中的每个峰值对应于一个击键）。

图 3：将 mp4 转换为 wav，然后拆分

然后我们使用静音检测将音频分割成单独的块，这样每个块只包含一个字母。这之后，我们就可以将这些单独的块输入到神经网络中。

但作者想到了一个更好的方法，他选择将单个色块转换成频谱图（图 4）。现在，我们有了使用卷积神经网络（cnn），则可以提供更多信息且更易于使用的图像。

图 4：将单个块转换为频谱图

为了训练网络，作者收集了上面描述的 16000 个样本，确保每个字母至少有 600 个样本（图 5）。

图 5：数据样本

然后将数据重新整理，并分成训练集和验证集。每个字母有大约 500 个训练样本以及 100 个验证样本（图 6）。

图 6：训练-验证拆分

简而言之，这就是我们遇到的最大似然比问题，见图 7。

图 7：机器学习问题表示

3. 训练和验证

作者使用了一个相当小的简单网络架构（基于 laurence moroney 的剪刀石头布示例，
参见图 8。

其中，输入图像被缩放到 150 x 150 像素，并且它有 3 个颜色通道。然后它经过一系列的卷积+合并层，变平（用于防止过度拟合的丢失），被馈送到完全连接的层，最后是输出层。输出层有 26 个类，对应于每个字母。

图 8：网络架构

在 tensorflow 中，模型如下所示：

model = tf.keras.models.sequential([

# 1st convolution

tf.keras.layers.conv2d(64, (3,3), activation=’relu’, input_shape=(150, 150, 3)),

tf.keras.layers.maxpooling2d(2, 2),

# 2nd convolution

tf.keras.layers.conv2d(64, (3,3), activation=’relu’),

tf.keras.layers.maxpooling2d(2,2),

# 3rd convolution

tf.keras.layers.conv2d(128, (3,3), activation=’relu’),

tf.keras.layers.maxpooling2d(2,2),

# 4th convolution

tf.keras.layers.conv2d(128, (3,3), activation=’relu’),

tf.keras.layers.maxpooling2d(2,2),

# flatten the results to feed into a dnn

tf.keras.layers.flatten(),

tf.keras.layers.dropout(0.5),

# fc layer

tf.keras.layers.dense(512, activation=’relu’),

# output layer

tf.keras.layers.dense(26, activation=’softmax’)

])

以及模型摘要：

___________________________________________________________

layer (type) output shape param #

====================================

conv2d_4 (conv2d) (none, 148, 148, 64) 1792

___________________________________________________________

max_pooling2d_4 (maxpooling2 (none, 74, 74, 64) 0

___________________________________________________________

conv2d_5 (conv2d) (none, 72, 72, 64) 36928

___________________________________________________________

max_pooling2d_5 (maxpooling2 (none, 36, 36, 64) 0

___________________________________________________________

conv2d_6 (conv2d) (none, 34, 34, 128) 73856

___________________________________________________________

max_pooling2d_6 (maxpooling2 (none, 17, 17, 128) 0

___________________________________________________________

conv2d_7 (conv2d) (none, 15, 15, 128) 147584

___________________________________________________________

max_pooling2d_7 (maxpooling2 (none, 7, 7, 128) 0

___________________________________________________________

flatten_1 (flatten) (none, 6272) 0

___________________________________________________________

dropout_1 (dropout) (none, 6272) 0

___________________________________________________________

dense_2 (dense) (none, 512) 3211776

___________________________________________________________

dense_3 (dense) (none, 26) 13338

====================================

total params: 3,485,274

trainable params: 3,485,274

non-trainable params: 0