欢迎阅读 TorchCodec 文档!¶
TorchCodec 是一个 Python 库,用于在 CPU 和 CUDA GPU 上将视频和音频数据解码为 PyTorch 张量。它还支持音频编码,视频编码功能也即将推出!它的目标是快速、易于使用,并与 PyTorch 生态系统良好集成。如果您想使用 PyTorch 在视频和音频上训练机器学习模型,TorchCodec 可以帮您将这些媒体文件转换为数据。
我们通过以下方式实现这些功能:
遵循 Python 和 PyTorch 惯例的 Pythonic API。
依赖 FFmpeg 进行解码/编码。TorchCodec 使用您已安装的 FFmpeg 版本。FFmpeg 是一个成熟的库,覆盖范围广,在大多数系统上都可用。然而,它并不易于使用。TorchCodec 抽象了 FFmpeg 的复杂性,以确保其被正确高效地使用。
将数据作为 PyTorch 张量返回,可直接送入 PyTorch 变换或用于训练模型。
安装说明¶
如何安装 TorchCodec
解码¶
一个简单的视频解码示例
一个简单的音频解码示例
一个演示 CUDA GPU 解码的简单示例
如何高效地从云端解码视频
如何使用多个进程或线程解码视频。
如何从视频中采样规则和随机的片段
编码¶
如何编码音频样本