Idea
🗒️基于李自然说的153期视频,做了一个『数字李自然』GPTs Bot
00 min
Nov 20, 2023
Dec 6, 2023
type
status
date
slug
summary
tags
category
icon
password
Author
Featured
Featured
Published
Public
Public
这周需要写一下 BP, 想起几年前看过李自然的一个视频(封面如下,印象深刻)。当时他还帮免费改 🥹 估计现在是没有这福利了。所以!我决定做一个数字李自然出来教我!
这里是基于他的 YouTube 153期节目(~ 69小时)制作的『数字李自然v1』:
 
 
下面我分享一下制作流程

效果演示

notion image
notion image
notion image
notion image
 
这个主要挑战肯定不是在 GPTs 创建上(毕竟这个可能一分钟就能做完),而是知识库这块——因为李自然的所有视频都没有外挂字幕,所以我没办法直接从 YouTube 上批量下载下来。。。
于是步骤1来了
 

步骤1 - 从 YouTube 页面获取所有视频的 URLs

参考此教程
我得到了如下下载列表
notion image
 

步骤2 - 批量下载视频文件

懒得自己写 script ,直接问 ChatGPT。运行后得到如下视频文件:
notion image
notion image
notion image
 

步骤3 - 合成一个文件

考虑到一个一个处理太麻烦,所以这次就简单粗暴一些,直接把所有文件全部拖入剪映,导出一个完整的68.5小时 (4GB) 的音频文件
 
 

步骤4 - 高速转录

偶然看到这篇推文 - 高速转录工具 Insanely Fast Whisper
 
这应该是求快速验证的不二之选了 —— 否则现有工具根本没有一次性转录60+小时的能力。
运行在我的 3090 上,默认设置,68小时的音频转录耗时一个多小时左右,很给力了!(当然风扇也呼呼吹了一个小时。。。)输出结果是一个巨大的JSON文件(~15MB)
notion image
notion image
 
 
最后,把文本内容传到 GPTs 里就可以作为知识库啦!当然这只是一个花了几个小时的 baby 项目。尤其是考虑到李自然说节目的模式很多时候是临场反应,所有有很多口水话。后期如果做一些文字压缩和整理,应该效果会好很多。
 
 
感谢阅读!欢迎尝试『数字李自然v1』:
 

Comments
  • Giscus