pythonhunters/Pythonhunter-transcription

Folders and files

Name		Name	Last commit message	Last commit date
Latest commit History 29 Commits
src		src
transcription		transcription
README.md		README.md

Repository files navigation

Pythonhunter-transcription

捕蛇者说文字稿

温馨提示

large模型占用空间约2G,请注意预留充足SSD空间。
批量转的vtt可能没有毫秒。

参考代码

获取篇目

可访问 https://pythonhunter.org/feed/audio.xml 获取所有过往播客内容

获取URL

curl -s https://pythonhunter.org/feed/audio.xml | grep -oE 'enclosure url="([^"]+)"' | cut -d\" -f 2 > meta_url.txt

获取标题

curl -s https://pythonhunter.org/feed/audio.xml | grep -oP '<title>\s*<!\[CDATA\[\K[^]]*' > meta_title.txt

请注意,这样获取的title在特别篇并不完整,并且存在一些不是title的也被扩充进来,请手动校对令其和url一样长(尚未自动化)

合并与下载

见 /src/merge_and_download.py

文本处理

使用Whisper转换文本

whisper ep0.mp3 --language=Chinese --model large --initial_prompt="以下是普通话的句子。"

清理不需要的多格式输出文件

我们假设你直接从Terminal里面复制文本(而不是输出到文件(或者输出到.srt/.tsv/.txt/.vtt/.json以外的格式))

见 /src/cleanup.py

VTT转whisper格式

见 /src/vtt_2_whisper.py

About

No description, website, or topics provided.

Releases

No releases published

Packages

No packages published

Contributors 2

Languages

Python 100.0%

Navigation Menu

Search code, repositories, users, issues, pull requests...

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

pythonhunters/Pythonhunter-transcription

Folders and files

Latest commit

History

Repository files navigation

Pythonhunter-transcription

温馨提示

参考代码

获取篇目

文本处理

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages

Contributors 2

Uh oh!

Languages

pythonhunters/Pythonhunter-transcription

Folders and files

Latest commit

History

Repository files navigation

Pythonhunter-transcription

温馨提示

参考代码

获取篇目

文本处理

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Contributors 2

Uh oh!

Languages

Packages