🚀 快速安装
复制以下命令并运行,立即安装此 Skill:
npx skills add https://skills.sh/inferen-sh/skills/elevenlabs-stt
💡 提示:需要 Node.js 和 NPM
ElevenLabs 语音转文本
通过 inference.sh CLI 使用 Scribe 模型实现高精度转录。

快速开始
需要 inference.sh CLI (
infsh)。安装说明
infsh login
# 转录音频
infsh app run elevenlabs/stt --input '{"audio": "https://audio.mp3"}'
可用模型
| 模型 | ID | 最佳用途 |
|---|---|---|
| Scribe v2 | scribe_v2 |
最新,最高精度(默认) |
| Scribe v1 | scribe_v1 |
稳定,经过验证 |
- 转录准确率 98% 以上
- 支持 90+ 种语言,可自动检测
示例
基础转录
infsh app run elevenlabs/stt --input '{"audio": "https://meeting-recording.mp3"}'
带说话人识别
infsh app run elevenlabs/stt --input '{
"audio": "https://meeting.mp3",
"diarize": true
}'
音频事件标记
检测笑声、掌声、音乐和其他非语音事件:
infsh app run elevenlabs/stt --input '{
"audio": "https://podcast.mp3",
"tag_audio_events": true
}'
指定语言
infsh app run elevenlabs/stt --input '{
"audio": "https://spanish-audio.mp3",
"language_code": "spa"
}'
完整选项
infsh app run elevenlabs/stt --input '{
"audio": "https://conference.mp3",
"model": "scribe_v2",
"diarize": true,
"tag_audio_events": true,
"language_code": "eng"
}'
强制对齐
通过将已知文本与音频对齐,获取精确的词级和字符级时间戳。适用于字幕、口型同步和卡拉 OK。
infsh app run elevenlabs/forced-alignment --input '{
"audio": "https://narration.mp3",
"text": "这是音频文件中说的确切文本。"
}'
输出格式
{
"words": [
{"text": "这是", "start": 0.0, "end": 0.3},
{"text": "音频", "start": 0.35, "end": 0.5},
{"text": "文件", "start": 0.55, "end": 0.65}
],
"text": "这是音频文件中说的确切文本。"
}
强制对齐应用场景
- 字幕:视频字幕的精确定时
- 口型同步:将音频与动画角色对齐
- 卡拉 OK:歌词的逐字定时
- 无障碍辅助:同步的文本记录
工作流:视频字幕
# 1. 转录视频音频
infsh app run elevenlabs/stt --input '{
"audio": "https://video.mp4",
"diarize": true
}' > transcript.json
# 2. 使用转录文本生成字幕
infsh app run infsh/caption-videos --input '{
"video_url": "https://video.mp4",
"captions": "<第一步生成的转录文本>"
}'
支持的语言
支持 90+ 种语言,包括:英语、西班牙语、法语、德语、意大利语、葡萄牙语、中文、日语、韩语、阿拉伯语、印地语、俄语、土耳其语、荷兰语、瑞典语等。留空 language_code 可自动检测。
应用场景
- 会议:转录录音并识别说话人
- 播客:生成带音频事件标记的转录文本
- 字幕:为视频创建带时间戳的字幕
- 研究:带说话人区分的访谈转录
- 无障碍辅助:使音频内容可搜索和可访问
- 口型同步:为动画定时进行强制对齐
相关技能
# ElevenLabs 文本转语音(反向操作)
npx skills add inference-sh/skills@elevenlabs-tts
# ElevenLabs 配音(翻译音频)
npx skills add inference-sh/skills@elevenlabs-dubbing
# 其他语音转文本模型(Whisper)
npx skills add inference-sh/skills@speech-to-text
# 完整平台技能(150+ 个应用)
npx skills add inference-sh/skills@infsh-cli
浏览所有音频应用:infsh app list --category audio
📄 原始文档
完整文档(英文):
https://skills.sh/inferen-sh/skills/elevenlabs-stt
💡 提示:点击上方链接查看 skills.sh 原始英文文档,方便对照翻译。
声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。

评论(0)