🚀 快速安装

复制以下命令并运行,立即安装此 Skill:

npx skills add https://skills.sh/inferen-sh/skills/elevenlabs-stt

💡 提示:需要 Node.js 和 NPM

ElevenLabs 语音转文本

通过 inference.sh CLI 使用 Scribe 模型实现高精度转录。

ElevenLabs STT

快速开始

需要 inference.sh CLI (infsh)。安装说明

infsh login

# 转录音频
infsh app run elevenlabs/stt --input '{"audio": "https://audio.mp3"}'

可用模型

模型 ID 最佳用途
Scribe v2 scribe_v2 最新,最高精度(默认)
Scribe v1 scribe_v1 稳定,经过验证
  • 转录准确率 98% 以上
  • 支持 90+ 种语言,可自动检测

示例

基础转录

infsh app run elevenlabs/stt --input '{"audio": "https://meeting-recording.mp3"}'

带说话人识别

infsh app run elevenlabs/stt --input '{
  "audio": "https://meeting.mp3",
  "diarize": true
}'

音频事件标记

检测笑声、掌声、音乐和其他非语音事件:

infsh app run elevenlabs/stt --input '{
  "audio": "https://podcast.mp3",
  "tag_audio_events": true
}'

指定语言

infsh app run elevenlabs/stt --input '{
  "audio": "https://spanish-audio.mp3",
  "language_code": "spa"
}'

完整选项

infsh app run elevenlabs/stt --input '{
  "audio": "https://conference.mp3",
  "model": "scribe_v2",
  "diarize": true,
  "tag_audio_events": true,
  "language_code": "eng"
}'

强制对齐

通过将已知文本与音频对齐,获取精确的词级和字符级时间戳。适用于字幕、口型同步和卡拉 OK。

infsh app run elevenlabs/forced-alignment --input '{
  "audio": "https://narration.mp3",
  "text": "这是音频文件中说的确切文本。"
}'

输出格式

{
  "words": [
    {"text": "这是", "start": 0.0, "end": 0.3},
    {"text": "音频", "start": 0.35, "end": 0.5},
    {"text": "文件", "start": 0.55, "end": 0.65}
  ],
  "text": "这是音频文件中说的确切文本。"
}

强制对齐应用场景

  • 字幕:视频字幕的精确定时
  • 口型同步:将音频与动画角色对齐
  • 卡拉 OK:歌词的逐字定时
  • 无障碍辅助:同步的文本记录

工作流:视频字幕

# 1. 转录视频音频
infsh app run elevenlabs/stt --input '{
  "audio": "https://video.mp4",
  "diarize": true
}' > transcript.json

# 2. 使用转录文本生成字幕
infsh app run infsh/caption-videos --input '{
  "video_url": "https://video.mp4",
  "captions": "<第一步生成的转录文本>"
}'

支持的语言

支持 90+ 种语言,包括:英语、西班牙语、法语、德语、意大利语、葡萄牙语、中文、日语、韩语、阿拉伯语、印地语、俄语、土耳其语、荷兰语、瑞典语等。留空 language_code 可自动检测。

应用场景

  • 会议:转录录音并识别说话人
  • 播客:生成带音频事件标记的转录文本
  • 字幕:为视频创建带时间戳的字幕
  • 研究:带说话人区分的访谈转录
  • 无障碍辅助:使音频内容可搜索和可访问
  • 口型同步:为动画定时进行强制对齐

相关技能

# ElevenLabs 文本转语音(反向操作)
npx skills add inference-sh/skills@elevenlabs-tts

# ElevenLabs 配音(翻译音频)
npx skills add inference-sh/skills@elevenlabs-dubbing

# 其他语音转文本模型(Whisper)
npx skills add inference-sh/skills@speech-to-text

# 完整平台技能(150+ 个应用)
npx skills add inference-sh/skills@infsh-cli

浏览所有音频应用:infsh app list --category audio

📄 原始文档

完整文档(英文):

https://skills.sh/inferen-sh/skills/elevenlabs-stt

💡 提示:点击上方链接查看 skills.sh 原始英文文档,方便对照翻译。

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。