🚀 快速安装

复制以下命令并运行，立即安装此 Skill：

npx skills add https://skills.sh/inferen-sh/skills/elevenlabs-stt

💡 提示：需要 Node.js 和 NPM

ElevenLabs 语音转文本

通过 inference.sh CLI 使用 Scribe 模型实现高精度转录。

快速开始

需要 inference.sh CLI (infsh)。安装说明

infsh login

# 转录音频
infsh app run elevenlabs/stt --input '{"audio": "https://audio.mp3"}'

可用模型

模型	ID	最佳用途
Scribe v2	`scribe_v2`	最新，最高精度（默认）
Scribe v1	`scribe_v1`	稳定，经过验证

转录准确率 98% 以上
支持 90+ 种语言，可自动检测

示例

基础转录

infsh app run elevenlabs/stt --input '{"audio": "https://meeting-recording.mp3"}'

带说话人识别

infsh app run elevenlabs/stt --input '{
  "audio": "https://meeting.mp3",
  "diarize": true
}'

音频事件标记

检测笑声、掌声、音乐和其他非语音事件：

infsh app run elevenlabs/stt --input '{
  "audio": "https://podcast.mp3",
  "tag_audio_events": true
}'

指定语言

infsh app run elevenlabs/stt --input '{
  "audio": "https://spanish-audio.mp3",
  "language_code": "spa"
}'

完整选项

infsh app run elevenlabs/stt --input '{
  "audio": "https://conference.mp3",
  "model": "scribe_v2",
  "diarize": true,
  "tag_audio_events": true,
  "language_code": "eng"
}'

强制对齐

通过将已知文本与音频对齐，获取精确的词级和字符级时间戳。适用于字幕、口型同步和卡拉 OK。

infsh app run elevenlabs/forced-alignment --input '{
  "audio": "https://narration.mp3",
  "text": "这是音频文件中说的确切文本。"
}'

输出格式

{
  "words": [
    {"text": "这是", "start": 0.0, "end": 0.3},
    {"text": "音频", "start": 0.35, "end": 0.5},
    {"text": "文件", "start": 0.55, "end": 0.65}
  ],
  "text": "这是音频文件中说的确切文本。"
}

强制对齐应用场景

字幕：视频字幕的精确定时
口型同步：将音频与动画角色对齐
卡拉 OK：歌词的逐字定时
无障碍辅助：同步的文本记录

工作流：视频字幕

# 1. 转录视频音频
infsh app run elevenlabs/stt --input '{
  "audio": "https://video.mp4",
  "diarize": true
}' > transcript.json

# 2. 使用转录文本生成字幕
infsh app run infsh/caption-videos --input '{
  "video_url": "https://video.mp4",
  "captions": "<第一步生成的转录文本>"
}'

支持的语言

支持 90+ 种语言，包括：英语、西班牙语、法语、德语、意大利语、葡萄牙语、中文、日语、韩语、阿拉伯语、印地语、俄语、土耳其语、荷兰语、瑞典语等。留空 language_code 可自动检测。

应用场景

会议：转录录音并识别说话人
播客：生成带音频事件标记的转录文本
字幕：为视频创建带时间戳的字幕
研究：带说话人区分的访谈转录
无障碍辅助：使音频内容可搜索和可访问
口型同步：为动画定时进行强制对齐

相关技能

# ElevenLabs 文本转语音（反向操作）
npx skills add inference-sh/skills@elevenlabs-tts

# ElevenLabs 配音（翻译音频）
npx skills add inference-sh/skills@elevenlabs-dubbing

# 其他语音转文本模型（Whisper）
npx skills add inference-sh/skills@speech-to-text

# 完整平台技能（150+ 个应用）
npx skills add inference-sh/skills@infsh-cli

浏览所有音频应用：infsh app list --category audio

📄 原始文档

完整文档（英文）：

https://skills.sh/inferen-sh/skills/elevenlabs-stt

💡 提示：点击上方链接查看 skills.sh 原始英文文档，方便对照翻译。

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

ElevenLabs Speech-to-Text

🚀 快速安装

ElevenLabs 语音转文本

快速开始

可用模型

示例

基础转录

带说话人识别

音频事件标记

指定语言

完整选项

强制对齐

输出格式

强制对齐应用场景

工作流：视频字幕

支持的语言

应用场景

相关技能

📄 原始文档

评论(0)

提示：请文明发言取消回复

ElevenLabs Speech-to-Text

🚀 快速安装

ElevenLabs 语音转文本

快速开始

可用模型

示例

基础转录

带说话人识别

音频事件标记

指定语言

完整选项

强制对齐

输出格式

强制对齐应用场景

工作流：视频字幕

支持的语言

应用场景

相关技能

📄 原始文档

评论(0)

提示：请文明发言 取消回复

相关文章

auto-skill – 汇易宝

caido-mode – 汇易宝

discord-bot-architect – 汇易宝

vwu-sora – 汇易宝

提示：请文明发言取消回复