🚀 快速安装
复制以下命令并运行,立即安装此 Skill:
npx @anthropic-ai/skills install anthropics/skills/docx
💡 提示:需要 Node.js 和 NPM
DOCX 创建、编辑与分析
概述
.docx 文件是一个包含 XML 文件的 ZIP 压缩包。
快速参考
| 任务 | 方法 |
|---|---|
| 读取/分析内容 | pandoc 或解压后查看原始 XML |
| 创建新文档 | 使用 docx-js – 参见下面的“创建新文档” |
| 编辑现有文档 | 解压 → 编辑 XML → 重新打包 – 参见下面的“编辑现有文档” |
转换 .doc 为 .docx
旧的 .doc 文件在编辑前必须先转换:
python scripts/office/soffice.py --headless --convert-to docx document.doc
读取内容
# 提取文本,包含修订
pandoc --track-changes=all document.docx -o output.md
# 访问原始 XML
python scripts/office/unpack.py document.docx unpacked/
转换为图片
python scripts/office/soffice.py --headless --convert-to pdf document.docx
pdftoppm -jpeg -r 150 document.pdf page
接受所有修订
要生成一个已接受所有修订的干净文档(需要 LibreOffice):
python scripts/accept_changes.py input.docx output.docx
创建新文档
使用 JavaScript 生成 .docx 文件,然后进行验证。安装:npm install -g docx
设置
const { Document, Packer, Paragraph, TextRun, Table, TableRow, TableCell, ImageRun,
Header, Footer, AlignmentType, PageOrientation, LevelFormat, ExternalHyperlink,
InternalHyperlink, Bookmark, FootnoteReferenceRun, PositionalTab,
PositionalTabAlignment, PositionalTabRelativeTo, PositionalTabLeader,
TabStopType, TabStopPosition, Column, SectionType,
TableOfContents, HeadingLevel, BorderStyle, WidthType, ShadingType,
VerticalAlign, PageNumber, PageBreak } = require('docx');
const doc = new Document({ sections: [{ children: [/* 内容 */] }] });
Packer.toBuffer(doc).then(buffer => fs.writeFileSync("doc.docx", buffer));
验证
创建文件后,对其进行验证。如果验证失败,解压、修复 XML、然后重新打包。
python scripts/office/validate.py doc.docx
页面尺寸
// 关键:docx-js 默认为 A4,不是美国信纸
// 始终明确设置页面尺寸以确保结果一致
sections: [{
properties: {
page: {
size: {
width: 12240, // 8.5 英寸,单位 DXA
height: 15840 // 11 英寸,单位 DXA
},
margin: { top: 1440, right: 1440, bottom: 1440, left: 1440 } // 1 英寸页边距
}
},
children: [/* 内容 */]
}]
常见页面尺寸(DXA 单位,1440 DXA = 1 英寸):
| 纸张 | 宽度 | 高度 | 内容宽度(1英寸页边距) |
|---|---|---|---|
| 美国信纸 | 12,240 | 15,840 | 9,360 |
| A4(默认) | 11,906 | 16,838 | 9,026 |
横向模式: docx-js 内部会交换宽度/高度,因此传入纵向尺寸,让它处理交换:
size: {
width: 12240, // 将短边作为宽度传入
height: 15840, // 将长边作为高度传入
orientation: PageOrientation.LANDSCAPE // docx-js 在 XML 中会交换它们
},
// 内容宽度 = 15840 - 左边距 - 右边距 (将使用长边)
样式(覆盖内置标题样式)
使用 Arial 作为默认字体(通用支持)。标题保持黑色以确保可读性。
const doc = new Document({
styles: {
default: { document: { run: { font: "Arial", size: 24 } } }, // 12pt 默认字体
paragraphStyles: [
// 重要:使用精确的 ID 来覆盖内置样式
{ id: "Heading1", name: "Heading 1", basedOn: "Normal", next: "Normal", quickFormat: true,
run: { size: 32, bold: true, font: "Arial" },
paragraph: { spacing: { before: 240, after: 240 }, outlineLevel: 0 } }, // outlineLevel 对目录是必需的
{ id: "Heading2", name: "Heading 2", basedOn: "Normal", next: "Normal", quickFormat: true,
run: { size: 28, bold: true, font: "Arial" },
paragraph: { spacing: { before: 180, after: 180 }, outlineLevel: 1 } },
]
},
sections: [{
children: [
new Paragraph({ heading: HeadingLevel.HEADING_1, children: [new TextRun("标题")] }),
]
}]
});
列表(切勿使用 unicode 项目符号)
// ❌ 错误 - 切勿手动插入项目符号字符
new Paragraph({ children: [new TextRun("• 项目")] }) // 错误
new Paragraph({ children: [new TextRun("\u2022 项目")] }) // 错误
// ✅ 正确 - 使用带 LevelFormat.BULLET 的编号配置
const doc = new Document({
numbering: {
config: [
{ reference: "bullets",
levels: [{ level: 0, format: LevelFormat.BULLET, text: "•", alignment: AlignmentType.LEFT,
style: { paragraph: { indent: { left: 720, hanging: 360 } } } }] },
{ reference: "numbers",
levels: [{ level: 0, format: LevelFormat.DECIMAL, text: "%1.", alignment: AlignmentType.LEFT,
style: { paragraph: { indent: { left: 720, hanging: 360 } } } }] },
]
},
sections: [{
children: [
new Paragraph({ numbering: { reference: "bullets", level: 0 },
children: [new TextRun("项目符号项")] }),
new Paragraph({ numbering: { reference: "numbers", level: 0 },
children: [new TextRun("编号项")] }),
]
}]
});
// ⚠️ 每个引用创建独立的编号序列
// 相同引用 = 继续编号 (1,2,3 然后 4,5,6)
// 不同引用 = 重新开始编号 (1,2,3 然后 1,2,3)
表格
关键:表格需要双重宽度 – 同时在表格上设置 columnWidths 和在每个单元格上设置 width。缺少任一,表格在某些平台上会渲染不正确。
// 关键:始终设置表格宽度以确保一致渲染
// 关键:使用 ShadingType.CLEAR(而不是 SOLID)以防止黑色背景
const border = { style: BorderStyle.SINGLE, size: 1, color: "CCCCCC" };
const borders = { top: border, bottom: border, left: border, right: border };
new Table({
width: { size: 9360, type: WidthType.DXA }, // 始终使用 DXA(百分比在 Google Docs 中会出错)
columnWidths: [4680, 4680], // 总和必须等于表格宽度(DXA: 1440 = 1 英寸)
rows: [
new TableRow({
children: [
new TableCell({
borders,
width: { size: 4680, type: WidthType.DXA }, // 同样在每个单元格上设置
shading: { fill: "D5E8F0", type: ShadingType.CLEAR }, // 使用 CLEAR 而不是 SOLID
margins: { top: 80, bottom: 80, left: 120, right: 120 }, // 单元格内边距(内部,不增加到宽度)
children: [new Paragraph({ children: [new TextRun("单元格")] })]
})
]
})
]
})
表格宽度计算:
始终使用 WidthType.DXA — WidthType.PERCENTAGE 在 Google Docs 中会出错。
// 表格宽度 = columnWidths 的总和 = 内容宽度
// 美国信纸,1英寸页边距: 12240 - 2880 = 9360 DXA
width: { size: 9360, type: WidthType.DXA },
columnWidths: [7000, 2360] // 总和必须等于表格宽度
宽度规则:
- 始终使用
WidthType.DXA— 绝不使用WidthType.PERCENTAGE(与 Google Docs 不兼容) - 表格宽度必须等于
columnWidths的总和 - 单元格
width必须与对应的columnWidth匹配 - 单元格
margins是内边距——它们会减少内容区域,不会增加单元格宽度 - 对于全宽表格:使用内容宽度(页面宽度减去左右页边距)
图片
// 关键:type 参数是必需的
new Paragraph({
children: [new ImageRun({
type: "png", // 必需:png, jpg, jpeg, gif, bmp, svg
data: fs.readFileSync("image.png"),
transformation: { width: 200, height: 150 },
altText: { title: "标题", description: "描述", name: "名称" } // 三者都必需
})]
})
分页符
// 关键:PageBreak 必须放在 Paragraph 内部
new Paragraph({ children: [new PageBreak()] })
// 或者使用 pageBreakBefore
new Paragraph({ pageBreakBefore: true, children: [new TextRun("新页面")] })
超链接
// 外部链接
new Paragraph({
children: [new ExternalHyperlink({
children: [new TextRun({ text: "点击这里", style: "Hyperlink" })],
link: "https://example.com",
})]
})
// 内部链接(书签 + 引用)
// 1. 在目标位置创建书签
new Paragraph({ heading: HeadingLevel.HEADING_1, children: [
new Bookmark({ id: "chapter1", children: [new TextRun("第 1 章")] }),
]})
// 2. 链接到它
new Paragraph({ children: [new InternalHyperlink({
children: [new TextRun({ text: "查看第 1 章", style: "Hyperlink" })],
anchor: "chapter1",
})]})
脚注
const doc = new Document({
footnotes: {
1: { children: [new Paragraph("来源:2024 年度报告")] },
2: { children: [new Paragraph("有关方法,请参阅附录")] },
},
sections: [{
children: [new Paragraph({
children: [
new TextRun("收入增长了 15%"),
new FootnoteReferenceRun(1),
new TextRun(" 使用调整后指标"),
new FootnoteReferenceRun(2),
],
})]
}]
});
制表位
// 在同一行右对齐文本(例如,日期与标题相对)
new Paragraph({
children: [
new TextRun("公司名称"),
new TextRun("\t2025年1月"),
],
tabStops: [{ type: TabStopType.RIGHT, position: TabStopPosition.MAX }],
})
// 点线前导符(例如目录样式)
new Paragraph({
children: [
new TextRun("引言"),
new TextRun({ children: [
new PositionalTab({
alignment: PositionalTabAlignment.RIGHT,
relativeTo: PositionalTabRelativeTo.MARGIN,
leader: PositionalTabLeader.DOT,
}),
"3",
]}),
],
})
多栏布局
// 等宽分栏
sections: [{
properties: {
column: {
count: 2, // 栏数
space: 720, // 栏间距,单位 DXA (720 = 0.5 英寸)
equalWidth: true,
separate: true, // 栏间分隔线
},
},
children: [/* 内容将自动跨栏流动 */]
}]
// 自定义宽度分栏 (equalWidth 必须为 false)
sections: [{
properties: {
column: {
equalWidth: false,
children: [
new Column({ width: 5400, space: 720 }),
new Column({ width: 3240 }),
],
},
},
children: [/* 内容 */]
}]
通过使用 type: SectionType.NEXT_COLUMN 的新节来强制分栏。
目录
// 关键:标题必须仅使用 HeadingLevel - 不能使用自定义样式
new TableOfContents("目录", { hyperlink: true, headingStyleRange: "1-3" })
页眉/页脚
sections: [{
properties: {
page: { margin: { top: 1440, right: 1440, bottom: 1440, left: 1440 } } // 1440 = 1 英寸
},
headers: {
default: new Header({ children: [new Paragraph({ children: [new TextRun("页眉")] })] })
},
footers: {
default: new Footer({ children: [new Paragraph({
children: [new TextRun("第 "), new TextRun({ children: [PageNumber.CURRENT] }), new TextRun(" 页")]
})] })
},
children: [/* 内容 */]
}]
docx-js 的关键规则
- 明确设置页面尺寸 – docx-js 默认为 A4;对于美国文档使用美国信纸 (12240 x 15840 DXA)
- 横向:传入纵向尺寸 – docx-js 内部会交换宽度/高度;将短边作为
width,长边作为height传入,并设置orientation: PageOrientation.LANDSCAPE - 绝不使用
\n– 使用单独的 Paragraph 元素 - 绝不使用 unicode 项目符号 – 配合编号配置使用
LevelFormat.BULLET - PageBreak 必须放在 Paragraph 中 – 单独使用会产生无效的 XML
- ImageRun 需要
type– 始终指定 png/jpg 等 - 始终使用 DXA 设置表格
width– 绝不使用WidthType.PERCENTAGE(在 Google Docs 中会出错) - 表格需要双重宽度 –
columnWidths数组和单元格width,两者必须匹配 - 表格宽度 = columnWidths 的总和 – 对于 DXA,确保它们精确相加
- 始终添加单元格边距 – 使用
margins: { top: 80, bottom: 80, left: 120, right: 120 }获得可读的内边距 - 使用
ShadingType.CLEAR– 对于表格底纹,绝不使用 SOLID - 绝不使用表格作为分隔线/规则 – 单元格有最小高度,会渲染为空白框(包括在页眉/页脚中);应在段落上使用
border: { bottom: { style: BorderStyle.SINGLE, size: 6, color: "2E75B6", space: 1 } }代替。对于两栏页脚,使用制表位(参见制表位部分),而不是表格 - 目录仅需 HeadingLevel – 标题段落上不能有自定义样式
- 覆盖内置样式 – 使用精确的 ID:”Heading1″, “Heading2” 等
- 包含
outlineLevel– 目录需要(H1 为 0,H2 为 1,等等)
编辑现有文档
按顺序遵循所有 3 个步骤。
步骤 1:解压
python scripts/office/unpack.py document.docx unpacked/
提取 XML,进行美化打印,合并相邻的 <w:r>,并将智能引号转换为 XML 实体(“ 等),以便它们在编辑后仍然有效。使用 --merge-runs false 跳过运行合并。
步骤 2:编辑 XML
编辑 unpacked/word/ 中的文件。有关模式,请参见下面的 XML 参考。
除非用户明确要求使用其他名称,否则将“Claude”用作修订和评论的作者。
直接使用编辑工具进行字符串替换。不要编写 Python 脚本。脚本会引入不必要的复杂性。编辑工具可以精确显示正在替换的内容。
关键:对新内容使用智能引号。在添加带有撇号或引号的文本时,使用 XML 实体来生成智能引号:
<!-- 使用这些实体以获得专业的排版效果 -->
<w:t>这里’有一个引号:“你好”</w:t>
| 实体 | 字符 |
|---|---|
‘ |
‘(左单引号) |
’ |
’(右单引号 / 撇号) |
“ |
“(左双引号) |
” |
”(右双引号) |
添加评论:使用 comment.py 来处理跨多个 XML 文件的样板代码(文本必须预先转义为 XML):
python scripts/comment.py unpacked/ 0 "包含 & 和 ’ 的评论文本"
python scripts/comment.py unpacked/ 1 "回复文本" --parent 0 # 回复评论 0
python scripts/comment.py unpacked/ 0 "文本" --author "自定义作者" # 自定义作者名称
然后将标记添加到 document.xml(参见 XML 参考中的评论部分)。
步骤 3:打包
python scripts/office/pack.py unpacked/ output.docx --original document.docx
使用自动修复进行验证,压缩 XML,并创建 DOCX。使用 --validate false 跳过验证。
自动修复将修复:
durableId>= 0x7FFFFFFF(重新生成有效的 ID)- 在包含空白的
<w:t>上缺失xml:space="preserve"
自动修复不会修复:
- 格式错误的 XML、无效的元素嵌套、缺失的关系、违反模式
常见陷阱
- 替换整个
<w:r>元素:在添加修订时,将整个<w:r>...</w:r>块替换为作为兄弟元素的<w:del>...<w:ins>...。不要将修订标签插入到 run 内部。 - 保留
<w:rPr>格式:将原始 run 的<w:rPr>块复制到您的修订 run 中,以保持粗体、字号等。
XML 参考
模式合规性
<w:pPr>中的元素顺序:<w:pStyle>、<w:numPr>、<w:spacing>、<w:ind>、<w:jc>,最后是<w:rPr>- 空白:为带有前导/尾随空格的
<w:t>添加xml:space="preserve" - RSID:必须是 8 位十六进制(例如
00AB1234)
修订
插入:
<w:ins w:id="1" w:author="Claude" w:date="2025-01-01T00:00:00Z">
<w:r><w:t>插入的文本</w:t></w:r>
</w:ins>
删除:
<w:del w:id="2" w:author="Claude" w:date="2025-01-01T00:00:00Z">
<w:r><w:delText>已删除的文本</w:delText></w:r>
</w:del>
在 <w:del> 内部:使用 <w:delText> 而不是 <w:t>,使用 <w:delInstrText> 而不是 <w:instrText>。
最小化编辑 – 只标记更改的内容:
<!-- 将“30天”改为“60天” -->
<w:r><w:t>期限为 </w:t></w:r>
<w:del w:id="1" w:author="Claude" w:date="...">
<w:r><w:delText>30</w:delText></w:r>
</w:del>
<w:ins w:id="2" w:author="Claude" w:date="...">
<w:r><w:t>60</w:t></w:r>
</w:ins>
<w:r><w:t> 天。</w:t></w:r>
删除整个段落/列表项 – 当删除段落的所有内容时,还要将段落标记标记为已删除,以便它与下一个段落合并。在 <w:pPr><w:rPr> 内部添加 <w:del/>:
<w:p>
<w:pPr>
<w:numPr>...</w:numPr> <!-- 如果存在列表编号 -->
<w:rPr>
<w:del w:id="1" w:author="Claude" w:date="2025-01-01T00:00:00Z"/>
</w:rPr>
</w:pPr>
<w:del w:id="2" w:author="Claude" w:date="2025-01-01T00:00:00Z">
<w:r><w:delText>正在删除的整个段落内容...</w:delText></w:r>
</w:del>
</w:p>
如果 <w:pPr><w:rPr> 中没有 <w:del/>,接受更改后将会留下一个空段落/列表项。
拒绝另一位作者的插入 – 将删除嵌套在他们的插入内部:
<w:ins w:author="张三" w:id="5">
<w:del w:author="Claude" w:id="10">
<w:r><w:delText>他们插入的文本</w:delText></w:r>
</w:del>
</w:ins>
恢复另一位作者的删除 – 在其删除后添加插入(不要修改他们的删除):
<w:del w:author="张三" w:id="5">
<w:r><w:delText>已删除的文本</w:delText></w:r>
</w:del>
<w:ins w:author="Claude" w:id="10">
<w:r><w:t>已删除的文本</w:t></w:r>
</w:ins>
评论
在运行 comment.py(参见步骤 2)之后,将标记添加到 document.xml。对于回复,使用 --parent 标志并将标记嵌套在父标记内部。
关键:<w:commentRangeStart> 和 <w:commentRangeEnd> 是 <w:r> 的兄弟元素,绝不能放在 <w:r> 内部。
<!-- 评论标记是 w:p 的直接子元素,绝不在 w:r 内部 -->
<w:commentRangeStart w:id="0"/>
<w:del w:id="1" w:author="Claude" w:date="2025-01-01T00:00:00Z">
<w:r><w:delText>已删除</w:delText></w:r>
</w:del>
<w:r><w:t> 更多文本</w:t></w:r>
<w:commentRangeEnd w:id="0"/>
<w:r><w:rPr><w:rStyle w:val="CommentReference"/></w:rPr><w:commentReference w:id="0"/></w:r>
<!-- 评论 0 包含嵌套的回复 1 -->
<w:commentRangeStart w:id="0"/>
<w:commentRangeStart w:id="1"/>
<w:r><w:t>文本</w:t></w:r>
<w:commentRangeEnd w:id="1"/>
<w:commentRangeEnd w:id="0"/>
<w:r><w:rPr><w:rStyle w:val="CommentReference"/></w:rPr><w:commentReference w:id="0"/></w:r>
<w:r><w:rPr><w:rStyle w:val="CommentReference"/></w:rPr><w:commentReference w:id="1"/></w:r>
图片
- 将图片文件添加到
word/media/ - 向
word/_rels/document.xml.rels添加关系:
<Relationship Id="rId5" Type=".../image" Target="media/image1.png"/>
- 向
[Content_Types].xml添加内容类型:
<Default Extension="png" ContentType="image/png"/>
- 在 document.xml 中引用:
<w:drawing>
<wp:inline>
<wp:extent cx="914400" cy="914400"/> <!-- EMUs: 914400 = 1 英寸 -->
<a:graphic>
<a:graphicData uri=".../picture">
<pic:pic>
<pic:blipFill><a:blip r:embed="rId5"/></pic:blipFill>
</pic:pic>
</a:graphicData>
</a:graphic>
</wp:inline>
</w:drawing>
依赖项
- pandoc:文本提取
- docx:
npm install -g docx(新建文档) - LibreOffice:PDF 转换(通过
scripts/office/soffice.py为沙盒环境自动配置) - Poppler:用于图片的
pdftoppm
📄 原始文档
完整文档(英文):
https://skills.sh/anthropics/skills/docx
💡 提示:点击上方链接查看 skills.sh 原始英文文档,方便对照翻译。

评论(0)