Python 处理 word 文档(一):Document 、Paragraph 和 Run 对象的
简介:
.docx 文件结构在 python-docx 中的三种类型:
Document 对象表示整个文档;Paragrapha 对象标识段落(在输入文档,每一次回车产生新段落);Run 对象标识相同样式的文本延续。
Document 对象包含一个 Paragrapha 对象的列表,Paragraph 对象包含一个 Run 对象的列表。
文档内容:
0、准备工作
0.1 安装包
pip install python-docx
0.2 导入相关包
import os
import re
import docx
0.3 工作路径设置
work_path = \'E:\\pyspace\\wdocuments\'
os.chdir(work_path)
1、读取 word 文档
doc = docx.Document(\'python 演示文档.docx\') # Document 对象
len(doc.paragraphs) # Paragraph 对象列表的长度
2、 paragraph 对象
for i, para in enumerate(doc.paragraphs):
print(f\'No.{i+1}\n\', para.text, sep=\'\')
3、run 对象
for i, para in enumerate(doc.paragraphs):
for j, run in enumerate(para.runs):
print(f\'Para.{i+1} Run{j+i}: \', run.text, sep=\'\')