可將 PDF 轉(zhuǎn)換成 docx 文件的 Python 庫。該項目通過 PyMuPDF 庫提取 PDF 文件中的數(shù)據(jù),然后采用 python-docx 庫解析內(nèi)容的布局、段落、圖片、表格等,最后自動生成 docx 文件。
pdf2docx功能
- 解析和創(chuàng)建頁面布局
- 頁邊距
- 章節(jié)和分欄 (目前最多支持兩欄布局)
- 頁眉和頁腳 [TODO]
- 解析和創(chuàng)建段落
- OCR 文本 [TODO]
- 水平(從左到右)或豎直(自底向上)方向文本
- 字體樣式例如字體、字號、粗/斜體、顏色
- 文本樣式例如高亮、下劃線和刪除線
- 列表樣式 [TODO]
- 外部超鏈接
- 段落水平對齊方式 (左/右/居中/分散對齊)及前后間距
- 解析和創(chuàng)建圖片
- 內(nèi)聯(lián)圖片
- 灰度/RGB/CMYK等顏色空間圖片
- 帶有透明通道圖片
- 浮動圖片(襯于文字下方)
- 解析和創(chuàng)建表格
- 邊框樣式例如寬度和顏色
- 單元格背景色
- 合并單元格
- 單元格垂直文本
- 隱藏部分邊框線的表格
- 嵌套表格
- 支持多進程轉(zhuǎn)換
pdf2docx同時解析出了表格內(nèi)容和樣式,因此也可以作為一個表格內(nèi)容提取工具。
限制
- 目前暫不支持掃描PDF文字識別
- 僅支持從左向右書寫的語言(因此不支持阿拉伯語)
- 不支持旋轉(zhuǎn)的文字
- 基于規(guī)則的解析無法保證100%還原PDF樣式
安裝
pip install pdf2docx
案例
from pdf2docx import parse
pdf_file = '/path/to/sample.pdf'
docx_file = 'path/to/sample.docx'
# convert pdf to docx
parse(pdf_file, docx_file)
Run