一文教会你用Python读取PDF文件
实战场景
Python PDF 实战编码
补充
实战场景Python 工程师在日常的工作中,经常会碰到解析和处理PDF文件的情况,实战中需求主要分为如下情况:
提取 PDF 中的文字
将 PDF 中每页转换为图片
word 转换为PDF
PDF生成,编辑,导入导出
PDF在线渲染
除了最后一项需要前端配合以外,其余内容都可以直接在 python 端进行实现。
本次实战选择 pdfplumber
库进行学习,可以提前安装该库,不过有一点需要注意,该库主要用于读取 PDF 进行操作,写入和编辑无法实现,即本文学习一款专注于 PDF 内容提取的库。
> pip install pdfplumber -i https://pypi.tuna.tsinghua.edu.cn/simple
pdfplumber
库具备如下特点:
可以访问PDF对象中的任意元素详细信息;
可以提取文本和表格,而且用法简单;
集成了可视化调试。
Python PDF 实战编码下面可以编写 PDF 操作的基础代码。
import pdfplumber
with pdfplumber.open('./dddd.pdf') as pdf:
for page in pdf.pages:
print(page.extract_text())
# 每页打印一分页分隔
print('---------- 分页分隔 ----------')
导入 pdfplumber
模块之后,使用 pdfplumber.open('./dddd.pdf')
打开本地 pdf 文件,然后通过 pdf.pages
遍历所有页,在通过页对象的 .extract_text()
方法,提取文本信息。
pdfplumber.open() 方法的签名如下所示:
pdfplumber.open("文件名", password = "密码", laparams = { "line_overlap": 0.7 })
其中各参数描述如下:
file_name
:文件名,必选参数;
password
:PDF的密码;
laparams
:布局参数。
除此之外,如果希望读取 PDF,还可以使用 load()
方法,该方法也会返回 pdfplumber.PDF
类的实例。
pdfplumber.PDF
对象实例,主要有两个重要属性:
.metadata
:从PDF的Info中获取元数据键 /值对字典。 通常包括“ CreationDate”,“ ModDate”,“ Producer”等;
.pages
:包含 pdfplumber.Page
实例的列表,每一个实例代表PDF每一页的信息。
上文提及的 pdfplumber.Page
实例是 pdfplumber
的核心,后续对 PDF 的操作大量围绕该类的属性和方法实施,其重要属性如下所示:
page_number
:页码顺序,第一页的序号是 1;
witdh
:宽度;
height
:高度;
.objects/.chars/.lines/.rects/.curves/.figures/.images
:获取PDF页中的重要数据。
核心方法如下所示:
extract_text()
:提取页中的文本;
extract_words()
:提取所有单词及其相关信息;
extract_tables()
: 提取页面的表格。
extract_text()
呈现结果
extract_words()
呈现结果
extract_tables()
呈现效果,由于 PDF 中无表格,所有每页得到的都是空!
当然Python除了读取PDF文件,还有一些其他功能,例如加密PDF,旋转和叠加页面等,下面是实现的示例代码
旋转和叠加页面
import PyPDF2
from PyPDF2.pdf import PageObject
# 创建一个读PDF文件的Reader对象
reader = PyPDF2.PdfFileReader('resources/XGBoost.pdf')
# 创建一个写PDF文件的Writer对象
writer = PyPDF2.PdfFileWriter()
# 对PDF文件所有页进行循环遍历
for page_num in range(reader.numPages):
# 获取指定页码的Page对象
current_page = reader.getPage(page_num) # type: PageObject
if page_num % 2 == 0:
# 奇数页顺时针旋转90度
current_page.rotateClockwise(90)
else:
# 偶数页反时针旋转90度
current_page.rotateCounterClockwise(90)
writer.addPage(current_page)
# 最后添加一个空白页并旋转90度
page = writer.addBlankPage() # type: PageObject
page.rotateClockwise(90)
# 通过Writer对象的write方法将PDF写入文件
with open('resources/XGBoost-modified.pdf', 'wb') as file:
writer.write(file)
加密PDF文件
import PyPDF2
reader = PyPDF2.PdfFileReader('resources/XGBoost.pdf')
writer = PyPDF2.PdfFileWriter()
for page_num in range(reader.numPages):
writer.addPage(reader.getPage(page_num))
# 通过encrypt方法加密PDF文件,方法的参数就是rre
#设置的密码
writer.encrypt('foobared')
with open('resources/XGBoost-encrypted.pdf', 'wb') as file:
writer.write(file)
批量添加水印
import PyPDF2
from PyPDF2.pdf import PageObject
reader1 = PyPDF2.PdfFileReader('resources/XGBoost.pdf') reader2 = PyPDF2.PdfFileReader('resources/watermark.pdf')
writer = PyPDF2.PdfFileWriter()
# 获取水印页
watermark_page = reader2.getPage(0)
for page_num in range(reader1.numPages):
current_page = reader1.getPage(page_num) # type: PageObject current_page.mergePage(watermark_page)
# 将原始页和水印页进行合并
writer.addPage(current_page)
# 将PDF写入文件
with open('resources/XGBoost-watermarked.pdf', 'wb') as file:
writer.write(file)
到此这篇关于一文教会你用Python读取PDF文件的文章就介绍到这了,更多相关Python读取PDF文件内容请搜索易知道(ezd.cc)以前的文章或继续浏览下面的相关文章希望大家以后多多支持易知道(ezd.cc)!
相关内容
-
win10多任务按键怎么设置在底部详细方法
win10多任务按键怎么设置在底部详细方法,按键,任务,在使用电脑...
-
电脑密码号怎么输入不了|电脑密码号怎么输入不
电脑密码号怎么输入不了|电脑密码号怎么输入不了字母,,电脑密...
-
电脑虚拟键盘快捷键|电脑虚拟键盘快捷键是哪个
电脑虚拟键盘快捷键|电脑虚拟键盘快捷键是哪个,,电脑虚拟键盘...
-
i3/i5的劲敌A8-3870K黑盒版
i3/i5的劲敌A8-3870K黑盒版,,在a6-3670k评价,我们觉得超频系列G...
-
华硕电脑系统win10|华硕电脑系统win10系统
华硕电脑系统win10|华硕电脑系统win10系统,,华硕电脑系统win10...
-
怎么设置电脑桌面|怎么设置电脑桌面壁纸
怎么设置电脑桌面|怎么设置电脑桌面壁纸,,怎么设置电脑桌面壁...
-
电脑测试手机的软件|电脑上测试手机用什么软件
电脑测试手机的软件|电脑上测试手机用什么软件好,,电脑上测试...
-
怎么用麦克风在电脑上唱歌|电脑如何用麦克风唱
怎么用麦克风在电脑上唱歌|电脑如何用麦克风唱歌,,1. 电脑如何...
-
678元的索泰zt-h55d3-m1dh主板
678元的索泰zt-h55d3-m1dh主板,,近日,索泰zt-h55d3-m1dh主板已...
-
键盘上的快捷键截图|电脑键盘上的截图快捷键
键盘上的快捷键截图|电脑键盘上的截图快捷键,,1. 电脑键盘上的...
-
学习写字楼新选择6000元主流配置
学习写字楼新选择6000元主流配置,,这种配置需要考虑双核心的办...
-
电脑麦克风说不了话了|电脑内置麦克风说不了话
电脑麦克风说不了话了|电脑内置麦克风说不了话怎么办,,1. 电脑...
-
硬盘库存迫切需要通过西方数据,三星已经停止向零
硬盘库存迫切需要通过西方数据,三星已经停止向零售商发送硬盘...
-
三千元推荐买什么笔记本电脑,打英雄联盟不卡很流
三千元推荐买什么笔记本电脑,打英雄联盟不卡很流畅,不玩吃鸡,笔...
-
金蝶专业版审核以前期间的单据
金蝶专业版审核以前期间的单据,,1.之前会计是手工做账,现在是...