親親寶貝連鎖店（親寶貝店鋪）

發(fā)布時(shí)間：2022-06-25 瀏覽次數(shù)：822 評(píng)論次數(shù)：0

如果你有從PDF中批量提取表格的需求，那么這篇文章就是你的福音。

Python 第三方模塊 Camelot 能夠精準(zhǔn)識(shí)別PDF中的表格信息，并提取為pandas數(shù)據(jù)結(jié)構(gòu)，而且還能導(dǎo)出為多種格式：JSON，excel，html和Sqlite。

下面給大家介紹這個(gè)模塊的使用方法：

1.準(zhǔn)備

開(kāi)始之前，你要確保Python和pip已經(jīng)成功安裝在電腦上，如果沒(méi)有，可以訪問(wèn)這篇文章：超詳細(xì)Python安裝指南進(jìn)行安裝。

如果你用Python的目的是數(shù)據(jù)分析，可以直接安裝Anaconda：Python數(shù)據(jù)分析與挖掘好幫手—Anaconda，它內(nèi)置了Python和pip.

此外，推薦大家用VSCode編輯器，它有許多的優(yōu)點(diǎn)：Python 編程的最好搭檔—VSCode 詳細(xì)指南。

請(qǐng)選擇以下任一種方式輸入命令安裝依賴(lài)：
1. Windows 環(huán)境打開(kāi) Cmd (開(kāi)始-運(yùn)行-CMD)。
2. MacOS 環(huán)境打開(kāi) Terminal (command+空格輸入Terminal)。
3. 如果你用的是 VSCode編輯器或 Pycharm，可以直接使用界面下方的Terminal.

pip install camelot-py[cv]

2.使用

最簡(jiǎn)單的使用方式如下：

import camelot
# 1.讀取pdf
tables = camelot.read_pdf('foo.pdf', flavor='stream')
# 2.導(dǎo)出pdf所有的表格為csv文件
tables.export('foo.csv', f='csv') # json, excel, html, sqlite

第一行，導(dǎo)入camelot這個(gè)模塊。

第二行，以stream的模式讀取當(dāng)前目錄的foo.pdf文件。

第三行，將所有表格數(shù)據(jù)導(dǎo)出為 foo.csv 文件，并保存在當(dāng)前文件夾下。

相當(dāng)簡(jiǎn)單，請(qǐng)注意，read_pdf 的 flavor 參數(shù)是可選的，如果你不帶這個(gè)參數(shù)，請(qǐng)注意需要安裝 ghostscript 這個(gè)驅(qū)動(dòng)，因?yàn)樗J(rèn)使用 ghostscript 去用 lattice 模式。

3.進(jìn)階

3.1 處理背景線(xiàn)：

可以看到，很多表格的線(xiàn)都隱藏在背景中。這種表格默認(rèn)是不支持的，這時(shí)候我們需要讓程序能夠自動(dòng)識(shí)別這樣的表格：

tables = camelot.read_pdf('background_lines.pdf', process_background=True)

增加 process_background=True 參數(shù)即可。

3.2 指定表格區(qū)域

某些情況下無(wú)法正確識(shí)別到PDF中的表格，此時(shí)手動(dòng)設(shè)定左上角和右下角的邊界可能是有效果的：

tables = camelot.read_pdf('table_areas.pdf', flavor='stream', table_areas=['316,499,566,337'])

其中 table_areas 接受格式為 x1，y1，x2，y2 的字符串，其中(x1，y1) -> 左上角, (x2，y2) -> 右下角。在PDF坐標(biāo)空間中，頁(yè)面的左下角是原點(diǎn)，坐標(biāo)為（0，0）。

好了，這篇文章的內(nèi)容發(fā)貨聯(lián)盟就和大家分享到這里，如果大家網(wǎng)絡(luò)推廣引流創(chuàng)業(yè)感興趣，可以添加微信：80709525 備注：發(fā)貨聯(lián)盟引流學(xué)習(xí)；我拉你進(jìn)直播課程學(xué)習(xí)群，每周135晚上都是有實(shí)戰(zhàn)干貨的推廣引流技術(shù)課程免費(fèi)分享！

關(guān)鍵詞：表格 Python 安裝文件 pdf 參數(shù)

版權(quán)聲明：本文內(nèi)容由互聯(lián)網(wǎng)用戶(hù)自發(fā)貢獻(xiàn)，該文觀點(diǎn)僅代表作者本人。本站僅提供信息存儲(chǔ)空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如發(fā)現(xiàn)本站有涉嫌抄襲侵權(quán)/違法違規(guī)的內(nèi)容，請(qǐng)發(fā)送郵件至 sumchina520@foxmail.com 舉報(bào)，一經(jīng)查實(shí)，本站將立刻刪除。

您可能還會(huì)喜歡：

發(fā)表評(píng)論

◎歡迎參與討論，請(qǐng)?jiān)谶@里發(fā)表您的看法、交流您的觀點(diǎn)。