[教學文]_抓取GOOGLE圖書上的書籍,並利用OCR辨識順利複製圖書的文字

本文章僅供學術研究使用,出發點也是因為學術需要才進行本教學文

抓取圖書時務必注意圖書的授權使用範圍以及版權宣告!

 

今天某研究生朋友跑來丟給我一個GOOGLE圖書的LINK,問我是否能夠複製該GOOGLE圖書的段落?…

看了一下他給的LINK,稍微翻了一下,看來GOOGLE不提供直接的PDF連結…當然也不能直接複製段落了
1
所以找了下載器,然後透過PDF OCR做辨識,就可以很快速地將GOOGLE圖書變成可以供複製的PDF檔案

 

廢話不多說,概念很簡單,那怎麼做呢?

 

1.首先你需要GOOGLE圖書的下載器:http://www.gbooksdownloader.com/

2

 

2.然後複製你要抓的圖書網址
3

 

3.安裝好剛剛抓的Downloader,開啟之後把剛剛複製的網址貼過來,下方的設定基本上不要動,如果你需要很清楚的版本,自行調整resolution,但也代表抓取的時間會變長。

4

 

4.之後就開始download啦!
5

 

5.接著請去抓具有OCR功能的PDF READER,不知道OCR是什麼的菸酒生請自行詢問估狗大神
6

 

6.剛剛下載好的PDF請用該XCHANGE VIEWER開啟,發現在記號1的位置,選取模式沒辦法選取任何的文字,因為抓下來其實是一塊一塊的圖片…所以要做OCR,請點選記號2的OCR按鈕
7

 

7.OCR選項,可以選擇你要辨識哪一個PAGE跟精準度調整,建議挑你要辨識的那幾頁就好,否則會等地有點久

8

 

8.依照你電腦的效能決定這有多快

9

 

9.辨識完之後,再點選剛剛步驟6中記號1的選取工具,發現可以選取並且複製了!,不過可以看到有些地方怪怪的…,不過妳可以調整下載的檔案清晰度以及OCR辨識精準度來改善這些問題
10

 

10.最後…會發現有些頁數有問題,這其實是GOOGLE要限制流量的把戲…如果你這次抓的PDF少了你要的頁數,就可能要請你再次嘗試,因為我試了兩次相同文件,就有一些第一次抓不到的頁面第二次有抓到…所以這個問題目前是這樣解
11

以上~,祝各位研究生HAPPY寫論文

Leave a comment

這個網站採用 Akismet 服務減少垃圾留言。進一步瞭解 Akismet 如何處理網站訪客的留言資料