選單

妙啊,這個網站你就是斷了網也可以用!

作者:網羅燈下黑

掐著手指頭算算,我介紹過的 OCR 工具真挺多的了,從天若 OCR 到白描小程式,我測試過好用後都第一時間安排給了大家。

但無一例外,隨著這些工具本身的名氣越來越大,用的人越來越多,相信工具背後的伺服器壓力也越來越大。

所以到後面都走上了形式各異的收費道路。

妙啊,這個網站你就是斷了網也可以用!

可能正是在這樣的轉變中,才漸漸有了 QQ 截圖自帶的那個文字識別才是 yyds 的說法。

這麼說確實沒錯,圖省事的時候與其呼叫專精工具,這些整合功能會顯得更方便。

但無論是天若、白描,還是 QQ 文字識別,這些 OCR 工具本事其實有一個共通點——

呼叫的都是大廠 OCR 文字識別介面。

不同於白描深耕百度的 OCR 介面,天若 OCR 這樣的工具更是聚合起了多個平臺的介面,這也是當時我安利它的主要原因。

那介面是個好東西嘛?是,但也不全是。

呼叫介面,意味著你能享受到大廠經過大量訓練得到的模型,可同時,也意味著這些工具真的離不開網路,需要上傳圖片到伺服器,再根據模型識別後產出結果。

本地能離線的 OCR 工具不是沒有,但正版價格不菲,體型也真的不小,就在這個時候,有一個 OCR 工具進了我的收藏夾,這個收藏夾可不是虛指,而是實打實的瀏覽器收藏夾。

或許你已經猜到了,我說的就是那個線上工具「PearOCR 文字識別」。

PearOCR

兩個月前走紅的 PearOCR 是什麼可能不少小夥伴已經知道了,所以我們直接丟擲它的優點:

PearOCR 使用的是自研 OCR 識別引擎,脫離大廠的 API 介面。

不需要下載軟體,全部識別運算都是純前端完成,換句話說都是本地幹活,斷了網都能用,所以放心,圖片資料自然也不會上傳。

完全免費,無需登入,還沒有次數和檔案大小限制。

至於為啥要做成網頁,據作者所言,把 ocr 做成一個網頁只是為了無需下載點開即用。

所以嚴格來看 PearOCR 是披著線上的離線工具,「線上」的點在於當你第一次開啟網頁,有個一閃而過的載入過程。

妙啊,這個網站你就是斷了網也可以用!

說實話,這幾條優點都深得我心。對比那些需要下載安裝、登入的工具,PearOCR 真的是獨秀一枝。

更何況它還是完全免費,這還要啥腳踏車啊。

妙啊,這個網站你就是斷了網也可以用!

使用起來也很隨意,PearOCR 支援拖動影象識別、本地圖片識別、識別剪貼簿的圖片三種方式。

但識別效果呢?

不說別的了,讓我們先來看一下 PearOCR 的效果。

識別效果

一般來說,我們需要識別的種類就是那幾種:正常印刷文字、手寫體、表格、英文。

所以讓我們按這個順序,一個個來瞅瞅 PearOCR 的識別效果。

正常字型

我覺得先截圖再用 OCR 工具識別,應該是我們生活裡最常見到的識別場景吧,比如那些百度文庫中不能複製的文字,隨手一截圖貼上到 PearOCR 就能識別。

當然,別忘了在識別前選中「讀剪下板」:

妙啊,這個網站你就是斷了網也可以用!

擔心大家看不清圖片,所以我把大圖放這了。

妙啊,這個網站你就是斷了網也可以用!

這次識別出現了兩個問題,首先是句號本身沒有被識別,其次是最後一個「蠢」字識別成了「鑫」字。

妙啊,這個網站你就是斷了網也可以用!

當然,只能識別截圖的O CR 工具不是好 OCR,我還試了個書摘的實拍圖:

妙啊,這個網站你就是斷了網也可以用!

效果很好,沒有出現異常。

手寫字型

相對來說手寫體一般是比較難識別的,之前呼叫百度介面的天若 OCR 和白描表現都很不錯,但 PearOCR 的手寫識別明顯不過關。

妙啊,這個網站你就是斷了網也可以用!

表格

某種意義上說表格圖片和手寫字型的難度是可以相提並論的,我找了個以前文章裡的表格,PearOCR 只是把表格中的文字都識別出來了。

妙啊,這個網站你就是斷了網也可以用!

妙啊,這個網站你就是斷了網也可以用!

但格子本身卻沒有識別,在準確率的角度上來看,和前面的正常字型基本沒差。

英文

最後是一段英文。

妙啊,這個網站你就是斷了網也可以用!

對了,PearOCR 本身在識別前,是可以選擇語言的,雖然簡體中文也能識別英文,但效果多多少少差點意思。

妙啊,這個網站你就是斷了網也可以用!

至於換成英文後的效果嘛,識別倒是都識別出來了,只是不少單詞之間都是直接連在一起,少了那個該有的空格。

妙啊,這個網站你就是斷了網也可以用!

這個就有點尷尬了,如果你想貼上,就必須要手動加上空格才行。

至此,我們能得出 PearOCR 的兩點不足,一點是手寫字型的識別精度有待提升,另一點是識別後的排版有待精進。

其他

其實在識別圖片的時候,我還發現 PearOCR 是有不少其它功能的。

比如大圖預覽、顯示文字位置:

妙啊,這個網站你就是斷了網也可以用!

在識別後的結果中還可以以純文字形式顯示、直接複製、編輯、文字下顯示原圖和轉換成 PDF,方便使用者後續歸檔。

妙啊,這個網站你就是斷了網也可以用!

當然,還有個以表格的方式顯示,前面是識別文字的置信度,後面是對應文字。

妙啊,這個網站你就是斷了網也可以用!

對於置信度低的文字,還可以設定閾值及顏色,然後高亮顯示疑似錯誤的文字。

妙啊,這個網站你就是斷了網也可以用!

最最關鍵的是,作者為 PearOCR 配上了 PWA。

這也意味著,你可以聯網時,把這個網頁做成能在桌面顯示的 App,當然,Edge 瀏覽器的應用模式也 ok。

妙啊,這個網站你就是斷了網也可以用!

然後我們就可以把 PearOCR 變成本地工具了,在完全離線的狀態下也能正常使用它,為此我還專門禁用了網絡卡測試了一下,沒問題。

妙啊,這個網站你就是斷了網也可以用!

你看,我把網都關了,找了個圖片照樣可以識別,這一點真的很 nice。

妙啊,這個網站你就是斷了網也可以用!

其實說到底,支援離線使用,是我這次決心把 PearOCR 安利給大家的最主要的原因。

結語

所以大家也看到了,PearOCR 的識別效果確確實實還有不足,但基於這種純前端實現的識別引擎,沒有絲毫資料洩露的風險,可以離線搞定識別需求的工具,真的不多見,何況它又是那般隨用隨走。

如果 OCR 功能對於你來說不是經常需要用到,而且對準確度要求也不高,最關鍵的是要在一個沒網的環境中使用,那麼推薦你試試 PearOCR 這個「線上」識別工具。

在 GitHub 上我還看到了作者有做 PC 版本的打算,對於辦公室不讓聯網的小夥伴來說,這絕對算得上是福音了。

妙啊,這個網站你就是斷了網也可以用!

有需求感興趣的小夥伴還不快去試試。

一如既往感謝各位小夥伴的支援和關注!

年終理財爆款福利!領取8%+理財券,每日限額2000份,先到先得!