https://www.wukong.com/answer/6579491774144708872/?iid=15906422033&app=news_article&share_ansid=6579491774144708872&app_id=26
這個實現(xiàn)起來不難,無非就是兩步,先利用python解析pdf文件,提取出文本內(nèi)容,再將文本內(nèi)容寫入到txt文件中,下面我大概介紹一下,如何利用python將pdf文件轉(zhuǎn)化為txt文件,實驗環(huán)境win10 python3.6 pycharm5.0,主要用到pdfminer3k(主要用于解析pdf文件)這個包,主要內(nèi)容如下:
為了方便演示,我這里新建了一個test.pdf文件,主要內(nèi)容如下:
1.安裝pdfminer3k,打開一個cmd窗口,直接輸入命令“pip install pdfminer3k”就行,如下:
2.安裝成功后,我們就可以利pdfminer3k進(jìn)行解析了,整個過程不難,主要就是創(chuàng)建pdf解釋器,然后利用解析器解析出文本內(nèi)容就行,主要代碼如下(由于代碼量比較多,所以這里截取了2張圖片):
運行這個程序,程序結(jié)果截圖如下,已經(jīng)成功解析出pdf文件的文本內(nèi)容:
3.程序正確運行后,會在當(dāng)前目錄下會生成一個text.txt文件,打開這個txt文件,內(nèi)容如下,和pdf文件內(nèi)容一致,說明已經(jīng)成功轉(zhuǎn)化:
至此,我們就完成了利用python將pdf文件轉(zhuǎn)化為txt文件。就整個過程來看,其實不難,就是兩步,先解析pdf文件內(nèi)容,再寫入txt文件中就行,只要你有一定的python基礎(chǔ),熟悉一下操作,很快就能掌握的,網(wǎng)上也有相關(guān)教程,感興趣的可以搜索一下,希望以上分享的內(nèi)容能對你有所幫助吧。