0.外行看熱鬧,內行看門道:
對于CAJ,PDF文件識別為Txt文件后的樣子也都知道了,整體的整理排版的思想如下:
先整理出段落與段落,行與行之間的區(qū)別(本文中實際操作為添加一個換行,構成段與段之間兩個換行符,行與行之間一個換行符),然后把段落標記替換為一個標記A(本文中為^l,即軟回車標記),然后刪除所有的段落標記,再把A給替換為段落標記。
1.前言的前言:
CAJ和PDF兩種格式作為網上文檔傳播的主流格式,的確是因為不容易被篡改,原汁原味的保留了出版物和文檔的風格,但也正是因為如此,在使用找到合適的文檔內容的時候,很多人不得不開兩個窗口,一對一的將原文逐字手打。
借鑒內容少的話,還可以喝杯白開水(沒有咖啡),慢慢來,但動輒幾十上百的大部頭書籍,如果想重排版式的話,就只好哭了。
好在,總有變通的方法。
于是,本文出現(xiàn)了。
2.前言:
實際上不算是前言,只能算是本文所用到操作的基礎技術部分。
Word的替換功能在排版過程中的應用:
2.1 換行符在替換功能中的應用:
如果“查找內容”處輸入“^p”(不帶引號),單擊“查找下一處”,就會發(fā)現(xiàn)被Word選中的位置,就是一個換行符。
如果是“查找內容”處輸入^p^p,“替換為”輸入^p,那么,單擊“全部替換”后,就會刪除全篇文檔中的空白段落。
當然,如果是文檔中存在三個以上的換行符,同樣還會存在空段。再次全部替換就能完成刪除空段的效果。
2.2 換行符的分類:
在Word中,也在其他大部分的文檔編輯的程序中,都存在“軟回車”和“硬回車”的定義。
軟回車輸入方法:Shift+Enter
硬回車輸入方法:Enter
具體效果都是換行,但“軟回車”換行之后,實際的文檔結構沒有改變,換行之前的一部分,跟換行之后的一部分,還是屬于同一個段落。雖然打印之后的效果會跟硬回車換行效果一樣,但在Word排版的時候,軟回車符號之后的文字,與其之前的文字屬于同一種的段落格式。
——好像很別扭的描述,但這就是軟硬回車的區(qū)別。。。
在Word中,軟硬回車的換行符標記也同樣不同,標記如下:
名稱 標記 圖示
軟回車 ^l(小寫L) ↓(向下的小箭頭)
硬回車 ^p 打不出這個符號,就像水平翻轉的L
所以說,如果先把兩個^p^p標記換成^l,然后再刪除所有的^p,然后再把^l換成^p^p~~~
3 正式的操作方法(以Caj文檔為例):
將Caj另存為Txt文件,然后用Word打開Txt文件。如下圖:
然后手動將每個段落之后,追加一個回車,以保證每個段落跟上面一個段落之間都是有一個空段的。
如下圖:
然后就開始替換:
1.第一步替換,將^p^p替換為^l
然后手動修改需要的地方,就成了完整的Word文檔了。
4 后記和注意:
需要注意的是,如果原來的Pdf或者Caj文檔是圖片格式的話,另存為Txt文件是不可能獲取文字的,還需要將圖片識別為文字。
而識別后,獲取的文字,同樣需要本文中三步替換操作的。
至于識別類的知識,在Baidu上搜索吧。