pdf转word出现很多换行符将一整行切断
1、问题:
pdf转word时,文章中会出现数个换行符,其中包括两种类型的换行符:
1)正常的行结尾。特点是“句号+换行符”
2)非正常的行中换行。特点是在两个正常的文字中间突然出现“换行符”,从而导致一整行被切断。
2、解决方案:
将换行符替换为空格。但是这样做,会误伤正常的行结尾换行符。因此,需要先将正常的行结尾换行符替换为一个文章中从未出现过的特殊字符,从而将其保护起来。
然后再替换文章中行中换行符。
3、具体步骤
1)使用文档中未出现过的特殊字符(如“&&&&&&”)替换文章中的“句号+换行符”
2)使用空格替换文章中多余的换行符
3)使用“句号+换行符” 替换 特殊字符(如“&&&&&&”)
注意:
1) ^p匹配换行符
2)文中截图中 “. ”匹配的是英文状态下的句号,如果是中文句号结尾,则应写成 “。”
3)特殊字符的选择原则是:文章中未出现过
上文讨论的是,pdf文字粘贴到word中,word文字会多很多换行符号。其实,还有可能出现下面这种类似换行符的“手动换行符”
遇到这种手动换行符,就不能用 ^p 匹配了,这时候要用 ^l 来匹配。