————恢复内容开始————

(1)爬取首页源码出现中文乱码

解决方案: 将网页编码强制转换成gbk,并去除解决乱码问题的三行代码。

 

 

(2)程序运行到一半一直没有反应,没有报错也没有停止运行。

原因:频繁请求服务器,网站有反爬取机制。

解决方案:添加一个header浏览器伪装,模仿浏览器请求,防止封锁本机IP地址。

 

(3)标题加入列表时抛出异常。

原因:某个文章标题&nbsp含有空格符,BeautifulSoup无法解析。

解决办法:利用replace()函数将\xa0代替掉。

 

(4)保存列表数据时格式没有对齐,有点乱

原因:原文中含有大量的\n存在,列表存入时遇到\n直接换行存入。

解决办法:利用replace()函数将\n代替掉。

 

版权声明:本文为DrcProgrammingCool原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://www.cnblogs.com/DrcProgrammingCool/p/12080869.html