处理python错误问题

DrcProgrammingCool 2019-12-22 原文

————恢复内容开始————

（1）爬取首页源码出现中文乱码

解决方案：将网页编码强制转换成gbk，并去除解决乱码问题的三行代码。

（2）程序运行到一半一直没有反应，没有报错也没有停止运行。

原因：频繁请求服务器，网站有反爬取机制。

解决方案：添加一个header浏览器伪装，模仿浏览器请求，防止封锁本机IP地址。

（3）标题加入列表时抛出异常。

原因：某个文章标题&nbsp含有空格符，BeautifulSoup无法解析。

解决办法：利用replace()函数将\xa0代替掉。

（4）保存列表数据时格式没有对齐，有点乱

原因：原文中含有大量的\n存在，列表存入时遇到\n直接换行存入。

解决办法：利用replace()函数将\n代替掉。

随机推荐

1 非负整数：^\d+$ 2 3 正整数：^[0-9]*[1-9][0-9]*$ 4 5 非正整数：^((-\ […]...

一般硬盘正面贴有产品标签，主要包括厂家信息和产品信息，如商标、型号、序列号、生产日期、容量、参数和主从设置方法 […]...

对于Python 2，简单搭建Web服务器，只需在需要搭建Web服务器的目录（如C:/ 或 /home/klc […]...

windows查看端口被占用

1、打开控制台终端 2、在命令行下输入netstat -ano|findstr “8080R […]...

Linux下C与Mysql的混合编程

1 概述 MySQL 是一个关系型数据库管理系统。由瑞典MySQL AB公司开发，眼下属于Oracle公司 […]...

(4)shiro多个realm

shiro支持多个realm，当设置多个realm的时候，shiro的认证和授权的步骤是怎样的呢。多个rea […]...

背景：由于安装React 脚手架对node.js版本有要求，所以采用apt-get 安装的nodejs版本过低，因此采用离线安装node.js1、需要先卸载原先安装的node版本：sudo apt-get remove node.js...

JavaScript 作为当前最为常见的直译式脚本语言，已经广泛应用于 Web 应用开发中。为了提高Web应用 […]...

处理python错误问题的更多相关文章