关于数据采集  个人觉得主要分为两部分

1:获取网页HTML

在获取网页信息的时候 要注意访问的方式  应该尽量去模仿浏览器  让网站认为我们是用的浏览器登录  否则会有很大可能被视为“非法访问”

如 request.Referer 表头  request.UserAgent 等去模仿浏览器

2:对HTML进行处理(自己用的是 HtmlAgilityPack  在NuGet  中搜索就可以)

 

HtmlAgilityPack  主要分一下几部:

HtmlAgilityPack.HtmlDocument  htmlDoc

通过htmlDoc 加载 上面获取的HTML  htmlDoc.LoadHtml()

htmlDoc     里面的一些方法 可以供获取一个 HtmlNode 的对象 

例:

 HtmlNode sex = htmlDoc.GetElementbyId(“zidingyi2”);

HtmlNode  的InnerText InnerHTML  分别可以获取 id为zidingyi2 的文本内容和HTML 代码

一般都得到了HtmlNode 对象  后就基本已经完成了  随后就是对你获取的InnerText\ InnerHTML 进行操作就可以了

   

 

版权声明:本文为Allen-chau原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://www.cnblogs.com/Allen-chau/p/5800530.html