抓取网页内容生成kindle电子书

flowjacky 2021-12-01 原文

参考：

http://calibre-ebook.com/download_linux
http://blog.codinglabs.org/articles/convert-html-to-kindle-book.html

The Linux Command Line

#TLCL.recipe
from calibre.web.feeds.recipes import BasicNewsRecipe
class The_Linux_Command_Line(BasicNewsRecipe):
 
    title = \'The Linux Command Line\'
    description = \'The Linux Command Line\'
    cover_url = \'http://img5.douban.com/lpic/s7056078.jpg\'
 
    url_pre = \'http://billie66.github.io/TLCL/book/\'
    no_stylesheets = True
    keep_only_tags = [{ \'class\': \'typo\' }]　　　　#内容的寻找范围
 
    def parse_index(self):
        soup = self.index_to_soup(self.url_pre)#目录页
 
        div = soup.find(\'div\', {\'class\': \'contents\'})#目录页的寻找范围
 
        articles = []
        for link in div.findAll(\'a\'):
                
            til = link.contents[0].strip()
            url = self.url_pre + link[\'href\']
            a = { \'title\': til, \'url\': url }
 
            articles.append(a)
 
        results = [(\'The Linux Command Line\', articles)]
 
        return results

版权声明：本文为flowjacky原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://www.cnblogs.com/flowjacky/p/4461595.html

抓取网页内容生成kindle电子书的更多相关文章

抓取网页内容生成Kindle电子书（转）
抓取网页内容生成Kindle电子书...

随机推荐

ubuntu 中的流程图绘制软件 – 海王
ubuntu 中的流程图绘制软件 http://flash7783.javaeye.com/blog/65 […]...
网页级在线性能网站测试介绍
网页级在线性能测试, 网页性能测试, 网页性能测试网站, 在线网站性能测试网页级在线性能网站测试介绍 1 W […]...
2.2Bind建立配置文件和实体的映射「深入浅出ASP.NET Core系列」
希望给你3-5分钟的碎片化学习，可能是坐地铁、等公交，积少成多，水滴石穿，谢谢关注。新建MVC项目这次我 […]...
ASP.NET Web开发框架之八所有ERP部分的源代码全部开放下载
前面的文章讲解了技术细节，这一篇来了解一下这个框架的制作前后，经历的一些思考。代码只对部分需要的朋友有用，重要 […]...
ubuntu20.04 编译安装ckermit
ubuntu20.04编译安装ckermit 我呢之前一直使用的是ubuntu18.04，最近在安装了某个软件 […]...
构建以知识图谱为核心的下一代数据中台
作者 | 图特摩斯科技创始人闭雨哲来源 | AI科技大本营（ID:rgznai100）前言图特摩斯科 […]...
用Visual Studio Code Debug世界上最好的语言(Mac篇)
用Visual Studio Code Debug世界上最好的语言(Mac篇) 首先,你要有台Macbook […]...
windows server 2008服务器IIS绑定阿里云域名
一、打开Internet 信息服务（IIS）管理器二、将你的网站放到服务器目录下，比如D盘下的WWW文件 […]...

展开目录

目录导航