内容获取原理
在 src/contents/scraper.ts 文件中,我们定义了 scraper 的逻辑,用于文章发布的时候获取网页内容。
同样,我们会监听来自 Options 页面的消息,当用户在 Article 标签页中点击 获取内容 按钮时,会触发该消息,并调用 scrapeContent 函数来获取网页内容。
默认我们会使用 defaultScraper 函数来获取网页内容,其次它会根据网页的 URL 来判断使用哪个 scraper 函数。
例如 https://blog.csdn.net/ 会使用 scrapeCSDNContent 函数来获取网页内容。
以 CSDN 为例,我们使用 scrapeCSDNContent 函数来获取网页内容。其原理是使用 Readability 库来获取网页内容,并使用 preprocessor 函数来处理网页内容,最后根据不同类型网站的特性,使用不同的选择器来获取文章标题、作者、封面、内容、摘要等信息。