内容获取原理
在 src/contents/scraper.ts
文件中,我们定义了 scraper
的逻辑,用于文章发布的时候获取网页内容。
同样,我们会监听来自 Options
页面的消息,当用户在 Article
标签页中点击 获取内容
按钮时,会触发该消息,并调用 scrapeContent
函数来获取网页内容。
默认我们会使用 defaultScraper
函数来获取网页内容,其次它会根据网页的 URL 来判断使用哪个 scraper
函数。
例如 https://blog.csdn.net/
会使用 scrapeCSDNContent
函数来获取网页内容。
以 CSDN
为例,我们使用 scrapeCSDNContent
函数来获取网页内容。其原理是使用 Readability
库来获取网页内容,并使用 preprocessor
函数来处理网页内容,最后根据不同类型网站的特性,使用不同的选择器来获取文章标题、作者、封面、内容、摘要等信息。