rust的学习笔记

ElasticSearch简明教程

Posted on 2023-03-08 Edited on 2024-10-05 In data analysis Disqus:

(以下内容都来自ChatGPT) 基本教程以下是Elasticsearch的入门教程： 1. 安装和启动：首先需要下载Elasticsearch，并安装和启动它。安装完成后，可以通过访问http://localhost:9200/来检查Elasticsearch是否启动成功。 2. 索引和文档：在Elasticsearch中，数据存储在索引中，每个索引可以包含多个文档。要创建索引，可以使用PUT命令，例如：1 PUT /my_index 要添加文档，可以使用POST命令，例如：1 2 3 4 5

52讲轻松搞定网络爬虫笔记10

Posted on 2023-01-26 Edited on 2024-10-05 In data analysis Disqus:

资料 52讲轻松搞定网络爬虫遇到动态页面怎么办，详解渲染页面提取前面我们已经介绍了 Scrapy 的一些常见用法，包括服务端渲染页面的抓取和 API 的抓取，Scrapy 发起 Request 之后，返回的 Response 里面就包含了想要的结果。但是现在越来越多的网页都已经演变为 SPA 页面，其页面在浏览器中呈现的结果是经过 JavaScript 渲染得到的，如果我们使用 Scrapy 直接对其进行抓取的话，其结果和使用 requests 没有什么区别。那我们真的要使用 Scrapy 完成对 JavaScript 渲染页面的抓取应该怎么办呢？之前我们介绍了 Seleni

52讲轻松搞定网络爬虫笔记9

Posted on 2023-01-25 Edited on 2024-10-05 In data analysis Disqus:

资料 52讲轻松搞定网络爬虫无所不知的Scrapy爬虫框架的介绍在前面编写爬虫的时候，如果我们使用 requests、aiohttp 等库，需要从头至尾把爬虫完整地实现一遍，比如说异常处理、爬取调度等，如果写的多了，的确会比较麻烦。那么有没有什么办法可以提升我们编写爬虫的效率呢？当然是有的，那就是利用现有的爬虫框架。说到 Python 的爬虫框架，Scrapy 当之无愧是最流行最强大的框架了。本节我们就来初步认识一下 Scrapy，后面的课时我们会对 Scrapy 的功能模块进行详细介绍。 Scrapy 介绍 Scrapy 是一个基于 Twisted 的异步处理框架，是纯 Py

52讲轻松搞定网络爬虫笔记8

Posted on 2023-01-24 Edited on 2024-10-05 In data analysis Disqus:

资料 52讲轻松搞定网络爬虫智能化解析是怎样的技术我们知道，爬虫是帮助我们快速获取有效信息的。然而在做爬虫的过程中，我们会发现解析是件麻烦事。比如一篇新闻吧，链接是：https://news.ifeng.com/c/7kQcQG2peWU，页面预览图如下：我们需要从页面中提取出标题、发布人、发布时间、发布内容、图片等内容。一般情况下我们需要怎么办？答案是写规则。那么规则都有什么呢？比如正则、CSS 选择器、XPath。我们需要对标题、发布时间、来源等内容做规则匹配，更有甚者需要正则表达式来辅助。我们可能需要用 re、BeautifulSoup、PyQuery 等库来实现内

52讲轻松搞定网络爬虫笔记7

Posted on 2023-01-23 Edited on 2024-10-05 In data analysis Disqus:

资料 52讲轻松搞定网络爬虫 App爬虫是怎么着情况前面我们介绍的都是爬取 Web 网页的内容。随着移动互联网的发展，越来越多的企业并没有提供 Web 网页端的服务，而是直接开发了 App，更多更全的信息都是通过 App 来展示的。那么针对 App 我们可以爬取吗？当然可以。我们知道 Web 站点有多种渲染和反爬方式，渲染分为服务端渲染和客户端渲染；反爬也是多种多样，如请求头验证、WebDriver 限制、验证码、字体反爬、封禁 IP、账号验证等等，综合来看 Web 端的反爬虫方案也是多种多样。但 App 的情况略有不同，一般来说，App 的数据通信大都需要依赖独立的服务器，比如请

52讲轻松搞定网络爬虫笔记3

Posted on 2023-01-15 Edited on 2024-10-05 In data analysis Disqus:

资料 52讲轻松搞定网络爬虫 Ajax的原理和解析当我们在用 requests 抓取页面的时候，得到的结果可能会和在浏览器中看到的不一样：在浏览器中正常显示的页面数据，使用 requests 却没有得到结果。这是因为 requests 获取的都是原始 HTML 文档，而浏览器中的页面则是经过 JavaScript 数据处理后生成的结果。这些数据的来源有多种，可能是通过 Ajax 加载的，可能是包含在 HTML 文档中的，也可能是经过 JavaScript 和特定算法计算后生成的。对于第 1 种情况，数据加载是一种异步加载方式，原始页面不会包含某些数据，只有在加载完后，才会向服务器请求某

52讲轻松搞定网络爬虫笔记5

Posted on 2023-01-15 Edited on 2024-10-05 In data analysis Disqus:

资料 52讲轻松搞定网络爬虫代理的基本原理和用法我们在做爬虫的过程中经常会遇到这样的情况，最初爬虫正常运行，正常抓取数据，一切看起来都是那么的美好，然而一杯茶的功夫可能就会出现错误，比如 403 Forbidden，这时候打开网页一看，可能会看到 “您的 IP 访问频率太高” 这样的提示，或者跳出一个验证码让我们输入，输入之后才可能解封，但是输入之后过一会儿就又这样了。出现这种现象的原因是网站采取了一些反爬虫的措施，比如服务器会检测某个 IP 在单位时间内的请求次数，如果超过了这个阈值，那么会直接拒绝服务，返回一些错误信息，这种情况可以称之为封 IP，于是乎就成功把我们的爬虫禁掉了。

52讲轻松搞定网络爬虫笔记4

Posted on 2023-01-15 Edited on 2024-10-05 In data analysis Disqus:

资料 52讲轻松搞定网络爬虫异步爬虫的原理和解析我们知道爬虫是 IO 密集型任务，比如如果我们使用 requests 库来爬取某个站点的话，发出一个请求之后，程序必须要等待网站返回响应之后才能接着运行，而在等待响应的过程中，整个爬虫程序是一直在等待的，实际上没有做任何的事情。对于这种情况我们有没有优化方案呢？实例引入比如在这里我们看这么一个示例网站：https://static4.scrape.center/，如图所示。这个网站在内部实现返回响应的逻辑的时候特意加了 5 秒的延迟，也就是说如果我们用 requests 来爬取其中某个页面的话，至少需要 5 秒才能得到响应。

52讲轻松搞定网络爬虫笔记6

Posted on 2023-01-15 Edited on 2024-10-05 In data analysis Disqus:

资料 52讲轻松搞定网络爬虫你有权限吗？解析模拟登录基本原理在很多情况下，一些网站的页面或资源我们通常需要登录才能看到。比如访问 GitHub 的个人设置页面，如果不登录是无法查看的；比如 12306 买票提交订单的页面，如果不登录是无法提交订单的；再比如要发一条微博，如果不登录是无法发送的。我们之前学习的案例都是爬取的无需登录即可访问的站点，但是诸如上面例子的情况非常非常多，那假如我们想要用爬虫来访问这些页面，比如用爬虫修改 GitHub 的个人设置，用爬虫提交购票订单，用爬虫发微博，能做到吗？答案是可以，这里就需要用到一些模拟登录相关的技术了。那么本课时我们就先来了解模拟登录

52讲轻松搞定网络爬虫笔记2

Posted on 2023-01-14 Edited on 2024-10-05 In data analysis Disqus:

资料 52讲轻松搞定网络爬虫 Requests库的基本使用学习爬虫，最基础的便是模拟浏览器向服务器发出请求，那么我们需要从什么地方做起呢？请求需要我们自己来构造吗？需要关心请求这个数据结构的实现吗？需要了解 HTTP、TCP、IP 层的网络传输通信吗？需要知道服务器的响应和应答原理吗？可能你无从下手，不过不用担心，Python 的强大之处就是提供了功能齐全的类库来帮助我们完成这些请求。利用 Python 现有的库我们可以非常方便地实现网络请求的模拟，常见的库有 urllib、requests 等。拿 requests 这个库来说，有了它，我们只需要关心请求的链接是什么，需要传的参数