Pytorch安装之Anaconda安装
一、什么是Anaconda?1. 简介Anaconda(官方网站)就是可以便捷获取包且对包能够进行管理,同时对环境可以统一管理的发行版本。Anaconda包含了conda、Python在内的超过180个科学包及其依赖项。
2. 特点Anaconda具有如下特点:
开源
安装过程简单
高性能使用Python和R语言
免费的社区支持
其特点的实现主要基于Anaconda拥有的:
conda包
环境管理器
1,000+开源库
如果日常工作或学习并不必要使用1,000多个库,那么可以考虑安装Miniconda(图形界面下载及命令行安装请戳),这里不过多介绍Miniconda的安装及使用。
二、Anaconda的安装步骤1. Windows系统安装Anaconda
前往官方下载页面下载。有两个版本可供选择:Python 3.6 和 Python 2.7,选择版之后根据自己操作系统的情况点击“64-Bit Graphical Installer”或“32-Bit Graphical Installer”进行下载。
完成下载之后,双击下载文件,启动安装程序。
注意:
如果在安装过程 ...
爬虫系列(5):JavaFx界面
接上一节。
先上图
关于JavaFxJavaFx是在2007年5月的JavaOne大会上公之于众的,而第一个正式版本v1.0是在2008年12月份才发布的。JavaFX技术主要应用于创建RIA(Rich Internet Application,富网络应用)应用。
依赖引入12345678910111213141516<!-- JavaFx --><dependency> <groupId>de.roskenet</groupId> <artifactId>springboot-javafx-support</artifactId> <version>${springboot-javafx.version}</version></dependency><dependency> <groupId>org.greenrobot</groupId> <artifactId>eventbus</artifactId ...
爬虫系列(4):存储数据-MySQL
为了简化mysql数据库操作,这里引入了mybatis和A.CTable框架。MyBatis框架这里就不说了,很有名气的持久层框架。A.CTable是一个基于Spring和Mybatis的Maven项目,增强了Mybatis的功能,通过配置model注解的方式来创建表,修改表结构,提供通用的单表CUDR工具,目前仅支持Mysql。
引入依赖包123456789101112131415161718192021<!-- MySQL --><dependency> <groupId>org.mybatis.spring.boot</groupId> <artifactId>mybatis-spring-boot-starter</artifactId> <version>${mybatis.boot.version}</version></dependency><dependency> <groupId>mysql</groupId&g ...
爬虫系列(3):存储数据
接上一节。
需求存储数据第一个版本,将抓取到的网页数据用文件形式存储到本地。
配置1、在SpiderConfig类中添加配置:
123456789101112/** * 存储线程数 */public int minerStoreThreadNum;/** * 存储类型 */public StoreType storeType = StoreType.FILE;/** * 抓取文件本地存放位置 */public String storeLocalPath;
2、修改application.properties(.yml),增加新配置属性,如下图:
存储数据任务存储数据任务主要是将抓取到的符合规则的数据存储起来。存储类型:
1234567891011121314151617181920212223242526/** * 存储类型. * * @author Jonathan L.(xingbing.lai@gmail.com) * @version 1.0.0 -- Datetime: 2020/2/18 20:53 */public enum StoreType { /** ...
爬虫系列(2):分析数据
接上一节。
网页数据的分析是根据需要来处理,比如说你是抓取某个小说站点的小说内容,那你就需要去分析网页上小说内容的特定标识,然后根据标识获取小说内容。
我这里就简单的直接分析URL上的关键字来进行信息抓取。
需求抓取URL上带有news或者blog的网页信息,将其整个页面信息保存到文件中。
配置
在SpiderConfig类中添加配置:
12345678/** * 分析页面线程数 */public int minerThreadNum = 2;/** * URL中包含的关键字 */public List<String> keys;
修改application.properties(.yml),增加新配置属性,如下图:
队列管理SpiderQueue中增加存储队列,主要方法如下:
1234567891011121314151617181920212223242526272829303132/** * 存储队列<br> * 存储线程从这里取数据 */private static volatile Queue<SpiderHtml> store ...
爬虫系列(1):抓取网页URL
网络爬虫的都是通过多线程,多任务逻辑实现的,在springboot框架中已封装线程池(ThreadPoolTaskExecutor),我们只需要使用就是了。
这一节我们主要实现多线程抓取网页连接信息,并将信息存储在队列里边。
引入新包在pom中引入新包,具体如下:
1234567891011121314151617 <dependency> <!-- common工具包 --> <groupId>org.apache.commons</groupId> <artifactId>commons-lang3</artifactId></dependency><dependency> <!-- java处理HTML的工具包 --> <groupId>org.jsoup</groupId> <artifactId>jsoup</artifactId> <version>1.8.3</version&g ...
爬虫系列(0):项目搭建
关于项目本项目主要目的是做个简单的爬虫,技术上主要使用SpringBoot+javafx。(目前暂定将爬取的数据存放在文件中,后续再考虑存放数据库等等)
关于爬虫爬虫,也叫网络爬虫,是一种按照设计者的预定的方式,在网络中自动收集有用的信息,并将信息分类和整理,最终将整理的结果提供给用户,以方便用户冲中查找他们感兴趣的信息。
项目计划
搭建项目框架
实现爬虫的核心逻辑(文件)
爬虫数据录入数据库逻辑
javafx界面
项目搭建打开https://start.spring.io/,按照下图配置,然后点击Generate按钮,页面会自动打包生成当前配置的springboot启动项目,并自动下载。
导入项目将下载下来的包解压缩,然后在idea中新建工程,选择new project from exists Sources导入,等项目导入完成(这里需要用到maven,不熟悉的可以去官网查看http://maven.apache.org/),如下图: