爬虫为什么不用java为什么常说：学一门脚本语言比如python，可以帮助简化日常中的工作。难道java，c++不可以吗

是java爬虫还是python

我只知道python的爬虫框架，scrapy 下载一个scrapy模块，结合lxml可以很快实现抓取，非常方便。可以多线程，自由的设定处理方式，抓取间隔，头信息等。。

用java 编写爬虫是不是很简单

用java编写爬虫, 有丰富的第三方包, 使用起来比较容易 JSOUP : 强大的HMTL解析能力, 但抓取能力较弱. HttpClient: 强大专业的爬取能力.功能强大, 代码量较多. 解析起来稍微麻烦点 HtmlUnit: 可以模拟浏览器.没有界面,可以模拟填表,模拟点击等,甚至还支持JavaScript.但是内存占用较多,速度较慢. 一般根据需要,进行搭配使用经常使用的搭配. HttpClient?爬取---->Jsoup解析-->MySQL存储

JAVA怎么弄爬虫

以下是一个使用java实现的简单爬虫核心代码：　　 public void crawl() throws Throwable { while (continueCrawling()) { CrawlerUrl url = getNextUrl(); //获取待爬取队列中的下一个URL if (url != null) { printCrawlInfo(); String content = getContent(url); //获取URL的文本信息 //聚焦爬虫只爬取与主题内容相关的网页，这里采用正则匹配简单处理 if (isContentRelevant(content, this.regexpSearchPattern)) { saveContent(url, content); //保存网页至本地 //获取网页内容中的链接，并放入待爬取队列中 Collection urlStrings = extractUrls(content, url); addUrlsToUrlQueue(url, urlStrings); } else { System.out.println(url + " is not relevant ignoring ..."); } //延时防止被对方屏蔽 Thread.sleep(this.delayBetweenUrls); } } closeOutputStream(); } private CrawlerUrl getNextUrl() throws Throwable { CrawlerUrl nextUrl = null; while ((nextUrl == null) && (!urlQueue.isEmpty())) { CrawlerUrl crawlerUrl = this.urlQueue.remove(); //doWeHavePermissionToVisit：是否有权限访问该URL，友好的爬虫会根据网站提供的"Robot.txt"中配置的规则进行爬取 //isUrlAlreadyVisited：URL是否访问过，大型的搜索引擎往往采用BloomFilter进行排重，这里简单使用HashMap //eptable：是否达到指定的深度上限。爬虫一般采取广度优先的方式。一些网站会构建爬虫陷阱（自动生成一些无效链接使爬虫陷入死循环），采用深度限制加以避免 if (doWeHavePermissionToVisit(crawlerUrl) && (!isUrlAlreadyVisited(crawlerUrl)) && eptable(crawlerUrl)) { nextUrl = crawlerUrl; // System.out.println("Next url to be visited is " + nextUrl); } } return nextUrl; } private String getContent(CrawlerUrl url) throws Throwable { //HttpClient4.1的调用与之前的方式不同 HttpClient client = new DefaultHttpClient(); HttpGet httpGet = new HttpGet(url.getUrlString()); StringBuffer strBuf = new StringBuffer(); HttpResponse response = client.execute(httpGet); if (HttpStatus.SC_OK == response.getStatusLine().getStatusCode()) { HttpEntity entity = response.getEntity(); if (entity != null) { BufferedReader reader = new BufferedReader( new InputStreamReader(entity.getContent(), "UTF-8")); String line = null; if (entity.getContentLength() > 0) { strBuf = new StringBuffer((int) entity.getContentLength()); while ((line = reader.readLine()) != null) { strBuf.append(line); } } } if (entity != null) { nsumeContent(); } } //将url标记为已访问 markUrlAsVisited(url); return strBuf.toString(); } public static boolean isContentRelevant(String content, Pattern regexpPattern) { boolean retValue = false; if (content != null) { //是否符合正则表达式的条件 Matcher m = regexpPattern.matcher(content.toLowerCase()); retValue = m.find(); } return retValue; } public List extractUrls(String text, CrawlerUrl crawlerUrl) { Map urlMap = new HashMap(); extractHttpUrls(urlMap, text); extractRelativeUrls(urlMap, text, crawlerUrl); return new ArrayList(urlMap.keySet()); } private void extractHttpUrls(Map urlMap, String text) { Matcher m = (text); while (m.find()) { String url = m.group(); String[] terms = url.split("a href=""); for (String term : terms) { // System.out.println("Term = " + term); if (term.startsWith("http")) { int index = term.indexOf("""); if (index > 0) { term = term.substring(
0, index); } urlMap.put(term, term); System.out.println("Hyperlink: " + term); } } } } private void extractRelativeUrls(Map urlMap, String text, CrawlerUrl crawlerUrl) { Matcher m = relativeRegexp.matcher(text); URL textURL = crawlerUrl.getURL(); String host = textURL.getHost(); while (m.find()) { String url = m.group(); String[] terms = url.split("a href=""); for (String term : terms) { if (term.startsWith("/")) { int index = term.indexOf("""); if (index > 0) { term = term.substring(
0, index); } String s = //" + host + term; urlMap.put(s, s); System.out.println("Relative url: " + s); } } } } public static void main(String[] args) { try { String url = ""; Queue urlQueue = new LinkedList(); String regexp = "java"; urlQueue.add(new CrawlerUrl(url, 0)); NaiveCrawler crawler = new NaiveCrawler(urlQueue, 100,
5, 1000L, regexp); // boolean allowCrawl = crawler.areWeAllowedToVisit(url); // System.out.println("Allowed to crawl: " + url + " " + // allowCrawl); crawler.crawl(); } catch (Throwable t) { System.out.println(t.toString()); t.printStackTrace(); } }

python爬虫好用还是java写的好用

功能差不多，性能可能java好点，如果你都没学过，python容易上手点

开源爬虫框架各有什么优缺点

无论是各种什么爬虫的开源框架，都有一个共同的显著性缺点，就是功能限制大。你只能在他的框架之下进行功能的编写。第二个缺点就是柔性低，比如你辛辛苦苦写了一个新闻的爬虫，然后想爬微博了，新闻的爬虫就基本废了。第三个缺点就是性能。你比如Java的框架，Java虚拟机都是用C写的，它的执行效率自然要比C的低。而Python的框架。。Python本身就是脚本语言，它的性能更是可想而知。本人是写 C++爬虫的，给你推荐一下我自己写的通用性爬虫软件吧。我写的前嗅ForeSpider爬虫工具，几乎可以采集互联网上所有公开的数据，通过可视化的操作流程，从建表、过滤、采集到入库一步到位。支持正则表达式操作，更有强大的面向对象的脚本语言系统。（百度一下可以找到试用版下载）单机采集能力可达4000-8000万，日采集能力超过500万。服务器单机采集能力可达8亿-16亿，日采集能力超过2000万。并行情况下可支撑百亿以上规模数据链接，堪与百度等搜索引擎系统媲美。总的来说特点就是：
（1）采集全面。基本上就是把网址链接输进去一步步操作就OK。有特殊情况需要特殊处理才能采集的，也支持配置脚本。
（2）人性化。支持动态调整、自动定时采集、模板在线更新。
（3）操作效率高。前嗅ForeSpider爬虫的操作都是可视化的，而且你要采集的东西在它这个爬虫软件内可以直接预览，让我在采集数据之前直接先把无效数据剔除干净，学习成本很低。
（4）精度高。数据提取同样可进行可视化操作，此外支持正则表达式和脚本配置更加做到精准采集。
（5）功能强大。支持验证码识别、关键字搜索、登录采集、HTTPS协议。再也不用担心登录和验证码限制了！！
（6）采集性能强大：单机采集能力可达4000-8000万，日采集能力超过500万。服务器单机采集能力可达8亿-16亿，日采集能力超过2000万。并行情况下可支撑百亿以上规模数据链接，堪与百度等搜索引擎系统媲美。

为什么常说：学一门脚本语言比如python，可以帮助简化日常中的工作。难道java，c++不可以吗

当然可以，不过同一个功能Python的代码量大约只要JAVA的一半左右。就是说，如果只是个小问题，用Python容易解决。不需要写大量代码。另外一个是原型实现的时候，你脑袋里有个想法，不知道能否实现，这时候可以先用Python实现，实现后如果效率不足，再用JAVA或者C++重写。所以这句话的意思是，使用Python比JAVA或者C++在实现上代码量更短，能解放更多的时间。

本文地址：https://www.apjn.cn/w/7111/315.html

声明：该资讯来自于互联网网友发布，如有侵犯您的权益请联系我们。

标签： #cad #che #python #舒服 #冷门 #人工智能 #ctrl #华为