c#打开浏览器并全屏 运行打开浏览器命令

基于C#的高级网络爬虫。NET+PhantomJS+Sellenium。您可以执行Javascript代码,触发各种事件,操纵页面的Dom结构,甚至删除不需要的CSS样式。很多网站使用Ajax动态加载和翻页,比如携程的评论数据。如果使用以前的简单爬虫,很难直接抓取所有评论数据。我们需要分析无边无际的...

基于C#的高级网络爬虫。NET+PhantomJS+Sellenium。您可以执行Javascript代码,触发各种事件,操纵页面的Dom结构,甚至删除不需要的CSS样式。

很多网站使用Ajax动态加载和翻页,比如携程的评论数据。如果使用以前的简单爬虫,很难直接抓取所有评论数据。我们需要分析无边无际的Javascript代码来寻找API数据接口,要时刻提防对方添加数据陷阱或者修改API接口。

如果高级爬虫可以完全忽略这些问题,无论他们如何加密Javascript代码隐藏API接口,最终的数据都必须以Dom结构呈现在网站页面上,否则普通用户是看不到的。所以我们完全不需要分析API数据接口,甚至不需要编写复杂的正则表达式,就可以直接从Dom中提取数据。

主要特性

支持Ajax请求事件的触发及捕获;支持异步并发抓取;支持自动事件通知;支持代理切换;支持操作Cookies;

运行截图

抓取酒店数据抓取评论数据

示例代码

/// <sum***ry> /// 抓取酒店评论 /// </sum***ry>static void Main(string[] args) { var hotelUrl = "http://hotels.ctrip.com/hotel/434938.html"; var hotelCrawler = new StrongCrawler(); hotelCrawler.OnStart += (s, e) => { Console.WriteLine("爬虫开始抓取地址:" + e.Uri.ToString()); }; hotelCrawler.OnError += (s, e) => { Console.WriteLine("爬虫抓取出现错误:" + e.Uri.ToString() + ",异常消息:" + e.Exception.ToString()); }; hotelCrawler.OnCompleted += (s, e) => { HotelCrawler(e); }; var operation = new Operation { Action = (x) => { //通过Selenium驱动点击页面的“酒店评论” x.FindElement(By.XPath("//*[@id='commentTab']")).Click(); }, Condition = (x) => { //判断Ajax评论内容是否已经加载成功 return x.FindElement(By.XPath("//*[@id='commentList']")).Displayed && x.FindElement(By.XPath("//*[@id='hotel_info_comment']/div[@id='commentList']")).Displayed && !x.FindElement(By.XPath("//*[@id='hotel_info_comment']/div[@id='commentList']")).Text.Contains("点评载入中"); }, Timeout = 5000 }; hotelCrawler.Start(new Uri(hotelUrl), null, operation);//不操作JS先将参数设置为NULL Console.ReadKey(); }github:https://github.com/microfisher/Strong-Web-Crawler

本文来自是我太自作多情投稿,不代表舒华文档立场,如若转载,请注明出处:https://www.chinashuhua.cn/24/536442.html

打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
() 0
上一篇 05-07
下一篇 05-07

相关推荐

  • chrome更改语言设置 教你设置谷歌浏览器的语言

    Google Chrome是由Google开发的一款设计简单、高效的Web浏览工具。Google Chrome的特点是简洁、快速。GoogleChrome支持多标签浏览,每个标签页面都在独立的“沙箱”内运行,在提高安全性的同时,一个标签页面的崩溃也不会导致其他标签页面被关闭。此外,Google Chrome基于更强

    2023-07-29 08:32:01
    268 0
  • 浏览器占用cpu过高怎么办 谷歌浏览器cpu占用高的原因

    谷歌Chrome浏览器是目前使用率最高的桌面浏览器,给用户的感觉是界面干净,可扩展。我也喜欢用Google Chrome,尤其是做网页开发的时候。谷歌Chrome还是很强大的。但是最近在使用谷歌Chrome的时候,只要打开谷歌Chrome,笔记本电脑的CPU风扇的声音就特别大,很响。打开电脑的任

    2023-07-28 11:19:01
    524 0
  • win10浏览器在哪里 恢复win10自带浏览器

    在升级Windows S10系统时,默认浏览器是edge。有时候你可能会发现点击edge浏览器没有任何反应,edge浏览器打不开。那么如果出现这种情况该怎么办呢?我们可以根据系统自身的修复功能来修复系统。我们来看看操作方法。Edge浏览器打不开怎么办:1.在Windows S10系统桌面上,右击

    2023-07-28 10:07:01
    391 0
  • 浏览器乱码怎么办 浏览器乱码解决方法

    最近有部分使用win10系统的用户在安装字体后,在网页上浏览信息时出现乱码。真的在影响我们使用电脑,那么怎么解决这个问题呢?下面介绍如何解决win10电脑安装字体后网页乱码的问题。解决方案如下:1.按“Win+R”组合键打开运行窗口,输入“gpedit.msc”并按回车键。2.进入本地

    2023-07-28 02:38:01
    158 0

评论列表

联系我们

在线咨询: QQ交谈

邮件:admin@qq.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信