开发者问题收集
我正在尝试编写一个用于网页抓取的原型。我的问题是,当duetpartner = track['duet']['handle']为 null 或 NoneType 时,标题中会出现错误。问题是我已经对其进行了检查,如果为 None,我会将其设置为静态值:def create_song_list(track):if track['duet']['handle'] is not None:duetpar
我已经使用 selenium 在 python 中创建了一个机器人,但是我遇到了无法通过的错误。我的脚本运行了 X 次,每次都使用新的代理,问题是有时代理不起作用并且脚本崩溃我收到消息“无法访问此站点”或“err_connection_failed”,我尝试使用 webdriverwait,循环尝试是否可以通过但仍然被阻止,当 driver.get.url 无法连接到网站时,脚本崩溃。错误屏幕感谢
我尝试向网站(例如 Digikey)发送 http 请求并读取完整的 html。例如,我使用此链接:https://www.digikey.com/products/en?keywords=part_number获取零件编号,例如:https://www.digikey.com/products/en?keywords=511-8002-KIT。但是我得到的不是完整的 html。import re
我正在尝试抓取金融时报搜索页面的内容。使用Requests,我可以轻松抓取文章的标题和超链接。我想获取下一页的超链接,但与文章的标题或超链接不同,我在 Requests 响应中找不到它。from bs4 import BeautifulSoupimport requestsurl = 'http://search.ft.com/search?q=SABMiller+PLC&t=all&rpp=10
我试图从这个网站抓取天气数据:http://www.fastweather.com/yesterday.php?city=St.+Louis_MO我遇到的问题是昨天的降水量。在开发人员工具中查看时,我看到以下内容:<strong>Yesterday's Precipitation</strong>was 0.13 inches但是从 Python 查看时,无论是使用 Requests 还是 url
我有一个非常简单的问题。我试图从 linkedIn 页面的 html 中获取职位描述,但我得到的不是页面的 html,而是几行看起来像 javascript 代码的代码。我对这个很陌生,所以任何帮助都将不胜感激!谢谢这是我的代码:import requestsurl = "https://www.linkedin.com/jobs/view/inside-sales-manager-at-ster
我正在抓取一个 JS 渲染的页面(https://www.flipkart.com/search?q=Acer+Laptops)。此页面中的产品图像正在动态加载。这些图像的预渲染 SRC 值为//img1a.flixcart.com/www/linchpin/fk-cp-zion/img/placeholder_9951d0.svg渲染后,SRC 应该是这样的https://rukminim1.f
我试图从页面中抓取两个表格但是当我使用 soup.find('table') 时,它就是找不到它。此外,当我打印 soup 对象时,HTML 代码的表格部分没有被打印出来,有什么解决办法吗?到目前为止我的代码:from bs4 import BeautifulSoupimport pandas as pdimport requestsurl = 'http://www.b3.com.br/pt_b
我试图从https://essentials.swissdox.ch抓取数据,该链接仅适用于 VPN。因此,我所做的是,我使用查询参数生成一个 URL,并尝试获取相应的 html 文件。问题是,虽然链接有效,但 Python 为我提供了https://essentials.swissdox.ch起始页的 html 文件。我非常感谢任何帮助!示例:我想要以下 url 的 html 文件:https: