tag:python

尝试使用 request-html (Python 3.6) 抓取 JS 网页时出现问题

上周我一直在尝试从 Epic Games Store 网页 (https://www.epicgames.com/store/en-US/) 抓取信息，我首先尝试使用 Requests 模块，但很快意识到我需要一个支持 javascript 网页的模块。这就是我现在正在尝试的，但有一个问题...当我在页面上使用“检查元素”时，一切都很好，但是当我执行此操作时：from requests_html

2019-11-23

使用 Requests_HTML 抓取 JS 渲染的页面无法按预期工作

我正在抓取一个 JS 渲染的页面（https://www.flipkart.com/search?q=Acer+Laptops）。此页面中的产品图像正在动态加载。这些图像的预渲染 SRC 值为//img1a.flixcart.com/www/linchpin/fk-cp-zion/img/placeholder_9951d0.svg渲染后，SRC 应该是这样的https://rukminim1.f

python web-scraping python-requests python-requests-html

2020-08-23

Python HTML 页面中的 Web 抓取不完整

我试图从页面中抓取两个表格但是当我使用 soup.find('table') 时，它就是找不到它。此外，当我打印 soup 对象时，HTML 代码的表格部分没有被打印出来，有什么解决办法吗？到目前为止我的代码：from bs4 import BeautifulSoupimport pandas as pdimport requestsurl = 'http://www.b3.com.br/pt_b

python html web-scraping python-requests

2020-11-21

Python：requests.get 获取错误的 html 文件

我试图从https://essentials.swissdox.ch抓取数据，该链接仅适用于 VPN。因此，我所做的是，我使用查询参数生成一个 URL，并尝试获取相应的 html 文件。问题是，虽然链接有效，但 Python 为我提供了https://essentials.swissdox.ch起始页的 html 文件。我非常感谢任何帮助！示例：我想要以下 url 的 html 文件：https:

python html web-scraping python-requests

2021-02-03

request-html 模块没有响应

我是 Python 新用户，正在尝试使用请求-html 模块进行网页抓取。我在 Mac 上使用 Jupyter。当我输入pip install requests-html时，似乎可以安装模块，因为我收到以下消息：Requirement already satisfied: requests-html in /Users/usr/opt/anaconda3/lib/python3.8/site-pa

python web-scraping python-requests-html

2021-02-22

Python 请求-html，尝试在 Jscript 中加载所有信息

我不想访问这个提供免费代理的网站，而是想抓取信息然后过滤。我尝试使用请求 html 来执行此操作，但到目前为止，按照教程并阅读库，它没有发生，当我运行它时，它只是输出 []。这是我目前拥有的代码，我试图抓取具有 IP 的页面部分import requestsfrom bs4 import BeautifulSoupfrom requests_html import HTMLSession# cre

javascript python screen-scraping python-requests-html

2021-06-19

python async request_html div 未加载 JS （？）数据

我试图获取有关给定类及其游戏风格的指南链接。此处屏幕截图中以黄色突出显示的是负责渲染的 div。我需要使用 async，因为此类用于 discord.py 机器人，尝试使用 HTMLSession() 导致错误，提示我需要使用 AsyncHTMLSession。网站地址 -https://immortal.maxroll.gg/category/build-guides#classes%3D%5B

python web-scraping python-requests-html

2022-06-07

如何使用 dask 使部分脚本异步？

假设我得到了一组文档。我需要对它们进行标记，然后将它们转换为向量以供进一步工作。我发现 elasticsearch 的标记器比我自己的解决方案好得多，所以我正在改用它。但是，它的速度要慢得多。然后，预计最终结果将以流的形式输入到矢量化器中。整个过程可以通过生成器的链式列表来完成def fetch_documents(_cursor):with _cursor:# a lot of document

python python-3.x dask

2016-08-15

从 PostgreSQL 中的 PL/Python 函数调用 plpgsql 函数

是否可以从PL/Python函数调用plpgsql 函数（或任何PostgreSQL 函数）？因此，类似这样的操作：CREATE FUNCTION somefunc() RETURNS void AS $$DECLARE...BEGIN...END;$$ LANGUAGE plpgsql;然后在这里使用它CREATE FUNCTION pythonFunc() RETURNS void AS $$

python postgresql plpython

2017-01-24

dask 使用延迟构造函数列表，但指定要使用的进程数

我有一个函数用于计算，下面是一个简单的示例，def add(a,b):return a+b然后我以令人尴尬的并行方式执行此函数 100 次，output = [delayed(add)(i,i+1) for i in range(100)]compute(*output)我的问题是上面的代码会启动 100 个进程吗？如果是这样，有没有办法让它启动 10 个进程，从而减少启动进程的时间？

python dask

2017-02-23

使用 dask 延迟函数返回列表

我正在尝试使用 dask.delayed 来构建任务图。这在大多数情况下都运行良好，但我经常遇到这样的情况，我有许多延迟对象，它们的方法返回一个对象列表，该列表的长度无法根据我目前掌握的信息轻松计算出来：items = get_collection() # known lengthdef do_work(item):# get_list_of_things returns list of "unk

python python-multiprocessing dask dask-delayed

2017-12-11

Dask延迟函数调用，不传递参数

我希望更好地理解使用dask.delayed调用依赖于参数的函数时出现的以下行为。当在 configparser 读取的参数文件中指定参数时，似乎会出现问题。这是一个完整的示例：参数文件：#zpar.ini: parameter file for configparser[my pars]my_zpar = 2.解析器：#zippy_parserimport configparserdef rea

python dask configparser dask-delayed

2020-04-02

替换分组和条件内的列值

我有一个数据框，我想在其中找到一个组内某一列的最小值，然后基于该行更新其他一些列的值。以下代码可实现我想要的功能：import pandas as pddf = pd.DataFrame({'ID': [1,1,1,2,2,2,],'Albedo': [0.2, 0.4, 0.5, 0.3, 0.5, 0.1],'Temp' : [20, 30, 15, 40, 10, 5],'Precip':

python pandas dataframe group-by pandas-groupby

2018-01-08

更改列中的所有第一个值，从其他列分组

我有 2 列 - _a、_b。import numpy as npimport pandas as pddf = pd.DataFrame({'_a':[1,1,1,2,2,3,3],'_b':[3,4,5,3,3,3,9]})df_a _b0 1 31 1 42 1 53 2 34 2 35 3 36 3 9我需要将 _b 列中的第一个值

python pandas dataframe group-by pandas-groupby

2018-05-20

pandas groupby 根据条件进行替换

我有如下数据集结构：index country city Data0 AU Sydney 231 AU Sydney 452 AU Unknown 23 CA Toronto 564 CA Toronto 25 CA Ottawa 16 CA

python pandas

2018-09-24