自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(658)
  • 收藏
  • 关注

原创 我常用的4款热门爬虫工具,无代码搞定数据采集~

爬虫

2025-06-05 15:02:37 342

原创 我常用的6个可视化软件工具,画图非常好看

数据可视化是数据结果的直观展示,好的可视化图表非常具有说服力,制作可视化图表的工具多种多样,主要分为BI、Python、JS这三大类,BI代表工具有Tableau、PowerBI,Python可视化库有Seaborn、Matplotlib等,JS可视化工具有Echarts、D3等。这次推荐我常用的5个可视化软件工具,可视化能力都非常强大,值得入手试试。

2025-06-04 16:53:11 611

原创 利用Python将PDF文档转为MP3音频

Python中操作PDF的工具库主要是PyPDF2,但发现编码实在有点繁琐,我就换了另一个库pdfplumber,与PyPDF2语法类似,用起来还算流畅。最近在群里看到有人发张磊的新作《价值》电子书,这本今年刚出的畅销书盗版猖獗,我之前在微信读书里看过,对作者长期主义的观点深信不疑。微信读书有一个功能,可以将书里的文字转换为音频,而且声音优化的不错,比传统的机械朗读听起来舒服很多。简单来说,pyttsx3可以文字转语音,而且是离线工作的,这一点就很实用。我准备动手试试,将PDF书籍转成音频。

2025-06-04 10:10:39 259

原创 Modin,只需一行代码加速你的Pandas

它的语法和pandas非常相似,因其出色的性能,能弥补Pandas在处理大数据上的缺陷。PS:对于小白来说学习python不是件容易的事,需要花相当的时间去适应python的语法逻辑,而且要坚持亲手敲代码,不断练习。但Dask对Pandas并没有很好的兼容性,没办法像Modin那样,只需改变一行代码,就可以轻松使用Pandas处理大数据集。Vaex的核心在于惰性加载,类似spark,但它有独立的一套语法,使用起来和Pandas差异很大。只要你有使用Pandas的经验,就可以轻松上手Modin。

2025-06-04 10:06:42 250

原创 Pandas取代Excel?

Pandas的功能强大不在于比Excel数据处理能力强,而是能力边界更广,整个Python生态都可以为它所用,能结合sklearn、matplotlib、numpy、tensorflow等各种框架,处理多样化复杂任务、跨领域任务、重复性任务等数据问题。这个确实这样,在处理数据清洗、数据建模、大数据时,Excel运行速度比Pandas慢,因为Excel是图形化软件,依赖电脑性能,且多数情况下需要手工点点点操作,而Pandas直接跑Python代码,而且有并行优化机制,能快速处理数据。

2025-06-03 08:50:04 838

原创 7款电商数据必备的爬虫利器,强烈推荐~

在当今数据驱动的时代,自动化爬虫工具和软件成为了许多企业和个人获取数据的重要手段,特别是跨境电商、外贸等业务,对数据的需求非常大,比如对amazon、tiktok、shopee等网站数据的监测和获取。这里会介绍7款功能强大、操作简便的自动化爬虫工具,用好了可以更高效地进行数据采集,非常适合电商外贸场景。

2025-06-03 08:49:21 1077

原创 py爬虫的话,selenium是不是能完全取代requests?

就拿这次我用的Scraping Browser来举例,Scraping Browser是数据采集浏览器的意思,它是bright data提供的云浏览器,是有图形界面的有头浏览器,托管在亮数据平台上。但selenium需要配合一些解锁功能才能发挥作用,因为现在大网站反爬机制非常严格,已经从传统的IP识别升级到​​行为分析​​和​​动态对抗,​​像是浏览器指纹、验证码(CAPTCHA)、动态加密、异步加载等,一般简单的爬虫技术基本不可能抓取到稳定的电商数据。什么是法律允许的范围呢?否则,可能会面临法律风险。

2025-06-02 13:09:14 1524

原创 Pandas比MySQL快?

对了,其实你在Python中可以使用mysql的,有一个专门的sdk接口-pymysql,可以支持python连接mysql,不管是查询、建表、插入数据等都可以实现。它的数据存储在磁盘,得益于索引和查询优化,而且有分页查询、多线程等,比Pandas和Python列表快很多。实测来看,MySQL > Pandas > Python列表,而且MySQl远快于后两个,几乎是碾压。Python列表和Pandas是基于内存操作的,百万级数据内存占用高,可能会溢出。但Pandas算法更优,所以快于Python列表。

2025-06-02 13:06:08 353

原创 我常用的几个Python金融数据接口库,非常好用~

yfinance可以获取股票历史价格数据(包括开盘价、最高价、最低价、收盘价、成交量)、实时价格数据等,你可以选择不同的时间尺度来获取数据,如日线、周线、月线等。它支持股票、期货、期权、基金、外汇、债券、指数、加密货币等多种金融产品的基本面数据、实时和历史行情数据、衍生数据的获取。Tushare数据种类比较丰富,涵盖股票市场数据(包括A股、港股、美股等)、期货、基金、债券、外汇、行业大数据、数字货币行情等区块链数据、经济指标、新闻和公告等非交易数据等多种金融产品的数据。

2025-05-30 15:54:24 826

原创 MiniMax V-Triune让强化学习(RL)既擅长推理也精通视觉感知

MiniMax 近日在github上分享了技术研究成果——V-Triune,这次的发布既是AI视觉技术也是应用工程上的一次“突围”,让强化学习(RL),其实缓解了传统视觉RL“鱼和熊掌不可兼得”的尴尬。之前,真的无解。比如,某些AI模型能很好地解决数学题、编程等推理任务,却在目标检测、图片识别、OCR(图片文字识别)等简单视觉任务上表现一般;而专注视觉感知类任务的模型,遇到需要深度推理和思考的问题时就如同降智一般。举个生活中的例子,班级里有的同学只会做数学题,却看不懂试卷上的图片;

2025-05-30 14:46:34 903

原创 厉害了,这18张Python数据科学速查小抄

比如说Pandas、Numpy、Matplotlib、Sklearn、NLTK等,还有深度学习领域的Keras、Tensorflow、Pytorch、Caffe等,都是顶尖的数据科学工具。目前在主流的数据科学领域一般有三大生态,一是以sas、matlab、spss等为代表的商业软件生态,二是围绕R语言建立起来的开源生态,三是目前较为火热的Python数据科学生态。数据科学已经发展成为一个庞大的系统,包含数学、统计学、概率论、计算机、数据库、编程等各种理论技术。

2025-05-29 15:27:27 289 1

原创 干货 | 50题带你玩转numpy

print(Z)

2025-05-29 15:26:53 913

原创 低代码爬虫利器结合Python Selenium,自动采集商品数据

基于当前跨境电商的现状,精准数据采集和分析已经是行业内绕不开的门槛,亮数据提供的代理和采集方案能极大地节省开发成本,其实是高性价比的选择,再结合DeepSeek的AI功能,能轻松搞定数据系统设计和开发,对于中小团队非常受用。据了解,现在亮数据是有促销优惠的,首充多少送多少,相当的划算!

2025-05-28 17:31:04 1240

原创 5个炫酷的python 数据可视化工具,你都用过吗?

Matplotlib的特点有足够的自定义空间让开发者去设计自己的图表,它把图表的每一个元素都拆解来,给到自定义函数、参数,让你去鼓捣。Seaborn是在matplotlib的基础上进行了更高级的API封装,从而使得作图更加容易,在大多数情况下使用seaborn能做出很具有吸引力的图,而使用matplotlib就能制作具有更多特色的图。用过 Python数据分析的小伙伴都知道,Python不光能高效处理数据,还能实现各种实用且酷炫的可视化,光是制作图表的第三方库就有几十种,而且各有千秋,下面来梳理梳理。

2025-05-28 11:54:52 311

原创 Python包管理器 uv替代conda?

有人问:python的包管理器uv可以替代conda吗?搞数据和算法的把conda当宝贝,其他的场景能替代。Python的包管理器有很多,pip是原配,uv是后起之秀,conda则主打数据科学。uv替代pip似乎只是时间问题了,它能做pip所有能做的事,不光可以作为包管理器,还能管理虚拟环境,而且比pip更快。而且快的不是一丢丢,你随便安装个pandas试试,uv几乎是pip速度的几十倍。

2025-05-28 11:53:38 741

原创 我常用的一款免费爬虫软件,非常强大,值得推荐

最近DeepSeek大火,对话质量之高一度超过ChatGPT、Claude等主流海外模型。你知道什么决定了大模型训练结果的好坏吗?除了算法外,训练数据的质和量起着决定性作用,而很多AI公司用到的训练数据就是利用爬虫技术从全网抓取的,这也是OpenAI、Anthropic等公司的核心竞争力。

2025-05-26 13:45:06 1443

原创 Python打包exe,到底选PyInstaller还是Nuitka?

首先介绍下PyInstaller,PyInstaller特点是将乱七八糟的东西打包一起,比如各种依赖库,即使你的程序只使用了pandas很小一个功能,比如read_data,它也会将整个pandas打包,这就导致出来的exe文件非常的大。接下来出场的是Nuitka,使用Nuitka来打包exe文件,Nuitka会Python代码编译为C代码,生成更小的二进制文件,这样就没有各种依赖库和Python解释器一起打包的困扰了。如果是打包更加复杂的程序,软件的大小会进一步压缩,Nuitka的优势会更明显。

2025-05-26 13:42:36 292

原创 推荐我常用的5个爬虫插件&工具,值得收藏~

无论是需要简单的数据抓取,还是复杂的数据挖掘和分析,市场上的爬虫工具都能提供相应的解决方案。同时,使用爬虫软件时,也应遵守相应的法律法规,尊重数据的版权和隐私。亮数据是一款强大的数据采集工具,以其全球代理IP网络和强大数据采集技术而闻名。它能够轻松采集各种网页数据,包括产品信息、价格、评论和社交媒体数据等。爬虫,又称为网络爬虫或网页爬虫,是一种自动浏览互联网的程序,它按照一定的算法顺序访问网页,并从中提取有用信息。八爪鱼是一款面向非技术用户的桌面端爬虫软件,以其可视化操作和强大的模板库而受到青睐。

2025-05-26 13:41:55 986

原创 python与mysql怎么完成大量的数据交互?

有个小插曲,MySQL和MariaDB相当于姐姐妹妹的关系,两者由同一个人(Widenius)创建的。MySQL被Oracle收购后,Widenius先生觉得不爽,于是搞了个MariaDB,可以完全替代MySQL。所以本文讨论的是利用PyMySQL连接MySQL数据库,进行增删改查操作,以及存储大批量数据。1、通过SQL的insert方法一条一条导入,适合数据量小的CSV文件,这里不做赘述。,安装过程很简单,一路Next Step,不过要记好密码。方法导入,速度快,适合大数据文件,也是本文的重点。

2025-05-22 17:41:54 1658 3

原创 为什么自学Python看不进去?

首先学习python一定要以为导向!盲目看教程,结果大多是浅尝辄止,从入门到放弃。我想告诉你我的经验,很多小伙伴留言时都会提到不知道自己是否适合学习Python,害怕自己零基础入门难,或者文科生学不会。其实最好的办法就是去尝试。

2025-05-22 17:41:07 845

原创 在Jupyter Lab中搭建Python工作流

是我最喜欢的编辑器,在过往的文章中也给大家介绍过很多相关资源和实用插件,但本文要给大家介绍的。插件没有之一,因为它的核心功能就是帮助我们解决数据分析工作中非常重要的问题——文件组织成工作流的能力,为了方便演示,这里我们创建几个带有简单流程代码的。保存之后,就完成了本地环境下单个节点的必要参数设置,同样的将其他。还有很多其他的实用功能,感兴趣的朋友可以前往官方文档(界面长啥样(我使用的主题感兴趣的朋友可以通过。插件的安装方法,我们执行下列命令即可安装。赋予了我们通过交互的方式将若干个。

2025-05-21 23:06:02 798

原创 机器学习中的泛化能力

高考试题一般是新题,谁也没做过,平时的刷题就是为了掌握试题的规律,能够举一反三、学以致用,这样面对新题时也能从容应对。这种规律的掌握便是泛化能力,有的同学很聪明,考上名校,很大程度上是该同学的泛化能力好。了训练数据的特性,过拟合模型在训练过程中产生的损失很低,但在预测新数据方面的表现却非常糟糕。学习的目的是学到隐含在数据背后的规律,对具有同一规律的学习集以外的数据,经过训练的网络也能给出合适的输出,该。由此可见,经训练样本训练的模型需要对新样本做出合适的预测,这是泛化能力的体现。能力,什么是泛化能力呢?

2025-05-21 23:05:20 758

原创 高效的10个Pandas函数,你都用过了吗?

我们只知道当年度的值value_1、value_2,现在求group分组下的累计值,比如A、2014之前的累计值,可以用cumsum函数来实现。比如有一个序列[1,7,5,3],使用rank从小到大排名后,返回[1,4,3,2],这就是前面那个序列每个值的排名位置。Query是pandas的过滤查询函数,使用布尔表达式来查询DataFrame的列,就是说按照列的规则进行过滤操作。Rank是一个排名函数,按照规则(从大到小,从小到大)给原序列的值进行排名,返回的是排名后的名次。

2025-05-21 22:59:25 1005

原创 如何理解Python中的yield用法?

的函数是一个生成器,这个生成器有一个方法就是next,next就相当于“下一步”生成哪个数,这一次的next开始的地方是接着上一次的next停止的地方执行的。但是,如果数据集有某种逻辑,就不必存储在一个列表中,只需编写一个生成器,它将在需要时生成这些值,基本不占用内存。所以调用next的时候,生成器并不会从函数的开始执行,只是接着上一步停止的地方开始,然后遇到。的同胞兄弟来看,他们都在函数中使用,并履行着返回某种结果的职责。第三次调用也是如此,返回生成的值(3),生成器耗尽,程序终止;的函数被称为生成器。

2025-05-21 22:58:38 325

原创 推荐3个爬虫利器,再也不用手搓代码了~

亮数据平台提供了强大的数据采集工具,比如Web Scraper IDE、亮数据浏览器、SERP API等,能够自动化地从网站上抓取所需数据,无需分析目标平台的接口,直接使用亮数据提供的方案即可安全稳定地获取数据。与屏幕抓取不同,屏幕抓取只复制屏幕上显示的像素,网络爬虫提取的是底层的HTML代码,以及存储在数据库中的数据。你可以使用Python编写爬虫代码实现数据采集,也可以使用自动化爬虫工具,这些工具对爬虫代码进行了封装,你只需要配置下参数,就可以自动进行爬虫。

2025-05-19 21:00:48 1349

原创 Scraper APIs:一款高效的电商数据采集工具,适合新手

最近用到一个非常简单的高级爬虫工具,亮数据的Scraper APIs,你可以理解成一种爬虫接口,它帮你绕开了IP限制、验证码、加密等问题,无需编写任何的反爬机制处理、动态网页处理代码,后续也无需任何维护,就可以“一键”获取Tiktok、Amazon、Linkedin、Github、Instagram等全球各大主流网站数据。1、在云上向Tiktok发出http数据请求 2、模拟登陆、配置IP代理、动态访问、识别验证码、破解加密数据等 3、解析获取的HTML,提取重要的字段,输出为json格式。

2025-05-19 16:05:17 2232

原创 Vaex :突破pandas,快速分析100G大数据量

而vaex只会对数据进行内存映射,而不是真的读取数据到内存中,这个和spark的懒加载是一样的,在使用的时候 才会去加载,声明的时候不加载。Python中的pandas是大家常用的数据处理工具,能应付较大数据集(千万行级别),但当数据量达到十亿百亿行级别,pandas处理起来就有点力不从心了,可以说非常的慢。这里用的是hdf5文件,hdf5是一种文件存储格式,相比较csv更适合存储大数据量,压缩程度高,而且读取、写入也更快。换上今天的主角vaex,读取同样的数据,做同样的平均值计算,需要多少时间呢?

2025-05-18 21:43:34 738

原创 如何理解Python中的yield用法?

的函数是一个生成器,这个生成器有一个方法就是next,next就相当于“下一步”生成哪个数,这一次的next开始的地方是接着上一次的next停止的地方执行的。但是,如果数据集有某种逻辑,就不必存储在一个列表中,只需编写一个生成器,它将在需要时生成这些值,基本不占用内存。所以调用next的时候,生成器并不会从函数的开始执行,只是接着上一步停止的地方开始,然后遇到。的同胞兄弟来看,他们都在函数中使用,并履行着返回某种结果的职责。第三次调用也是如此,返回生成的值(3),生成器耗尽,程序终止;的函数被称为生成器。

2025-05-18 21:42:47 277

原创 8个超好用的Python内置函数,提升效率必备

第一、第二个元素先进行函数操作,生成的结果再和第三个元素进行函数操作,以此类推,最终生成所有元素累积运算的结果。函数轻松完成了任务,它用于过滤序列,过滤掉不符合条件的元素,返回一个迭代器对象。函数会把序列里的每一个元素用指定的方法加工一遍,最终返回给你加工好的序列。函数用于对序列里的元素进行顺序标注,返回(元素、索引)组成的迭代器。函数类似,都是将序列里的每个元素映射到函数,最终返回结果。会根据提供的函数,对指定的序列做映射,最终返回迭代器。接受一个序列,将序列里的元素反转,并最终返回迭代器。

2025-05-18 21:41:49 240

原创 python新手必躺的5大坑

上面代码构建了一个字典,依次向字典中添加信息,如果某个键已经存在,则以某种方式修改该键的值;元组一旦创建就无法更改元素,看似没有什么用处,其实元组的作用大着呢!元组也能作为字典的键,所以如果你需要存储数据,可以使用带有元组键的字典,比如说经纬度数据。,并且可以在函数中使用元组,返回多个值。上面元组中有两个元素,分别被赋给a,b。接受一个list作为参数,当键不存在时,则返回一个空列表作为对应值。上面a变成之前的c,b变成之前的a,c变成之前的b。这是一个嵌套循环操作,为提高代码效率,完全可以用。

2025-05-18 21:41:11 790

原创 python读写excel等数据文件方法汇总

如:txt、csv、excel、json、剪切板、数据库、html、hdf、parquet、pickled文件、sas、stata等等。fromfile方法可以读取简单的文本数据或二进制数据,数据来源于tofile方法保存的二进制数据。python用于读写excel文件的库有很多,除了前面提到的pandas,还有xlrd、xlwt、openpyxl、xlwings等等。python处理数据文件第一步是要读取数据,文件类型主要包括文本文件(csv、txt等)、excel文件、数据库文件、api等。

2025-05-18 21:39:54 924

原创 python自动化办公太难?学这些就够用了

相信爬虫是大家最感兴趣的,python 爬虫有很多的实现库,比如:urllib、requests、scrapy 等,以及 xpath、beautifulsoup 等解析库。python 处理邮件也是极其便利的,smtplib、imaplib、email 三个库配合使用,实现邮件编写、发送、接收、读取等一系列自动化操作,省时省力。自动化办公无非是 excel、ppt、word、邮件、文件处理、数据分析处理、爬虫这些,这次我就来理一理 python 自动化办公的那些知识点。如果一个个手工操作,那真的心累。

2025-05-18 21:38:47 938

原创 numba,让python速度提升百倍

以上代码是一个python函数,用以计算numpy数组各个数值的双曲正切值,我们使用了numba装饰器,它将这个python函数编译为等效的机器代码,可以大大减少运行时间。python由于它动态解释性语言的特性,跑起代码来相比java、c++要慢很多,尤其在做科学计算的时候,十亿百亿级别的运算,让python的这种劣势更加凸显。使用numba非常简单,只需要将numba装饰器应用到python函数中,无需改动原本的python代码,numba会自动完成剩余的工作。不经numba加速的函数执行时间。

2025-05-17 22:15:01 911

原创 xlwings,让excel飞起来!

excel已经成为必不可少的数据处理软件,几乎天天在用。python有很多支持操作excel的第三方库,xlwings是其中一个。

2025-05-17 22:14:27 418

原创 10个炫酷的python 数据可视化工具,你都用过吗?

Matplotlib的特点有足够的自定义空间让开发者去设计自己的图表,它把图表的每一个元素都拆解来,给到自定义函数、参数,让你去鼓捣。Seaborn是在matplotlib的基础上进行了更高级的API封装,从而使得作图更加容易,在大多数情况下使用seaborn能做出很具有吸引力的图,而使用matplotlib就能制作具有更多特色的图。用过 Python数据分析的小伙伴都知道,Python不光能高效处理数据,还能实现各种实用且酷炫的可视化,光是制作图表的第三方库就有几十种,而且各有千秋,下面来梳理梳理。

2025-05-16 17:13:29 1074

原创 MiniMax语音模型Speech-02近日登顶多个全球榜单,详细技术解析

MiniMax最新发布的Speech-02把TTS领域传统巨头OpenAI、ElevenLabs拉下马来,直接登顶智能语音权威榜单Artificial Arena,不管是WER(字错率),还是SIM(声纹相似度)等客观指标都领先国外顶级模型,真的非常不容易。因为一直以来国内与国外在人工智能TTS的差距比LLM其实更大,这次是国内团队首次在LLM基础模型层面对国外顶尖模型形成超越。为什么说Speech-02这次有很大突破?

2025-05-16 17:12:53 769

原创 我常用的几个爬虫效率工具,附教程步骤

爬虫技术是数据采集的核心手段,涉及到http请求、html解析、正则处理等技术,算是比较复杂的编程开发,对于很多人来说是不低的门槛。我最常用Python来实现爬虫,因为有很多的库可以用,不用写那么多轮子,但遇到频繁的采集需求也会比较吃力,毕竟要敲代码。为了偷点懒,我找了一些不需要代码或者低代码就可以用的爬虫软件,能点点点就配置好爬虫,非常的方便。下面是7个我常用的爬虫软件,分三大类,零代码工具、半自动化工具、低代码工具,都很好操作。

2025-05-12 15:17:48 2126

原创 基于亮数据采集跨境电商商品数据,附详细步骤

最近用到一个非常简单的高级爬虫工具,亮数据的Scraper APIs,你可以理解成一种爬虫接口,它帮你绕开了IP限制、验证码、加密等问题,无需编写任何的反爬机制处理、动态网页处理代码,后续也无需任何维护,就可以“一键”获取Tiktok、Amazon、Linkedin、Github、Instagram等全球各大主流网站数据。1、在云上向Tiktok发出http数据请求 2、模拟登陆、配置IP代理、动态访问、识别验证码、破解加密数据等 3、解析获取的HTML,提取重要的字段,输出为json格式。

2025-05-12 15:15:56 2366

原创 这些Python可视化工具画图真的好看,强烈推荐!

用过 Python数据分析的小伙伴都知道,Python不光能高效处理数据,还能实现各种实用且酷炫的可视化,光是制作图表的第三方库就有几十种,而且各有千秋,下面来梳理梳理。

2025-05-12 07:36:04 330

原创 怎样在 Python 中创建一个自定义函数?

Python函数一般用来实现某个功能模块,可以反复使用,能极大的提升编程效率,多用函数也是写代码的好习惯。可以看到这个简单的函数五脏俱全,实现了两个字符串的拼接,你只需要传入参数,就可以得到拼接后的字符串。可以看到匿名函数也能很好的实现拼接字符串的操作,它很适合一些简短的功能,不需要冗长的代码去实现。匿名函数一般用于定义简单的、一次性用的函数,对于复杂的功能不建议用匿名函数来写。但对于很复杂的函数,匿名函数的表达式就很难写出来,就算写出来也不易阅读。下面的函数用于拼接两个字符串。#用于拼接两个字符串。

2025-05-11 20:54:44 428

100个Github Python项目

整理了100个在Github上热门的Python项目,包含数据科学、web应用、游戏、可视化、机器学习、自动化等等

2024-04-22

16个matplotlib绘图技巧

包含了Python Matplotlib库可视化绘图的各种技巧,如标题、文本、注释、坐标轴、图例、颜色等等

2024-04-22

60个Numpy函数和方法解析

Python第三方库Numpy的函数和方法解析

2024-04-22

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除