GPT爬虫:一键采集网站数据、无缝构建GPTs知识库,免编程 | GPT-Crawler,网站内容转GPTs知识库的神器!

แชร์
ฝัง
  • เผยแพร่เมื่อ 2 ธ.ค. 2024

ความคิดเห็น • 116

  • @IvyWang-pb1vx
    @IvyWang-pb1vx 18 วันที่ผ่านมา

    谢谢您!讲得真详细!

  • @ambitionaura_lucky
    @ambitionaura_lucky 10 หลายเดือนก่อน +1

    看到一半实在忍不住了,不行,一定要点个赞!

    • @linbintalk
      @linbintalk  10 หลายเดือนก่อน

      哈哈,感谢感谢

  • @刘洪萍
    @刘洪萍 หลายเดือนก่อน +1

    小林学长,能否教一下怎么自动爬取微信公众号上的行业会议信息呢

  • @kuisun4622
    @kuisun4622 ปีที่แล้ว +13

    只能抓一般架构的网站,遇到动态页面还有大量表格和图像的网站直接乱成一坨...之前用这个来抓取一个比较复杂的网站,搞了半天,最后还是自己写python

    • @linbintalk
      @linbintalk  ปีที่แล้ว +1

      这个综合能力我觉得不错,对小白很友好,方便简单。python会的有几个

    • @Thisnthat979
      @Thisnthat979 11 หลายเดือนก่อน

      @@linbintalk 我购买了您的课程,也正在学习python 中,听说python连小学生都要学的?

    • @RevealedChina
      @RevealedChina 9 หลายเดือนก่อน

      怎么解决IP会被封呢

    • @sanzhao
      @sanzhao 8 หลายเดือนก่อน

      感谢提醒

  • @user-nkbzabh
    @user-nkbzabh ปีที่แล้ว

    非常感谢博主,成功了

  • @TIANELI-p1q
    @TIANELI-p1q ปีที่แล้ว

    很赞,迫不及待实操

    • @linbintalk
      @linbintalk  ปีที่แล้ว

      这个真的好用

  • @蓝狐
    @蓝狐 9 หลายเดือนก่อน

    讲得真好啊,林兄真的是想把我们教会啊🤣

    • @linbintalk
      @linbintalk  9 หลายเดือนก่อน

      那是必须的、主打一个真教

  • @shenzhouzhao
    @shenzhouzhao 6 หลายเดือนก่อน

    npm start 执行过程中报错信息如下,请问如何解决?
    (node:85468) [DEP0040] DeprecationWarning: The `punycode` module is deprecated. Please use a userland alternative instead.

  • @willsun5943
    @willsun5943 ปีที่แล้ว

    我感觉这个也适合做数据分析,针对数字类或者文字类都行

  • @sorter1024
    @sorter1024 6 หลายเดือนก่อน

    我又來學習了

    • @linbintalk
      @linbintalk  6 หลายเดือนก่อน

      🙏🏻如果内容对你有帮助,拜托给我的视频点个赞

    • @sorter1024
      @sorter1024 6 หลายเดือนก่อน

      @@linbintalk 必須點贊,做個標記

  • @SJT-jb9gz
    @SJT-jb9gz 10 หลายเดือนก่อน

    Great video. Wanna to learn how to actions to connect to other websites via API

    • @linbintalk
      @linbintalk  10 หลายเดือนก่อน

      Welcome to subscribe

  • @不在周
    @不在周 11 วันที่ผ่านมา

    爬取官网数据一段时间就被封了,怎么办

  • @salesRoger
    @salesRoger 9 หลายเดือนก่อน

    请问一下是否可以把最终爬取的数据,导出Excel的文件格式?

    • @linbintalk
      @linbintalk  9 หลายเดือนก่อน

      json变成excel很简单,都是格式化的数据

  • @regman1100
    @regman1100 ปีที่แล้ว

    您好,我是使用win 11,已確認安裝好,因為版本也有顯示,但是執行npm start後,執行也有跑完,但是並沒有出現output.json檔案,不知道是哪出問題了。不知道學長有沒有甚麼解決方法?!

    • @linbintalk
      @linbintalk  ปีที่แล้ว

      这样判断不了

  • @ningcai4703
    @ningcai4703 5 หลายเดือนก่อน

    爬虫生成的是本地json格式的数据,coze只支持本地csv和json格式的在线API,怎么整?

    • @linbintalk
      @linbintalk  5 หลายเดือนก่อน

      转换一下格式试试

  • @yuancao7536
    @yuancao7536 9 หลายเดือนก่อน

    巨赞术

    • @linbintalk
      @linbintalk  9 หลายเดือนก่อน

      😄,感谢支持

  • @郭浩-c9s
    @郭浩-c9s 11 หลายเดือนก่อน

    我没有安装 Homebrew,按说明安装的,运行版本git version 2.39.3 (Apple Git-145),npm10.2.3,再下一步打开config.ts文件,我电脑上找不到这个文件,咋么办?

    • @郭浩-c9s
      @郭浩-c9s 11 หลายเดือนก่อน

      找到了。

    • @linbintalk
      @linbintalk  11 หลายเดือนก่อน

      🙆‍♂️

  • @yellowbonbon1
    @yellowbonbon1 ปีที่แล้ว

    这个方法有可能依赖于FE 的layout 和structure, 和才算是。举一个极端的例子,“飞行最长时间” 与 “46分钟” 这两个dom 看其他是同一行,大多数coding 的写法都会把他们放到同一个div,so 他俩是siblings 关系。假如他俩不是这种关系,例如layout 是两大columns(一个column是label,另一个column 是value),AI 还会找到答案吗?(我可能表达不清,不好意思)

    • @linbintalk
      @linbintalk  ปีที่แล้ว

      它比想象的聪明,会筛选排查

    • @3170ccp
      @3170ccp ปีที่แล้ว

      FE?

    • @logicai4928
      @logicai4928 11 หลายเดือนก่อน

      @@3170ccp 这个方法可能会受到前端(Front End)的布局(layout)和结构(structure)的影响,以及他们之间的关系。举一个极端的例子,“飞行最长时间”和“46分钟”这两个DOM元素,如果在视觉上他们位于同一行,那么在大多数编程实践中,我们会将他们放入同一个div元素中,这样他们就成了兄弟关系。但如果他们的关系并非如此,比如布局是分为两大列(一列是标签,另一列是值),那么人工智能(AI)是否还能找到答案呢?(我可能没有表达得很清楚,对此表示歉意)。

  • @田中小百合-r2b
    @田中小百合-r2b ปีที่แล้ว

    您好,我是win11用户,我的config文件里没有selector:‘.docs--builder-container’,这行字。是否可以自己添加进去?

  • @0xtootoo
    @0xtootoo 11 หลายเดือนก่อน

    请问这个对于同一个 url 下多页面内容,有办法实现翻页抓取吗。按视频的方法试了一下,只能抓到第一页的内容

    • @linbintalk
      @linbintalk  11 หลายเดือนก่อน

      翻页可以在后面加page,找到链接规律手动更改

  • @李志国-k7p
    @李志国-k7p 7 หลายเดือนก่อน

    只有gpt4 能这么做 还是3.5也能这么做呢?

    • @linbintalk
      @linbintalk  7 หลายเดือนก่อน

      都可以

  • @jasonhe9475
    @jasonhe9475 11 หลายเดือนก่อน

    这个工具是否适合爬类似Twitter、微博这样的信息?刚才试了一下都有登录限制,有没有什么办法绕过限制的?

    • @linbintalk
      @linbintalk  11 หลายเดือนก่อน

      不能

  • @dongliang6663
    @dongliang6663 6 หลายเดือนก่อน

    请问下能爬取谷歌学术吗

    • @linbintalk
      @linbintalk  6 หลายเดือนก่อน

      需要登录的网站不行

  • @黎志-t6r
    @黎志-t6r 7 หลายเดือนก่อน

    谢谢博主,我有2个问题,第一是网站更新了怎么办;第二是我想采集多个网站怎么办呢?

    • @linbintalk
      @linbintalk  7 หลายเดือนก่อน

      一个个操作

    • @黎志-t6r
      @黎志-t6r 7 หลายเดือนก่อน

      @@linbintalk thx

  • @StreetdanceFung
    @StreetdanceFung 11 หลายเดือนก่อน

    出了這一句
    > cross-env NODE_ENV=development npm run build && node dist/src/main.js

    • @linbintalk
      @linbintalk  11 หลายเดือนก่อน

      可以用ChatGPT查原因解决

  • @timealley
    @timealley 11 หลายเดือนก่อน

    請問可以抓取抖音短視頻的字幕文件嗎?

    • @linbintalk
      @linbintalk  11 หลายเดือนก่อน

      这个不能,但是有其他工具

    • @timealley
      @timealley 11 หลายเดือนก่อน

      @@linbintalk 或者大大也做個教學視頻供菜鳥學習?😁

  • @leescott7667
    @leescott7667 ปีที่แล้ว

    有可能在不買PLUS的狀況(或先試用)下使用嗎 ?

    • @linbintalk
      @linbintalk  ปีที่แล้ว

      只要能上传附件就可以。

    • @leescott7667
      @leescott7667 ปีที่แล้ว

      @@linbintalk 謝謝 可是不買PLUS好像沒辦法上傳..

    • @leescott7667
      @leescott7667 ปีที่แล้ว

      還是有其他可以分析抓下來Vector JSON的地方?

    • @makisekurisu_jp
      @makisekurisu_jp 11 หลายเดือนก่อน

      @@linbintalk沒有用,即使使用擴展工具上傳json檔案也不能讓chatgpt回答問題。

  • @yangliu-j9p
    @yangliu-j9p 11 หลายเดือนก่อน

    假设问题对应的答案中涉及到图片,它也能正常显示吗?

    • @linbintalk
      @linbintalk  11 หลายเดือนก่อน

      图片不能,只会抓地址

  • @musicears66
    @musicears66 ปีที่แล้ว

    那如果直接把网站网址给gpt 他是不是直接抓取内容了?

    • @linbintalk
      @linbintalk  ปีที่แล้ว

    • @aixizhang
      @aixizhang ปีที่แล้ว

      有些网站是可以的,有些会说不让访问

  • @shader406
    @shader406 ปีที่แล้ว

    npm 1指令执行以后要下很多东西吗?我这边下不停了

    • @linbintalk
      @linbintalk  ปีที่แล้ว

      不会很久, 是 i

  • @谢生-u7c
    @谢生-u7c 9 หลายเดือนก่อน

    可以解析某个网站的视频内容吗

    • @linbintalk
      @linbintalk  9 หลายเดือนก่อน

      这个方法不行,有其他方式

  • @鱼摆摆-l6v
    @鱼摆摆-l6v 10 หลายเดือนก่อน

    z抓整个京东的网站数据它能行吗😁

    • @linbintalk
      @linbintalk  10 หลายเดือนก่อน

      动态不行

  • @htslong
    @htslong 11 หลายเดือนก่อน

    需要登录的网页怎么办?比如语雀

    • @linbintalk
      @linbintalk  11 หลายเดือนก่อน

      不行

  • @大派-i6j
    @大派-i6j 11 หลายเดือนก่อน

    如何识别哪些网站反爬?

    • @linbintalk
      @linbintalk  11 หลายเดือนก่อน

      爬一下就知道了

  • @ericchan2540
    @ericchan2540 10 หลายเดือนก่อน

    在国內ChatGPT
    不友好的屏蔽
    应如何解决
    谢谢

    • @linbintalk
      @linbintalk  10 หลายเดือนก่อน

      和你看油管一个方案

  • @saijunhu
    @saijunhu 2 หลายเดือนก่อน

    git拉取不成功过

  • @莲华-灵性成长
    @莲华-灵性成长 ปีที่แล้ว

    安装Homebrew后,验证,brew -v 显示找不到

  • @莲华-灵性成长
    @莲华-灵性成长 ปีที่แล้ว

    在运行中,发生路径错误,该怎么解决?

    • @fittzgu3597
      @fittzgu3597 11 หลายเดือนก่อน

      同问

  • @wishrevealingdestiny
    @wishrevealingdestiny 8 หลายเดือนก่อน

    can you teach mme how to do with youtube + python to craw all data in order to have the top view on my video ? hah

  • @derikli5727
    @derikli5727 10 หลายเดือนก่อน

    自己的模型都下载下来么?

    • @linbintalk
      @linbintalk  10 หลายเดือนก่อน

      ??

  • @zhezhang4394
    @zhezhang4394 ปีที่แล้ว +1

    GPT-Crawler 可以控制爬虫的爬取速度么?如果太快的话,部分网站会被限速

  • @chacexu8213
    @chacexu8213 8 หลายเดือนก่อน

    又没有离线版本的

    • @linbintalk
      @linbintalk  8 หลายเดือนก่อน

      离线怎么访问网站,怎么获取数据?

  • @jason9072
    @jason9072 ปีที่แล้ว

    完全按照步骤安装了,版本也对了,但是运行后成功0个,失败1个,不知道哪里出问题了

    • @linbintalk
      @linbintalk  ปีที่แล้ว

      换个网址试试,可能配置不对

  • @soapman2533
    @soapman2533 10 หลายเดือนก่อน

    我直接用coze 根本就不用本地跑代码 直接添加网站到知识库创建机器人😂

    • @linbintalk
      @linbintalk  10 หลายเดือนก่อน

      那还是有差距的、这是批量整站

  • @zhenli-l1f
    @zhenli-l1f 9 หลายเดือนก่อน

    不好用,信息太杂了,GPT还是理解不了
    我试了一下,数据需要数据清洗。就是找到content也不行

    • @linbintalk
      @linbintalk  9 หลายเดือนก่อน

      这种一般配合知识库使用

  • @uubob7408
    @uubob7408 11 หลายเดือนก่อน

    就则???

    • @linbintalk
      @linbintalk  11 หลายเดือนก่อน

      就这

  • @aixizhang
    @aixizhang ปีที่แล้ว

    博主能不能讲一期这些AI工具怎么结合电商🥺

    • @linbintalk
      @linbintalk  ปีที่แล้ว

      我关注一下先。

    • @蒋小伟-i5b
      @蒋小伟-i5b 11 หลายเดือนก่อน

      ​@@linbintalk我也需要,买会员学AI就是为了电商

  • @makisekurisu_jp
    @makisekurisu_jp 11 หลายเดือนก่อน

    影片教學不完整,到導出json檔案後沒有後續的教學,還需要升級到GPT PLUS並設定custom gpt,如果使用api則需要去設定custom assistant。

    • @linbintalk
      @linbintalk  11 หลายเดือนก่อน

      可以用playground里面的assistant,用API就能上传知识库,并在线使用

    • @makisekurisu_jp
      @makisekurisu_jp 11 หลายเดือนก่อน

      @@linbintalk 我看了你頻道的其他影片,直接使用lobe chat就可以採集網站資料了,不需要自己去安裝GPT Crawler☺️

    • @makisekurisu_jp
      @makisekurisu_jp 11 หลายเดือนก่อน

      @@linbintalk 我有一個需要請教的問題,我在這部影片的留言看到你說可以不使用gpts和assistant,只要可以上傳檔案就能使用GPT Crawler,我有安裝ChatGPT File Uploader Extended這個擴展,怎樣在沒有gpt plus和api的情況下執行GPT Crawler,因為工作中沒有很需要,只是極少情況會用,不太想花錢。

  • @Douglas-f
    @Douglas-f 11 หลายเดือนก่อน +2

    爬虫什么的python也能搞,没必要搬个项目吧,哈哈哈哈🤣,gpt4一个月20$,你也不说一下,等小白们搞完爬虫才发现gpts要充钱才能用😅

    • @linbintalk
      @linbintalk  11 หลายเดือนก่อน +1

      python小白更不会,逻辑很返常识

    • @mazizhang831
      @mazizhang831 8 หลายเดือนก่อน

      @@linbintalk你心知肚明ChatGPT付费账户才是关键,并且哪怕你觉得不是问题也应该有提示,你却为了流量只字不提,确实有点不厚道!浪费别人时间等于谋财害命知道吗?

    • @月白秋
      @月白秋 7 หลายเดือนก่อน

      @@mazizhang831 大佬,所以说免费的chatgpt3.5不可以使用吗?不能用的我就不浪费时间去试了

  • @BrightMatolo
    @BrightMatolo 11 หลายเดือนก่อน

    °∆ I believe we are meant to be like Jesus in our hearts and not in our flesh. But be careful of AI, for it is just our flesh and that is it. It knows only things of the flesh (our fleshly desires) and cannot comprehend things of the spirit such as peace of heart (which comes from obeying God's Word). Whereas we are a spirit and we have a soul but live in the body (in the flesh). When you go to bed it is your flesh that sleeps but your spirit never sleeps (otherwise you have died physically) that is why you have dreams. More so, true love that endures and last is a thing of the heart (when I say 'heart', I mean 'spirit'). But fake love, pretentious love, love with expectations, love for classic reasons, love for material reasons and love for selfish reasons that is a thing of our flesh. In the beginning God said let us make man in our own image, according to our likeness. Take note, God is Spirit and God is Love. As Love He is the source of it. We also know that God is Omnipotent, for He creates out of nothing and He has no beginning and has no end. That means, our love is but a shadow of God's Love. True love looks around to see who is in need of your help, your smile, your possessions, your money, your strength, your quality time. Love forgives and forgets. Love wants for others what it wants for itself. Take note, true love works in conjunction with other spiritual forces such as patience and faith (in the finished work of our Lord and Savior, Jesus Christ, rather than in what man has done such as science, technology and organizations which won't last forever). To avoid sin and error which leads to the death of our body and also our spirit in hell fire, we should let the Word of God be the standard of our lives not AI. If not, God will let us face AI on our own and it will cast the truth down to the ground, it will be the cause of so much destruction like never seen before, it will deceive many and take many captive in order to enslave them into worshipping it and abiding in lawlessness. We can only destroy ourselves but with God all things are possible. God knows us better because He is our Creater and He knows our beginning and our end. Our prove text is taken from the book of John 5:31-44, 2 Thessalonians 2:1-12, Daniel 2, Daniel 7-9, Revelation 13-15, Matthew 24-25 and Luke 21. Let us watch and pray... God bless you as you share this message to others.

    • @linbintalk
      @linbintalk  11 หลายเดือนก่อน

      What?