2024年最新dy视频评论爬虫采集纯python代码编辑以及封装成采集软件使用教程

04-30 2363阅读 0评论

本篇属于软件和源码销售,介意者请绕道!

2024年最新dy视频评论爬虫采集纯python代码编辑以及封装成采集软件使用教程 第1张

近期,有小伙伴需要dy平台的视频评论数据做分析,于是就有了今天的案例文章,文章分为两部分:一部分是具有python基础的源码,一部分是针对无代码经验的纯小白使用的dy视频评论采集软件使用教程。

开撸!

第一部分:python源码公布

纯python源码编辑,requests请求实现,不涉及selenium动态爬虫,这样对于一些只会基础python爬虫的小伙伴就更友好更容易理解了。源码可以自行二次更改使用,但是特此声明:本源码只做学习交流使用!那你自行使用的用途和后果自行承担!

部分源码示例:

import os
import tkinter as tk
import threading
from douyin import Douyinrep
class Douyin(threading.Thread):
	def __init__(self, runs, *args):
		super().__init__()
		self.runs = runs
		self.args = args
		self.setDaemon(True)
		self.start()
	def run(self):
		self.runs(*self.args)
def task(data_text):
	log = Log_week()
	logger = log.get_logger()
	video_link_str = entry_vd.get("0.0", 'end')
	video_link_list = video_link_str.replace(" ", "").split("\n")
	video_link_list = [i for i in video_link_list if i]
	video_id_list = [i.replace("https://www.douyin.com/video/", "") for i in video_link_list]
	cookie_val = entry_ck.get("0.0", 'end')
	cookie_val = str(cookie_val).strip()
	#print('cookie_val:\n', cookie_val)
	entry_us = entry_ua.get("0.0", 'end')
	entry_us = str(entry_us).strip()
	Douyinrep(cookie_val, video_id_list,entry_us, txt_msglist, logger).get_dy_cmt()
work_path = os.getcwd()
if not os.path.exists(work_path + "/logs"):
	os.makedirs(work_path + "/logs")
	
#创建窗口
window=tk.Tk()
window.withdraw()
window.update()
window.title('DY_REP(唯一官方在售淘宝店铺:词云社-https://ciyunshe.taobao.com)')
window.iconbitmap('img/logo.ico')
window.resizable(0,0)
width=800
height=600
screenwidth=window.winfo_screenwidth()
screenheight=window.winfo_screenheight()
login_size='%dx%d+%d+%d'%(width,height,(screenwidth-width)/2,
            (screenheight-height)/2)
window.geometry(login_size)
window.deiconify()
canvas = tk.Canvas(window, width=width, height=height, highlightthickness=0)
bg_image=tk.PhotoImage(file='img/main.gif')
canvas.create_image(width/2, height/2, image=bg_image)
canvas.pack()
#软件信息介绍
canvas.create_text(400,570, text='''
版本号:1.0dy评论采集版   官方唯一在售淘宝店铺-词云社:https://ciyunshe.taobao.com
其他均属盗版侵权,不享受任何售后服务!  服务咨询邮箱:ciyunshe@163.com
声明:本软件仅供学习交流使用,内置信息受法律保护,未经许可严禁传播!''',
font=('Microsoft JhengHei UI',7,),fill='#b7b7bd')
# 创建cookie输入框
#cookies = tk.StringVar()
entry_ck = tk.Text(
    window,
    font=("Microsoft JhengHei UI", 9),
    bg="#ffffff",
    fg="#000000",
		background='#eae9d6',
    borderwidth=0,)
canvas.create_window(448, 68, width=498, height=17, window=entry_ck)
canvas.pack()
# 创建user_agent输入框
#user_agents = tk.StringVar()
entry_ua = tk.Text(
    window,
    font=("Microsoft JhengHei UI", 9),
    bg="#ffffff",
    fg="#000000",
		background='#eae9d6',
    borderwidth=0,)
canvas.create_window(448, 105, width=498, height=17, window=entry_ua)
canvas.pack()
# 创建视频链接输入框
#videos = tk.StringVar()
entry_vd = tk.Text(
    window,
    font=("Microsoft JhengHei UI", 9),
    bg="#ffffff",
    fg="#000000",
		background='#eae9d6',
    borderwidth=0,)
canvas.create_window(448, 216, width=498, height=119, window=entry_vd)
canvas.pack()
frame1 = tk.Frame(window, width=498, height=129,)
frame1.pack_propagate(0)
frame1.place(x=198, y=312)
# 滚动条
scroll = tk.Scrollbar(frame1,width=15)
# 放到Y轴竖直方向
scroll.pack(side=tk.RIGHT, fill=tk.Y)
# 显示采集数据文本框
data_text = tk.Text(frame1, width=498, height=129,background='#eae9d6')
data_text.config(yscrollcommand=scroll.set) 
data_text.pack()
#启动采集按钮
btn_st=tk.PhotoImage(file='img/st.gif')
btn_upst=tk.Button(window,image=btn_st,borderwidth=0,highlightthickness=0,activebackground="#11123b",command=lambda: MyThread(task, data_text))
btn_upst.place(x=322,y=496)
#退出软件按钮
btn_ov=tk.PhotoImage(file='img/ov.gif')
btn_upov=tk.Button(window,image=btn_ov,borderwidth=0,highlightthickness=0,activebackground="#11123b",command=window.quit)
btn_upov.place(x=488,y=496)
window.mainloop()

完整源码可以根据以上代码中的地址(店铺:词云社,https://ciyunshe.taobao.com)咨询客服自行选购(功能不同价格不同,源码较贵,但是封装成的软件已经贱卖了,根据自己需求自选即可),看下最终采集效果(包括主体一级评论和回复性二级评论数据):

2024年最新dy视频评论爬虫采集纯python代码编辑以及封装成采集软件使用教程 第2张

python源码介绍完毕,下面是第二部分:针对纯小白使用的dy评言仑采集软件教程(仅适用win7-11系统,其他系统请绕道!)该软件获取方式依然是直接根据以上代码中的地址(店铺:词云社,https://ciyunshe.taobao.com)咨询客服自行选购。

DY_REP采集器使用文档

由于dy平台采集相比其他平台难度较大,因此软件中的参数设置是有要求的(特别是视频链接的转换!),请务必认真查看此文档参数查找方式后再使用DY_REP采集软件,否则采集数据会报错!!!

2024年最新dy视频评论爬虫采集纯python代码编辑以及封装成采集软件使用教程 第1张

一、重要参数-Cookie值和User-agent值查找方式:

1、用dy账号登录dy平台(不登录,Cookie值无法使用)。

2、登陆后,按键盘上的快捷键F12调出开发者界面:

  1. 点选“网络”
  2. 点选“Fetch/XHR”
  3. 输入框输入“Cookie”,多余的字符删除,键盘回车键确认。
  4. 下方出现的链接中随便点选一条即可(如果此处没有出现一些地址链接,按键盘Ctrl+R键刷新一下,重新操作以上步骤即可)
  5. 点选右侧“标头”
  6. 下滑鼠标即可找到Cookie值,再下滑即可找到User-agent值。一定要复制粘贴完整!!!(不同的浏览器可能位置不同,这两个值就在右侧的”标头“中下滑鼠标查找即可。)

二、重要参数-视频链接的转换方式:

1、dy平台的数据采集,需要将我们待采集的视频链接进行转换后才能使用:

  1. 首先进入我们需要待采集的视频
  2. 点选界面右侧“分享”按钮-点选“复制链接”
  3. 将复制好的链接粘贴至浏览器输入框中,不要按确认键!!!这个链接就是我们要转换的链接。(或者也可以复制粘贴到新建一个txt文本中待用)。
  4. 注意!重点!以上图视频举例,此时复制过来的链接形式一般是这样的:

“7.99 jPx:/ o@q.Rx 04/03 《车祸模拟器》嘿嘿,我下次一定做个好司机 # steam游戏 # 出租生涯模拟城市驾驶 https://v.douyin.com/iFMth11f/ 复制此链接!”

  1. 其中的标红字段(https://v.douyin.com/iFMth11f/)才是采集需要的转换链接,复制-粘贴到浏览器输入框-回车键确认即可自动转换链接,此时该链接会在浏览器输入框中转换成“https://www.douyin.com/video/7344246197063781643”。
  2. 将以上转换后的视频链接复制粘贴入软件对应参数输入框中即可。
  3. 其他视频链接转换同以上方式操作即可。

2024年最新dy视频评论爬虫采集纯python代码编辑以及封装成采集软件使用教程 第1张

2024年最新dy视频评论爬虫采集纯python代码编辑以及封装成采集软件使用教程 第5张

2024年最新dy视频评论爬虫采集纯python代码编辑以及封装成采集软件使用教程 第6张


免责声明
1、本网站属于个人的非赢利性网站,转载的文章遵循原作者的版权声明。
2、本网站转载文章仅为传播更多信息之目的,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所
提供信息的准确性及可靠性,但不保证信息的正确性和完整性,且不对因信息的不正确或遗漏导致的任何
损失或损害承担责任。
3、任何透过本网站网页而链接及得到的资讯、产品及服务,本网站概不负责,亦不负任何法律责任。
4、本网站所刊发、转载的文章,其版权均归原作者所有,如其他媒体、网站或个人从本网下载使用,请在
转载有关文章时务必尊重该文章的著作权,保留本网注明的“稿件来源”,并白负版权等法律责任。

手机扫描二维码访问

文章版权声明:除非注明,否则均为主机测评原创文章,转载或复制请以超链接形式并注明出处。

发表评论

快捷回复: 表情:
评论列表 (暂无评论,2363人围观)

还没有评论,来说两句吧...

目录[+]