将得到的html进行数据清洗,取出职位的URL
运行该项目,需要先安装python3以上的版本
pip install -r requirements.txt
2.消息队列配置文件,在config/mq_config.ini.sample,将其修改为config/mq_config.ini,其中配置默认情况如下:
# mq_config(UTF-8)
[mq_positions_url_html]
host=192.168.0.4:9092
group=positions_url_html
topic=positions_url_html
根据kafka地址的不同修改host参数,group和topic分别为kafka配置中的groupId和topicId。
3.API接口,处理数据完成后,需要调用的接口,在config/api_config.ini.sample,将其修改为config/api_config.ini, 若本项目(redas_html_to_pos_urls)和redas_api_core在同一台服务器上,默认配置如下:
# api_config(UTF-8)
[api_url_config]
send_url=http://127.0.0.1:8080/position/addUrl
若不在同一台服务器上,需要对send_url进行配置,将127.0.0.1配置成redas_api_core所在服务器地址
4.日志相关配置文件,在config/log.ini.sample,将其修改为config/log.ini,默认配置:
[loggers]
keys = root
[formatters]
keys = defaultFormatter
[formatter_defaultFormatter]
format = %(asctime)s %(process)s [%(levelname)s] %(message)s
datefmt = %Y-%m-%d %H:%M:%S
class = logging.Formatter
[handlers]
keys = defaultHandler, fileHandler
[handler_defaultHandler]
class = StreamHandler
level = DEBUG
formatter = defaultFormatter
args = (sys.stdout,)
[handler_fileHandler]
class = logging.handlers.RotatingFileHandler
level = DEBUG
formatter = defaultFormatter
args = ('error.log', 'a', 100000000, 3, 'utf-8', False)
[logger_root]
level = DEBUG
handlers = defaultHandler, fileHandler
qualname = root
5.sppm_env配置,在.sppm_env.sample,将其修改为.sppm_env,如果同一台服务器上运行了使用sppm库的程序,请将默认配置进行修改,否则会出现严重bug,默认配置:
pid=/tmp/example.pid
child_pid=/tmp/example_child.pid
lock=/tmp/example.lock
log=/tmp/example.log
timeout=5
6.运行
python3 positions_url_html_consumer.py --start
7.关于运行、停止、sppm日志等级设置,请阅读sppm
(https://github.com/geekcampchina/SamplePythonProcessManager
)文档。
usage: examples/example.py --no-daemon -d -v -l [--start|--stop|--reload|--shutdown|--restart|--status]
简化进程管理的命令行工具
optional arguments:
-h, --help show this help message and exit
--no-daemon 不使用进程管理模式
-l {0,1,2,3,4,5}, --log-level {0,1,2,3,4,5}
日志级别,CRITICAL|ERROR|WARNING|INFO|DEBUG|TRACE,默认等级3(INFO)
--start 启动子进程
--stop 等待子进程正常退出
--reload 等待子进程正常退出,并启动新的子进程
--shutdown 强制杀掉子进程
--restart 强制杀掉子进程,并启动新的子进程
--status 显示子进程状态
-v, --version 显示版本信息
此处可能存在不合适展示的内容,页面不予展示。您可通过相关编辑功能自查并修改。
如您确认内容无涉及 不当用语 / 纯广告导流 / 暴力 / 低俗色情 / 侵权 / 盗版 / 虚假 / 无价值内容或违法国家有关法律法规的内容,可点击提交进行申诉,我们将尽快为您处理。