4 Star 0 Fork 0

Redas / redas_html_to_pos_urls

加入 Gitee
与超过 1200万 开发者一起发现、参与优秀开源项目,私有仓库也完全免费 :)
免费加入
该仓库未声明开源许可证文件(LICENSE),使用请关注具体项目描述及其代码上游依赖。
克隆/下载
贡献代码
同步代码
取消
提示: 由于 Git 不支持空文件夾,创建文件夹后会生成空的 .keep 文件
Loading...
README

redas_html_to_pos_urls

将得到的html进行数据清洗,取出职位的URL

Getting Start

运行该项目,需要先安装python3以上的版本

  1. 首先,执行以下命令安装需要的库,pip命令可能因为版本的不同而不同,如python3.6,pip可能为pip3.6或pip3。
pip install -r requirements.txt

2.消息队列配置文件,在config/mq_config.ini.sample,将其修改为config/mq_config.ini,其中配置默认情况如下:

# mq_config(UTF-8)
[mq_positions_url_html]
host=192.168.0.4:9092
group=positions_url_html
topic=positions_url_html

根据kafka地址的不同修改host参数,group和topic分别为kafka配置中的groupId和topicId。

3.API接口,处理数据完成后,需要调用的接口,在config/api_config.ini.sample,将其修改为config/api_config.ini, 若本项目(redas_html_to_pos_urls)和redas_api_core在同一台服务器上,默认配置如下:

# api_config(UTF-8)
[api_url_config]
send_url=http://127.0.0.1:8080/position/addUrl

若不在同一台服务器上,需要对send_url进行配置,将127.0.0.1配置成redas_api_core所在服务器地址

4.日志相关配置文件,在config/log.ini.sample,将其修改为config/log.ini,默认配置:

[loggers]
keys = root

[formatters]
keys = defaultFormatter

[formatter_defaultFormatter]
format = %(asctime)s %(process)s [%(levelname)s] %(message)s
datefmt = %Y-%m-%d %H:%M:%S
class = logging.Formatter

[handlers]
keys = defaultHandler, fileHandler

[handler_defaultHandler]
class = StreamHandler
level = DEBUG
formatter = defaultFormatter
args = (sys.stdout,)

[handler_fileHandler]
class = logging.handlers.RotatingFileHandler
level = DEBUG
formatter = defaultFormatter
args = ('error.log', 'a', 100000000, 3, 'utf-8', False)

[logger_root]
level = DEBUG
handlers = defaultHandler, fileHandler
qualname = root

5.sppm_env配置,在.sppm_env.sample,将其修改为.sppm_env,如果同一台服务器上运行了使用sppm库的程序,请将默认配置进行修改,否则会出现严重bug,默认配置:

pid=/tmp/example.pid
child_pid=/tmp/example_child.pid
lock=/tmp/example.lock
log=/tmp/example.log
timeout=5

6.运行

python3 positions_url_html_consumer.py --start

7.关于运行、停止、sppm日志等级设置,请阅读sppm(https://github.com/geekcampchina/SamplePythonProcessManager)文档。

usage: examples/example.py --no-daemon -d -v -l [--start|--stop|--reload|--shutdown|--restart|--status]

简化进程管理的命令行工具

optional arguments:
-h, --help            show this help message and exit
--no-daemon           不使用进程管理模式
-l {0,1,2,3,4,5}, --log-level {0,1,2,3,4,5}
                      日志级别,CRITICAL|ERROR|WARNING|INFO|DEBUG|TRACE,默认等级3(INFO)
--start               启动子进程
--stop                等待子进程正常退出
--reload              等待子进程正常退出,并启动新的子进程
--shutdown            强制杀掉子进程
--restart             强制杀掉子进程,并启动新的子进程
--status              显示子进程状态
-v, --version         显示版本信息

空文件

简介

从职位列表HTML转换为职位详情URL 展开 收起
Python
取消

发行版

暂无发行版

贡献者

全部

近期动态

加载更多
不能加载更多了
Python
1
https://gitee.com/redas/redas_html_to_pos_urls.git
git@gitee.com:redas/redas_html_to_pos_urls.git
redas
redas_html_to_pos_urls
redas_html_to_pos_urls
master

搜索帮助