使用lxml中etree提取文字 - 195幻想曲

ZBlogIt

欢迎光临，有什么想法就留言告诉我吧！

你的精彩评论可能会出现在这里哦！留言抢沙发

技术坑

scrapy使用xpath的text提取文字内容出现丢失

mtsym 发表于2019-06-21 浏览4663 评论0

使用python库scrapy在提取html内容的时候, 如果需要提取的标签中有em一类标签, 这时候使用text进行提取就会出现内容丢失，比如

go微架go-micro深度学园

这时候可以考虑手动提取, 或者使用lxml库中的etree


html = etree.HTML(html_text)
title = ''.join(html.xpath('.//text()'))
```<!--autointro-->

« 2025年8月 »
一	二	三	四	五	六	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

控制面板

您好，欢迎到访网站！
查看权限

网站分类

最近发表

最新留言