如何实现JavaScript文章内容截取并保持HTML结构完整显示的代码分享?

2026-06-09 03:551阅读0评论SEO基础
  • 内容介绍
  • 文章标签
  • 相关推荐

本文共计800个文字,预计阅读时间需要4分钟。

如何实现JavaScript文章内容截取并保持HTML结构完整显示的代码分享?

由于直接去除HTML格式后的内容可能不符合预期,我们可以尝试一种更精细的方法来提取所需内容。以下是一种可能的解决方案:

pythonimport re

def extract_content(_content): # 使用正则表达式匹配并去除HTML标签 text=re.sub(r']+>', '', _content) return text

示例HTML内容_content= 示例

这是正文内容

这里是div标签内的内容

这是另一段正文内容

提取内容extracted_text=extract_content(_content)print(extracted_text)

这段代码使用正则表达式`]+>`来匹配并去除HTML标签,从而提取出HTML内容中的文本。这种方法能够有效去除大部分HTML标签,但可能无法处理复杂的HTML结构。如果需要处理更复杂的HTML,可能需要使用专门的HTML解析库,如BeautifulSoup。

因为是html格式的内容,直接截取内容的前多少字符显然不合适了。而如果直接去掉所有html格式然后再截取又无法达到想要的效果,再网上搜了一通之后,写下如下代码应该可以满足基本的要求

因为是html格式的内容,直接截取内容的前多少字符显然不合适了。而如果直接去掉所有html格式然后再截取又无法达到想要的效果,再网上搜了一通之后,写下如下代码应该可以满足基本的要求了。(js写的,因为容易调试)

代码如下:var br = {}; br.spTags = [“img”,”br”,”hr”];/*不需要成对出现的标记*/ br.cOntain= function(arr,it){ for(var i=0,len=arr.length;i”){ isInTag = false; } } /*对字串进行处理*/ var j=0; isInTag = false; var isStartTag = true; var tagTemp = “”; while(j” || w==” ” || w==”/”){ isInTag = false; if(isStartTag){ startTags.push(tagTemp); }else{ endTags.push(tagTemp); } tagTemp = “”; } if(isInTag){ tagTemp+=w; } } if(w==”<“){ isInTag = true; if(result[j+1]==”/”){ isStartTag = false; j++; }else{ isStartTag = true; } } j++; } /*剔除img,br等不需要成对出现的标记*/ var newStartTags = []; for(var x=0,len=startTags.length;x0){ result.push(“<“); result.push(“/”) result.push(newStartTags[unEndTagsCount-1]); result.push(“>”); unEndTagsCount–; } return result.join(“”); };

基本思路:

1.绕过标记,取得实际内容字数 ,如需要显示内容前100个字,绕过标记检索,得到第一百个字实际的索引。然后截取此索引前面的字串。

2.根据一得到的字串,得到这个字串中存在的开始标记和结束标记。注:此处的开始标记标识以”<“开通,且下一个字符不为”/”。

3.剔除2中 得到的开始标记中的不需要成对出现的标记。如br,img,hr等。

4.对比经过3处理的开始标记和2中得到的结束标记,没有配成对的在合适的位置为其配对。

此功能没有经过严格的测试,大家若有兴趣可以可以帮忙测试,有更好的想法的也可以回帖讨论。

如何实现JavaScript文章内容截取并保持HTML结构完整显示的代码分享?

作者:cnblogs bravfing

—-想了解更多的linux相关异常处理怎么解决关注



本文共计800个文字,预计阅读时间需要4分钟。

如何实现JavaScript文章内容截取并保持HTML结构完整显示的代码分享?

由于直接去除HTML格式后的内容可能不符合预期,我们可以尝试一种更精细的方法来提取所需内容。以下是一种可能的解决方案:

pythonimport re

def extract_content(_content): # 使用正则表达式匹配并去除HTML标签 text=re.sub(r']+>', '', _content) return text

示例HTML内容_content= 示例

这是正文内容

这里是div标签内的内容

这是另一段正文内容

提取内容extracted_text=extract_content(_content)print(extracted_text)

这段代码使用正则表达式`]+>`来匹配并去除HTML标签,从而提取出HTML内容中的文本。这种方法能够有效去除大部分HTML标签,但可能无法处理复杂的HTML结构。如果需要处理更复杂的HTML,可能需要使用专门的HTML解析库,如BeautifulSoup。

因为是html格式的内容,直接截取内容的前多少字符显然不合适了。而如果直接去掉所有html格式然后再截取又无法达到想要的效果,再网上搜了一通之后,写下如下代码应该可以满足基本的要求

因为是html格式的内容,直接截取内容的前多少字符显然不合适了。而如果直接去掉所有html格式然后再截取又无法达到想要的效果,再网上搜了一通之后,写下如下代码应该可以满足基本的要求了。(js写的,因为容易调试)

代码如下:var br = {}; br.spTags = [“img”,”br”,”hr”];/*不需要成对出现的标记*/ br.cOntain= function(arr,it){ for(var i=0,len=arr.length;i”){ isInTag = false; } } /*对字串进行处理*/ var j=0; isInTag = false; var isStartTag = true; var tagTemp = “”; while(j” || w==” ” || w==”/”){ isInTag = false; if(isStartTag){ startTags.push(tagTemp); }else{ endTags.push(tagTemp); } tagTemp = “”; } if(isInTag){ tagTemp+=w; } } if(w==”<“){ isInTag = true; if(result[j+1]==”/”){ isStartTag = false; j++; }else{ isStartTag = true; } } j++; } /*剔除img,br等不需要成对出现的标记*/ var newStartTags = []; for(var x=0,len=startTags.length;x0){ result.push(“<“); result.push(“/”) result.push(newStartTags[unEndTagsCount-1]); result.push(“>”); unEndTagsCount–; } return result.join(“”); };

基本思路:

1.绕过标记,取得实际内容字数 ,如需要显示内容前100个字,绕过标记检索,得到第一百个字实际的索引。然后截取此索引前面的字串。

2.根据一得到的字串,得到这个字串中存在的开始标记和结束标记。注:此处的开始标记标识以”<“开通,且下一个字符不为”/”。

3.剔除2中 得到的开始标记中的不需要成对出现的标记。如br,img,hr等。

4.对比经过3处理的开始标记和2中得到的结束标记,没有配成对的在合适的位置为其配对。

此功能没有经过严格的测试,大家若有兴趣可以可以帮忙测试,有更好的想法的也可以回帖讨论。

如何实现JavaScript文章内容截取并保持HTML结构完整显示的代码分享?

作者:cnblogs bravfing

—-想了解更多的linux相关异常处理怎么解决关注