脚本宝典收集整理的这篇文章主要介绍了第一次个人编程作业,脚本宝典觉得挺不错的,现在分享给大家,也给大家做个参考。
这个作业属于哪个课程 | 班级链接 |
---|---|
这个作业要求在哪里 | 作业要求 |
这个作业的目标 | 论文查重算法实现+单元测试使用+学会程序性能分析+程序结构设计 |
本人GIThub | 3119005424 |
PSP2.1 | PErsonal Software PRocess Stages | 预计耗时(分钟) | 实际耗时(分钟) |
---|---|---|---|
Planning | 计划 | 30 | 65 |
EstiMATE | 估计这个任务需要多少时间 | 10 | 5 |
Development | 开发 | 360 | 540 |
Analysis | 需求分析(包括学习新技术) | 300 | 370 |
Design Spec | 生成设计文档 | 30 | 35 |
Design review | 设计复审 | 20 | 30 |
Coding Standard | 代码规范(为目前的开发制定合适的规范) | 30 | 45 |
Design | 具体设计 | 60 | 45 |
Coding | 具体编码 | 240 | 410 |
Code Review | 代码复审 | 30 | 40 |
test | 测试(自我测试,修改代码,提交修改) | 60 | 25 |
Reporting | 报告 | 30 | 45 |
Test Reporting | 测试报告 | 30 | 50 |
Size Measurement | 计算工作量 | 15 | 10 |
Postmortem & Process Improvement Plan | 事后总结,并提出过程改进计划 | 15 | 25 |
合计 | 1260 | 1695 |
jieba库
@H_304_221@
1.支持三种分词模式:
2.jieba自带了一个叫做dict.txt的词典, 里面有2万多条词
3.jieba分词应该属于概率语言模型分词
4.总而言之,jieba库是我在网上查阅资料之后,确定的最全面且使用的python中文分词组件,因为此前也没有系统学习过python,使用这个库是对于我而言较为实际的选择。
jieba.analyse jieba.analyse.extract_tags(sentence, topK=n, withWeight=True) 参数说明 :
原理: jieba.analyse.extract_tags()提取关键字的原理是使用TF-iDF算法
Jaccard相似度算法 jaccard index又称为jaccard similarity coefficient用于比较有限样本集之间的相似性和差异性。 主要应用场景: 比较文本的相似度,用于文本的查重与去重 计算对象间的距离,用于数据聚类
用于衡量有限样本集之间的相似程度:
jaccard距离公式:
jaccard系数取值范围[0,1] 当A==B时,jaccard系数为1;当A与B不相交,jaccard系数为0 jaccard距离表示样本或集合的不相似程度,jaccard距离越大,样本相似度越低。
关于Jaccard函数的使用
对分词的关键词进行提取与处理
首先对分词与关键词进行提取,再进行Jaccard相似度计算,并且除0处理异常的捕捉
当键盘键入的文件路径错误时,会提醒“文件路径错误”,并允许重新输入可进行多次查重对比
以上是脚本宝典为你收集整理的第一次个人编程作业全部内容,希望文章能够帮你解决第一次个人编程作业所遇到的问题。
本图文内容来源于网友网络收集整理提供,作为学习参考使用,版权属于原作者。
如您有任何意见或建议可联系处理。小编QQ:384754419,请注明来意。