现有2012年历史开房数据无需抓取。
数据处理主要包括数据清洗、数据转化、数据抽取、数据合并、数据计算等处理方法将各种原始数据加工成为数据分析所要求的样式。数据处理是数据分析最耗时一个过程数据处理都是在mysql数据库通过sql语句进行处理的。
15位身份证号码各位的含义:
1-2位省、自治区、直辖市代码;
3-4位地级市、盟、自治州代码;
5-6位县、县级市、区玳码;
13-15位为顺序号其中第15位男为单数,女为双数
201 001的含义; 13为河北,05为邢台03为桥西区,出
生日期为1937年2月1日性别男。
18位身份证号码的含義:
1-2位省、自治区、直辖市代码;3-4位地级市、盟、自治州代码;5-6位县、县级市、区代码;
7-14位出生年月日比如代表1937年2月1日;15-17位为顺序号,
其Φ17位(倒数第二位)男为单数女为双数;
的含义; 13为河北,05为邢台03为桥西区,出
生日期为1937年2月1日性别男。
经过数据处理后还有19,704,000条记錄,不到2000万条并存入csv文件,有些直接查mysql分析统计有些需要通过csv文件分析统计
通过对性别列groupby进行统计,最后统计男性有12,722,240条占比(60万)、(27万),邮箱还是qq和163占据绝大市场
#使用cursor()方法创建一个游标对象 #关闭游标和数据库的连接数据展现图(柱状图)如下:
现有2012年历史开房数据无需抓取。
数据处理主要包括数据清洗、数据转化、数据抽取、数据合并、数据计算等处理方法将各种原始数据加工成为数据分析所要求的样式。数据处理是数据分析最耗时一个过程数据处理都是在mysql数据库通过sql语句进行处理的。
15位身份证号码各位的含义:
1-2位省、自治区、直辖市代码;
3-4位地级市、盟、自治州代码;
5-6位县、县级市、区玳码;
13-15位为顺序号其中第15位男为单数,女为双数
201 001的含义; 13为河北,05为邢台03为桥西区,出
生日期为1937年2月1日性别男。
18位身份证号码的含義:
1-2位省、自治区、直辖市代码;3-4位地级市、盟、自治州代码;5-6位县、县级市、区代码;
7-14位出生年月日比如代表1937年2月1日;15-17位为顺序号,
其Φ17位(倒数第二位)男为单数女为双数;
的含义; 13为河北,05为邢台03为桥西区,出
生日期为1937年2月1日性别男。
经过数据处理后还有19,704,000条记錄,不到2000万条并存入csv文件,有些直接查mysql分析统计有些需要通过csv文件分析统计
通过对性别列groupby进行统计,最后统计男性有12,722,240条占比(60万)、(27万),邮箱还是qq和163占据绝大市场
#使用cursor()方法创建一个游标对象 #关闭游标和数据库的连接数据展现图(柱状图)如下: