UNJu : Ingeniería Informática: Tesis que aplicó Técnicas de Minería de Textos en la detección explícita de plagio de artículos científicos

 

Pablo Nicolás Ramos y Ricardo Daniel Pérez defendieron su Trabajo Final titulado "Aplicación de Técnicas de Minería de Textos en la detección explícita de plagio de artículos científicos orientados a las Ciencias de la Computación, utilizando Base de Datos NoSQL" correspondiente a la carrera Ingeniería Informática de la Facultad de Ingeniería (FI) de la Universidad Nacional de Jujuy (UNJu), el pasado 25 de marzo. La Tesis estuvo dirigida por el Esp. Ing. José Humberto Farfán y la Ing. Mariela Ester Rodríguez.

Abordaje de la temática

Los flamantes nuevos graduados Ingenieros Pablo Nicolás Ramos y Ricardo Daniel Pérez explicaron que su Trabajo buscó aplicar técnicas de Minería de Textos para el desarrollo de un prototipo de sistema para la Detección Explícita de Plagio utilizando Base de Datos NoSQL que resguarden artículos científicos relacionados a las Ciencias de la Computación en la Universidad Nacional de Jujuy. Con ese fin, estudiaron conceptos de Minería de Datos, Minería de Textos, Recuperación y Extracción de Información, Base de Datos NoSQL, técnicas del Procesamiento del Lenguaje Natural, y varios algoritmos de Machine Learning, “nuestro software consta de dos enfoques, uno es el algoritmo de plagio intrínseco el cual tratar de descubrir anomalías dentro de un único documento, para que después esos fragmentos sospechoso sean buscados en el motor de base de datos que hemos elegido, el cual es ArangoDB (este último paso, se denomina detección explícita de plagio)”, sostuvieron.

 Entre las conclusiones alcanzadas, indicaron que su enfoque de detección de plagio explícito “es prometedor, al ser una tarea de clasificación binaria, nuestro modelo SVM y Naive Bayes trabajan adecuadamente, y lo más satisfactorio fue el método de segmentación que proponemos, donde mejoró mucho la performance de ambos enfoques, ya que proponemos una segmentación dinámica, algo que no vimos en la literatura”, explicaron.

 En ese marco, hicieron saber que su trabajo incluyó varias áreas de las ciencias de la computación, a saber: “Procesamiento del Lenguaje Natural para representar los textos en un formato adecuado con el fin de aplicar técnicas de Machine Learning y así obtener modelos matemáticos que nos permitan, con algún grado de precisión, saber la probabilidad de plagio entre un documento sospechoso y los documentos que se almacenan en una Base de Datos NoSQL; en la conformación de la base de datos de corpus textual se emplearon algoritmos de Web Scrapping para extraer documentos científicos de ciencias de la computación del repositorio del SEDICI; es decir, primero nos enfocamos en las técnicas de Procesamiento del Lenguaje Natural y Machine Learning y así obtener los modelos matemáticos que luego serán utilizados en una aplicación web conectada a una Base de Datos NoSQL; y el lenguaje de programación que utilizamos fue Python, tanto para Machine Learning como Web Scrapping, y finalmente para la aplicación web; y la base de datos NoSQL fue ArangoDB”.

 Contribución a la sociedad

Respecto al alcance social de su investigación, los nuevos profesionales indicaron que su trabajo “ayuda a combatir a uno de los peores delitos que se pueden atribuir a una persona, como lo es el plagio”, y ejemplificaron que “en países como Alemania varios funcionarios de alto rango debieron renunciar por plagiar sus tesis doctorales, también hubo un caso en Argentina donde dos alumnos plagiaron su tesis de grado y cuando los descubrieron tuvieron que volver atrás y revalidar el título, por lo que en términos de ciencia e investigación, aportamos un nuevo método de segmentación textual al que denominamos ‘gramas de palabras de parada n’, el cual nos permitió mejorar la performance de nuestros algoritmos, tanto a nivel de aprendizaje automático no supervisado como en machine learning supervisado”. En ese sentido, sostuvieron  que su trabajo puede tener grandes implicancias, “si los evaluadores de artículos científicos de ciencias de la computación deciden usarlo para evaluar diversos papers, ya que nuestra base de datos cada semana crecería más y más, en consecuencia, se tendrá un mayor control sobre la producción científica en el área de la informática”.

 Terminar una carrera y recibirse

El Ingeniero Ricardo Daniel Pérez de 27 años de edad compartió que esta instancia de finalización de la carrera “significa haber logrado uno de mis objetivos, el cual era aprender de forma profunda los conceptos arraigados a la Informática, como lo es la matemática, la lógica y los conceptos de Ingeniería de Software que son tan necesarios para diseñar y desarrollar software del más alto nivel”. Y que se abocará al emprendimiento “y a tratar de crear productos de software novedosos que tengan un alto impacto en la sociedad”, adelantó.

 Por su parte, el Ingeniero Pablo Nicolás Ramos de 30 años de edad, compartió “soy un caso particular porque cuando salí del secundario estuve seis años sin estudiar, y de un día para otro decidí inscribirme a la carrera de Ingeniería Informática, entonces diría que para mí el haber terminado la carrera significa dar por sentado que el cambio que hice en mi vida fue bueno, ahora voy a poder ejercer una profesión que me gusta muchísimo y voy a aportar para solucionar problemas reales, a través del conocimiento que adquirí a lo largo de la carrera y los que adquiero de forma autodidacta”, apuntó. Actualmente, el Ing. Ramos se encuentra desempeñando su profesión, “tengo pensado hacer un Doctorado en el área de la Inteligencia Artificial, más precisamente en Clasificación de Imágenes, pero si tengo la oportunidad de abarcar el área de la Lingüística Computacional también lo haría, hay que ver que oportunidades se me abren en el mundo académico”, dijo. Y entre otros proyectos personales, se encuentra el conformar una empresa propia dedicada a la Inteligencia Artificial.

 Trayecto académico: cómo eligieron Ingeniería Informática y lo que se llevan

El Ing. Pablo Nicolás Ramos contó de su apego a las Matemáticas y la Astronomía, “lo que me llevó a elegir la carrera de Ingeniería Informática fue su salida laboral y la lógica que uno adquiere a lo largo la misma, hubo ciertos períodos de tiempo durante la carrera que me sentía más atraído por la Física pero luego me dije a mi mismo que voy a terminar Ingeniería Informática y después en un futuro iba aplicar mis conocimientos informáticos en el campo de la Física o la Astronomía empleando Inteligencia Artificial”. Además, hizo saber que su padre es Ingeniero y sabía que se dictaba la carrera de Ingeniería en Informática en la Facultad de Ingeniería de la UNJu, “así que tenía dos opciones, ir a la UCSE o venir a la UNJu, no lo dude ni dos segundos y preferí estudiar en la FI UNJu”, dijo.

 En cuanto a su desempeño como estudiante universitario, “me fue grato porque aprendí muchos conceptos que provocaron que quiera aprender más de manera autodidacta, también aprendí a trabajar en equipo, algo que no podía realizar antes”, contó; y añadió que además, se lleva de la Facultad “las amistades y las ganas que le ponían los profesores apasionados de sus materias, eso hizo que yo quiere superarme cada vez más”. En ese sentido, recordó, “para cada final que he rendido, daba todo de mí para tener una buena nota, y al mismo tiempo, cuando estudiaba para cada uno de ellos, siempre compartíamos conocimiento con mis compañeros más cercanos para llegar de la mejor manera a cada examen, y eso son sucesos que uno no olvida y que siempre quedan en la memoria de cada uno”.

 En tanto, el Ing. Ricardo Daniel Pérez contó que daba por sentado que estudiaría Ingeniería Informática, “siempre me sentí atraído por la programación y la matemática, de hecho, comencé a programar desde los 12 años en Visual Basic”, por lo que cuando finalizó la secundaria “navegué por Internet y me fijé la oferta académica, y como en la misma estaba Ingeniería Informática, la elegí”.

 Su trayecto como estudiante en la Facultad “fue tranquilo, siempre traté de llevar mis materias al día y trabajar conjuntamente con mis compañeros de clases más cercanos”. Se lleva las amistades que conformó en sus años de estudio y recordó “en la materia de Sistemas Operativos, antes de cada parcialito, nos juntábamos con todos nuestros compañeros y nos poníamos a debatir sobre lo que habíamos estudiado para ver si todos comprendimos los conceptos leídos, esa fue una grata experiencia porque todos colaboramos para poder afianzar conceptos y, en consecuencia, aprobar la materia”, destacó.


 Para futuros ingresantes a la carrera Ingeniería Informática:

“El consejo que les daría es que en sus tiempos libres le dediquen tiempo a la programación porque es algo que te cambia el cerebro, te ayuda a ser más lógico y a resolver problemas de la vida real. Y que traten de estudiar las nuevas tecnologías para tener una mejor salida laboral.”

 Ing. Ricardo Daniel Pérez

  “Estudien bien los cimientos básicos de la Ingeniería Informática, porque todos los conceptos están relacionados entre sí cuando salís al mundo laboral, y cada vez que tengan que rendir un examen final, sólo lo hagan cuando hayan estudiado todo o bien si se sienten bien seguros de dar un buen examen, porque tener un buen promedio luego los va a ayudar para adquirir becas de investigación.”



Compartir en Google Plus

Periodista: huellas de jujuy

Trabajamos por una sociedad mas informada y comunicada con un profundo compromiso con la realidad informativa de la provincia de Jujuy, el país y el mundo.